Le risque bêta : le défaut que votre test statistique ne voit pas

Deux risques, un seul connu

Quand on fait un test statistique — t-test, ANOVA, carte de contrôle SPC — on prend toujours une décision binaire : rejeter H₀ (il y a un effet) ou ne pas rejeter H₀ (pas d’effet détecté).

Cette décision peut être fausse de deux manières :

	H₀ vraie (process OK)	H₁ vraie (process décalé)
Rejeter H₀	Erreur α — fausse alerte	Décision correcte
Ne pas rejeter H₀	Décision correcte	Erreur β — défaut non détecté

Le risque α (fausse alerte) est toujours fixé — en général à 5%. Le risque β (défaut non détecté) est rarement calculé, souvent ignoré, et c’est lui qui coûte le plus cher.

Ce que ça veut dire concrètement

Imaginez une ligne d’usinage. La cote nominale est 25,00 mm. Le process a dérivé de +3 mm — la moyenne réelle est maintenant à 28,00 mm.

Vous prélevez 5 pièces, vous faites un test. Résultat : « pas de différence significative ».

Est-ce que le process est OK ? Non. Le process est décalé de 3 mm. Mais votre test n’avait pas assez de puissance pour le détecter. Vous avez commis une erreur β.

Les 500 pièces suivantes sortent hors tolérance. Le coût : retouche, rebut, retard client.

Les deux gaussiennes

La vidéo ci-dessus montre exactement le mécanisme :

Gaussienne verte (H₀) : la distribution du process quand tout va bien (μ = 25 mm)
Gaussienne corail (H₁) : la distribution réelle quand le process a dérivé (μ = 28 mm)
Le seuil de décision : la ligne verticale entre les deux
Zone α (vert clair) : la queue de H₀ au-delà du seuil — les fausses alertes
Zone β (corail clair) : la queue de H₁ en deçà du seuil — les défauts qu’on rate

Les formules

Risque α (fausse alerte)

$\alpha = P(\text{rejeter } H_0 \mid H_0 \text{ vraie})$

On le fixe. En général α = 0,05. C’est un choix.

Risque β (défaut non détecté)

$\beta = P(\text{ne pas rejeter } H_0 \mid H_1 \text{ vraie})$

On ne le fixe pas — il dépend de :

La taille de l’échantillon $n$
La taille de l’effet $\delta = \frac{|\mu_1 - \mu_0|}{\sigma}$
Le seuil α choisi

Puissance du test

$\text{Puissance} = 1 - \beta = P(\text{rejeter } H_0 \mid H_1 \text{ vraie})$

La puissance est la probabilité de détecter un vrai effet. Un test puissant détecte les petites dérives. Un test faible les rate.

Formule approchée pour un t-test bilatéral

$n \approx \left( \frac{z_{1-\alpha/2} + z_{1-\beta}}{\delta} \right)^2$

Avec $\delta = \frac{|\mu_1 - \mu_0|}{\sigma}$ (taille d’effet en unités de σ), et $z$ les quantiles de la loi normale.

Le tableau que tout ingénieur qualité devrait avoir

Pour un t-test bilatéral, α = 0,05, puissance = 80% (β = 0,20) :

Taille d’effet δ	Description	n par groupe	Exemple industriel
0,2	Petit	394	Dérive de 0,2σ sur une cote — quasi indétectable
0,5	Moyen	64	Changement de lot matière — détectable avec effort
0,8	Grand	26	Usure d’outil franche — détectable facilement
1,0	Très grand	17	Changement de réglage — évident si on mesure
2,0	Massif	6	Panne de buse — visible à l’œil

Lecture : pour détecter un shift de 0,5σ avec 80% de chances, il faut 64 mesures par groupe. Avec 5 mesures, la puissance tombe à ~10% — autant lancer une pièce.

Pourquoi le β est ignoré en industrie

1. L’obsession du α

Les formations Six Sigma enseignent α = 0,05. Point. La puissance est rarement abordée. Résultat : des ingénieurs qui font des tests sur 5 pièces et concluent « pas de différence significative » sans réaliser que leur test ne pouvait rien détecter.

2. La confusion entre « non significatif » et « pas d’effet »

« p > 0,05 » ne signifie PAS « il n’y a pas de différence ». Cela signifie « avec cet échantillon, on ne peut pas prouver qu’il y a une différence ».

La nuance est cruciale. Un petit échantillon donne toujours p > 0,05, même si l’effet est énorme — parce que la puissance est trop faible.

3. Le coût asymétrique

En industrie, le coût d’une fausse alerte (α) est un arrêt de ligne inutile : quelques heures. Le coût d’un défaut non détecté (β) est un lot complet de pièces non conformes : des jours, parfois des semaines.

$\frac{\text{Coût}(\beta)}{\text{Coût}(\alpha)} \gg 1$

Pourtant on calibre α avec soin et on ignore β. C’est l’inverse de ce que la logique économique recommande.

Comment réduire le risque β

1. Augmenter la taille d’échantillon

C’est le levier principal. Passer de n = 5 à n = 30 peut faire passer la puissance de 15% à 85% pour un shift de 1σ.

2. Augmenter α (accepter plus de fausses alertes)

Passer de α = 0,05 à α = 0,10 augmente la puissance. Si le coût de β >> coût de α, c’est rationnel.

3. Réduire la variabilité (σ)

Moins de bruit → plus facile de détecter un signal. C’est le fondement du Six Sigma.

4. Utiliser un test unilatéral si la direction est connue

Si vous savez que la dérive ne peut aller que dans un sens (usure = augmentation de cote), un test unilatéral a plus de puissance.

5. Utiliser des cartes EWMA ou CUSUM au lieu de Xbar

Les cartes EWMA et CUSUM sont plus puissantes que Xbar-R pour détecter les petites dérives (<1,5σ). Voir notre article SPC.

En résumé

Le risque β est le danger caché des tests statistiques en industrie.
« Non significatif » ≠ « pas d’effet » — c’est souvent « pas assez de données ».
Calculez la puissance AVANT de faire le test — pas après.
Dimensionnez l’échantillon en fonction de l’effet que vous voulez détecter.
En industrie, β coûte plus cher que α — calibrez vos tests en conséquence.

Le didacticiel tests d’hypothèses de BCUB3 calcule automatiquement la puissance et recommande la taille d’échantillon adaptée.