L’arbre de décision : quel test statistique choisir
Un processus de production pose une question. Les données contiennent la réponse. Le test statistique est le pont entre les deux.
Le problème en usine n’est presque jamais la complexité du calcul — c’est le choix du bon test. Un t-test appliqué là où il faut une ANOVA donne un résultat faux. Un test paramétrique lancé sur des données non-normales donne un résultat trompeur.
Ce guide fournit l’arbre de décision, les conditions d’application, et les seuils pratiques pour chaque situation terrain.
L’arbre se lit de haut en bas, en répondant à quatre questions dans l’ordre.
Question 1 — Les données sont-elles continues ou catégorielles ?
- Catégorielles (comptages, taux, catégories : OK/NOK, équipe matin/soir/nuit) → Chi²
- Continues (mesures : cotes, poids, température, temps de cycle) → Question 2
Question 2 — Combien de groupes compare-t-on ?
- 1 groupe vs une valeur de référence → Question 3a
- 2 groupes → Question 3b
- 3 groupes ou plus → Question 3c
Question 3a — Un groupe, données continues
- Normalité vérifiée → Test t pour un échantillon
- Normalité non vérifiée → Test des signes ou Wilcoxon pour un échantillon
Question 3b — Deux groupes, données continues
- Les mesures sont-elles appariées (avant/après sur les mêmes pièces) ?
- Oui, normalité vérifiée → Test t apparié
- Oui, normalité non vérifiée → Test de Wilcoxon signé
- Non (groupes indépendants), normalité vérifiée → Test t pour deux échantillons (Welch ou Student classique)
- Non, normalité non vérifiée → Test de Mann-Whitney
Question 3c — Trois groupes ou plus, données continues
- Normalité des résidus vérifiée + homoscédasticité → ANOVA
- Suivi de Tukey HSD pour identifier quel(s) groupe(s) diffèrent
- Normalité non vérifiée → Kruskal-Wallis
Regle d'or
Cet arbre couvre 90 % des situations terrain en qualite et production. Suivez les 4 questions dans l'ordre — le bon test tombe a chaque fois.
Les 10 % restants relèvent de l’analyse multivariée, des modèles de régression, ou des plans d’expérience — des sujets à part entière.
Test t de Student : comparer une ou deux moyennes
Le test t est l’outil de base de l’ingénieur de production. Il répond à une question simple : la différence observée entre deux moyennes est-elle réelle, ou est-ce du bruit ?
La statistique de test se calcule ainsi :
où est la moyenne de l’échantillon, la valeur de référence (ou la moyenne de l’autre groupe), l’écart-type, et la taille de l’échantillon. Plus est grand en valeur absolue, plus la différence est significative.
Variante 1 — Un échantillon vs valeur théorique
La question : “La cote moyenne de nos pièces usinées est-elle conforme à la valeur nominale de 50.00 mm ?”
On prélève pièces sur la ligne. Moyenne mesurée : mm. Ecart-type : mm. Valeur cible : mm.
Pour 34 degrés de liberté, la p-value bilatérale est d’environ 0.006. Conclusion : la moyenne est significativement différente de 50.00 mm (p < 0.01). Le processus est décentré de 0.04 mm. Action : recalibrer l’outil.
Variante 2 — Deux échantillons indépendants
La question : “La machine A produit-elle des pièces de diamètre différent de la machine B ?”
Machine A : , mm, mm. Machine B : , mm, mm.
Avec le test de Welch (qui ne suppose pas l’égalité des variances — à privilégier en pratique) :
p-value environ 0.002. Conclusion : la différence entre les deux machines est significative. La machine A produit des pièces légèrement plus grandes.
Reste à déterminer si 0.04 mm est significatif du point de vue de la tolérance — c’est la différence entre significativité statistique et significativité pratique.
Variante 3 — Deux échantillons appariés
La question : “La calibration effectuée ce matin a-t-elle amélioré la précision des mesures ?”
On mesure les mêmes 30 pièces avant et après calibration. Pour chaque pièce on calcule la différence .
Moyenne des différences : mm (les mesures ont diminué en moyenne). Ecart-type des différences : mm.
p-value < 0.001. Conclusion : la calibration a eu un effet significatif, réduisant les mesures de 0.03 mm en moyenne. Si la cible était un recentrage vers le bas, c’est un succès.
Conditions d’application du test t
Trois conditions à vérifier avant de lancer un test t :
-
Normalité — Les données doivent suivre approximativement une loi normale. Vérification rapide : histogramme + test de Shapiro-Wilk ( = pas de preuve de non-normalité). Si , le théorème central limite (CLT) rend le test t robuste même si la distribution sous-jacente n’est pas parfaitement normale.
-
Indépendance — Les observations doivent être indépendantes les unes des autres. En production, cela signifie prélever à intervalles suffisants pour éviter l’autocorrélation (ne pas mesurer 30 pièces consécutives si le processus dérive lentement).
-
Variance — Pour le test t classique à deux échantillons, les variances des deux groupes doivent être similaires. Le test de Levene permet de le vérifier. En cas de doute, utiliser le test de Welch qui ne fait pas cette hypothèse. Règle pratique : si le rapport des écarts-types est inférieur à 2, le test t classique tient. Au-delà, Welch.
ANOVA : comparer trois groupes ou plus
L’ANOVA (ANalysis Of VAriance) est la généralisation du test t à plus de deux groupes. La question centrale : “Au moins un des groupes a-t-il une moyenne différente des autres ?” La statistique clé est le ratio F :
Si est grand, la variation entre les groupes dépasse largement la variation naturelle à l’intérieur de chaque groupe. Il y a un effet réel.
ANOVA à un facteur
La question : “Trois fournisseurs livrent la même nuance d’acier. La résistance à la traction diffère-t-elle selon le fournisseur ?”
On teste 20 éprouvettes par fournisseur, soit 60 mesures au total.
| Fournisseur | n | Moyenne (MPa) | Ecart-type (MPa) |
|---|---|---|---|
| A | 20 | 415 | 12 |
| B | 20 | 408 | 14 |
| C | 20 | 422 | 11 |
Moyenne globale : 415 MPa.
Somme des carrés inter-groupes (SSB) :
Somme des carrés intra-groupes (SSW) : on agrège les variances internes. Avec les écarts-types donnés, est d’environ 9861 ().
Pour , la p-value est d’environ 0.006. Conclusion : il existe une différence significative de résistance à la traction entre les fournisseurs (p < 0.01).
Mais l’ANOVA ne dit pas lequel diffère. Pour cela, on lance un test post-hoc de Tukey HSD. Résultat typique : le fournisseur C (422 MPa) diffère significativement du fournisseur B (408 MPa), mais pas du fournisseur A. La différence A vs B est à la limite. Le fournisseur C produit l’acier le plus résistant, le fournisseur B le moins résistant.
ANOVA à deux facteurs
La question : “La température du four (3 niveaux : 180, 200, 220 °C) et la vitesse de la ligne (2 niveaux : lente, rapide) influencent-elles le rendement, et y a-t-il une interaction entre les deux ?”
L’ANOVA à deux facteurs décompose la variance en quatre sources : effet de la température, effet de la vitesse, interaction température x vitesse, et résidu. L’interaction est la pièce maîtresse. Si elle est significative, l’effet de la température dépend du niveau de vitesse — on ne peut pas analyser les facteurs séparément. En production, c’est fréquent : une température optimale à basse vitesse peut devenir sous-optimale à haute vitesse.
Le tableau ANOVA montre trois F et trois p-values. Exemple de résultat :
| Source | DDL | SS | MS | F | p-value |
|---|---|---|---|---|---|
| Température | 2 | 840 | 420 | 14.0 | < 0.001 |
| Vitesse | 1 | 360 | 360 | 12.0 | 0.001 |
| Température x Vitesse | 2 | 540 | 270 | 9.0 | < 0.001 |
| Résidu | 54 | 1620 | 30 |
Les trois effets sont significatifs. L’interaction est forte : impossible de recommander une température sans préciser la vitesse. C’est exactement le type de résultat qui justifie un plan d’expérience complet plutôt que des essais un facteur à la fois.
Conditions d’application de l’ANOVA
-
Normalité des résidus — Les résidus (écarts entre valeurs observées et moyennes de groupe) doivent suivre une loi normale. On le vérifie avec un QQ-plot ou un test de Shapiro-Wilk sur les résidus. L’ANOVA est assez robuste aux écarts modérés, surtout si les groupes sont de même taille.
-
Homoscédasticité — Les variances doivent être homogènes entre les groupes. Test de Bartlett (sensible à la non-normalité) ou test de Levene (plus robuste). Si les variances diffèrent fortement, utiliser le test de Welch ANOVA ou passer en non-paramétrique.
-
Indépendance — Les observations doivent être indépendantes entre groupes et au sein de chaque groupe. En production, attention aux mesures autocorrélées dans le temps.
: tester des données catégorielles
Le s’applique quand les données ne sont pas des mesures continues mais des comptages dans des catégories. La statistique se calcule ainsi :
où est l’effectif observé et l’effectif théorique (celui qu’on attendrait si les catégories étaient indépendantes ou suivaient la distribution supposée).
Test d’indépendance
La question : “Le taux de défaut dépend-il de l’équipe de production (matin, après-midi, nuit) ?”
On relève les résultats sur un mois complet :
| Equipe | Pièces conformes | Pièces défectueuses | Total |
|---|---|---|---|
| Matin | 1850 | 150 | 2000 |
| Après-midi | 1780 | 220 | 2000 |
| Nuit | 1720 | 280 | 2000 |
| Total | 5350 | 650 | 6000 |
Si l’équipe n’avait pas d’influence, on attendrait un taux de défaut uniforme de 650/6000 = 10.83 % dans chaque équipe. Les effectifs théoriques pour les défectueux seraient 216.7 par équipe.
Le calcul complet donne avec 2 degrés de liberté. La p-value est inférieure à 0.001. Conclusion : le taux de défaut dépend significativement de l’équipe. L’équipe de nuit affiche un taux de 14 % contre 7.5 % le matin. Le facteur humain, la fatigue, l’éclairage, ou l’encadrement réduit — les causes possibles sont multiples, mais la dépendance statistique est établie.
Test d’ajustement (goodness of fit)
La question : “Les défauts se répartissent-ils uniformément sur les 5 postes de la ligne, ou certains postes concentrent-ils les problèmes ?”
Défauts observés sur un mois : poste 1 = 42, poste 2 = 38, poste 3 = 65, poste 4 = 35, poste 5 = 70. Total : 250.
Si la distribution était uniforme, on attendrait 50 défauts par poste.
Avec 4 degrés de liberté, p-value < 0.001. Les défauts ne sont pas uniformes. Les postes 3 et 5 concentrent les problèmes. L’analyse de causes peut se focaliser sur ces deux postes au lieu de disperser les efforts sur toute la ligne.
Condition d’application du
Une seule condition critique : chaque cellule du tableau doit avoir un effectif théorique d’au moins 5. En dessous, la distribution du n’est plus une bonne approximation, et le test donne des résultats peu fiables.
Si certaines cellules sont trop faibles, regrouper les catégories adjacentes. Par exemple, si l’équipe de nuit ne comptait que 200 pièces au lieu de 2000, il faudrait la fusionner avec l’après-midi ou allonger la période d’observation.
Tests non-paramétriques : quand la normalité ne tient pas
Les tests paramétriques (t-test, ANOVA) supposent une distribution normale. En production industrielle, cette hypothèse tient la plupart du temps pour les cotes dimensionnelles et les mesures physiques, surtout avec des échantillons de 30 pièces ou plus.
Mais elle ne tient pas toujours. Les temps de cycle, les temps de panne, les rugosités de surface, les mesures de contamination suivent souvent des distributions asymétriques. Les petits échantillons (n < 15) ne permettent pas de se reposer sur le CLT. Dans ces cas, il faut passer aux tests non-paramétriques.
Mann-Whitney (remplace le t-test pour 2 groupes indépendants)
Le test de Mann-Whitney ne compare pas les moyennes mais les rangs. Il répond à la question : “Un groupe produit-il systématiquement des valeurs plus grandes que l’autre ?” On classe toutes les observations des deux groupes ensemble par ordre croissant, on calcule la somme des rangs de chaque groupe, et on compare à la distribution théorique.
Quand l’utiliser : deux groupes indépendants, données continues ou ordinales, normalité non vérifiée ou échantillons petits (n < 15 par groupe).
Exemple : on compare les temps de réparation de deux techniciens sur 12 interventions chacun. Les temps ne suivent pas une loi normale (distribution fortement asymétrique vers les temps longs). Mann-Whitney donne p = 0.031 : le technicien A est significativement plus rapide que le technicien B.
Kruskal-Wallis (remplace l’ANOVA pour 3 groupes ou plus)
Même logique que Mann-Whitney, étendue à trois groupes ou plus. On classe toutes les observations par rang, on compare les sommes de rangs entre groupes. Si le test est significatif, on enchaîne avec un test post-hoc de Dunn pour identifier les groupes qui diffèrent.
Quand l’utiliser : trois groupes ou plus, données continues ou ordinales, normalité non vérifiée.
Exemple : temps de changement de série sur trois lignes de production (12, 15 et 10 observations). Les temps ne sont pas normaux (quelques changements très longs tirent la distribution). Kruskal-Wallis donne p = 0.018 : les lignes diffèrent significativement. Le test de Dunn identifie que la ligne 2 est plus lente que les lignes 1 et 3.
Wilcoxon signé (remplace le t apparié)
Pour les comparaisons avant/après sur les mêmes unités quand la normalité des différences n’est pas vérifiée. On calcule les différences, on les classe par valeur absolue, et on compare les sommes de rangs des différences positives et négatives.
Quand l’utiliser : deux mesures appariées, normalité des différences non vérifiée, petits échantillons.
Exemple : on mesure la vibration d’un roulement sur 15 machines avant et après graissage. Les différences de vibration ne suivent pas une loi normale. Wilcoxon donne p = 0.008 : le graissage réduit significativement les vibrations.
Règle pratique pour le choix paramétrique / non-paramétrique
En dessous de n = 15-20 par groupe, toujours vérifier la normalité (histogramme + Shapiro-Wilk). Si la normalité ne tient pas, passer en non-paramétrique sans hésitation. Au-dessus de n = 30, le CLT rend le t-test et l’ANOVA suffisamment robustes dans la plupart des cas, sauf distributions très déformées (exponentielle, log-normale marquée).
Un non-paramétrique n’est pas un test “dégradé” — il est toujours valide, contrairement à un paramétrique appliqué à des données non-normales. Il est légèrement moins puissant (il lui faut environ 5 % de données supplémentaires pour détecter le même effet). Le choix est vite fait.
Tableau récapitulatif
| Test | Quand l’utiliser | Type de données | n minimum par groupe | Hypothèse clé | Alternative non-param |
|---|---|---|---|---|---|
| t-test 1 échantillon | Comparer une moyenne à une valeur cible | Continues | 30 (CLT) ou 10-15 si normalité vérifiée | Normalité | Wilcoxon 1 échantillon |
| t-test 2 échantillons (Welch) | Comparer 2 groupes indépendants | Continues | 30 par groupe (CLT) ou 10-15 si normalité | Normalité, indépendance | Mann-Whitney |
| t-test apparié | Comparer avant/après sur mêmes unités | Continues (différences) | 30 paires (CLT) ou 10-15 si normalité | Normalité des différences | Wilcoxon signé |
| ANOVA 1 facteur | Comparer 3+ groupes | Continues | 15-20 par groupe | Normalité résidus, homoscédasticité | Kruskal-Wallis |
| ANOVA 2 facteurs | Tester 2 facteurs + interaction | Continues | 15-20 par cellule | Normalité résidus, homoscédasticité | — (pas d’équivalent direct simple) |
| Chi² indépendance | Lien entre 2 variables catégorielles | Catégorielles (comptages) | Effectifs théoriques >= 5 par cellule | Effectifs suffisants | Test exact de Fisher (petits effectifs) |
| Chi² ajustement | Comparer distribution observée vs théorique | Catégorielles (comptages) | Effectifs théoriques >= 5 par catégorie | Effectifs suffisants | — |
| Mann-Whitney | 2 groupes indépendants, non-normal | Continues ou ordinales | 10-15 par groupe | Indépendance | — (c’est déjà le non-param) |
| Kruskal-Wallis | 3+ groupes, non-normal | Continues ou ordinales | 10-15 par groupe | Indépendance | — |
| Wilcoxon signé | Avant/après appariés, non-normal | Continues ou ordinales (différences) | 10-15 paires | Appariement valide | — |
Les erreurs classiques en production
Erreur 1 — Confondre significativité statistique et significativité pratique
Une p-value de 0.001 signifie que la différence observée a moins de 0.1 % de chances d’être due au hasard. Elle ne signifie pas que la différence a de l’importance.
Avec un échantillon de 5000 pièces, on détectera une différence de 0.002 mm entre deux machines — significative statistiquement, totalement négligeable par rapport à une tolérance de +/- 0.1 mm.
Avant de conclure “il y a un effet”, poser la question : “L’effet est-il assez grand pour justifier une action ?” C’est la notion de taille d’effet (effet de Cohen), trop souvent absente des rapports qualité.
Erreur 2 — Oublier de vérifier la normalité
Lancer un test t sur des temps de panne (distribution exponentielle) ou sur des données de comptage (distribution de Poisson) donne des résultats sans valeur. La vérification prend deux minutes : un histogramme pour visualiser, un test de Shapiro-Wilk pour confirmer. Si , la normalité est acceptable. Si , basculer en non-paramétrique.
Erreur 3 — Comparaisons multiples sans correction
On a trois fournisseurs, on veut savoir lequel est meilleur. On lance trois t-tests : A vs B, A vs C, B vs C. Chaque test a un risque de 5 % de faux positif. Mais en cumulant trois tests, le risque global monte à environ 14 % (). Avec dix groupes et 45 comparaisons deux à deux, on a 90 % de chance de trouver au moins un faux positif. C’est pourquoi l’ANOVA existe : elle teste d’abord s’il y a un effet global, et seulement ensuite on utilise un test post-hoc (Tukey, Bonferroni) qui corrige pour les comparaisons multiples.
Erreur 4 — p-hacking
Mesurer 20 paramètres sur un processus, tester chacun individuellement, et présenter le seul qui sort avec p < 0.05 en disant “on a trouvé le facteur clé”. Sur 20 tests indépendants avec un seuil de 5 %, on s’attend à trouver un faux positif par hasard.
Le p-hacking est rarement intentionnel en production — il vient souvent d’une exploration exploratoire non structurée, où l’on “cherche ce qui sort” sans hypothèse préalable.
La parade : formuler l’hypothèse avant de regarder les données, et corriger le seuil (Bonferroni : diviser 0.05 par le nombre de tests réalisés).
Combien de données faut-il ?
La taille d’échantillon détermine la puissance du test — sa capacité à détecter un effet réel quand il existe. Trop peu de données, et un effet réel reste invisible (faux négatif). Trop de données, et on détecte des effets microscopiques sans intérêt pratique.
Retenir
Avec 20-30 pieces par groupe, on detecte les effets de taille d >= 0.7, ce qui couvre la majorite des situations terrain en production industrielle.
Règles pratiques par test
Test t : 30 mesures par groupe est le seuil classique du CLT. En dessous, la normalité doit être vérifiée. Pour 10-15 mesures, le test t reste valide si la distribution est raisonnablement symétrique. En dessous de 10, préférer un non-paramétrique.
ANOVA : 15 à 20 observations par groupe est le minimum pour une puissance correcte. Avec 5 par groupe, on ne détecte que les effets très forts. Avec 30 par groupe, on obtient une puissance confortable pour la plupart des effets industriels. Pour une ANOVA à deux facteurs, ces chiffres s’appliquent à chaque cellule du plan (par combinaison de niveaux), pas au total.
Chi² : la contrainte est l’effectif théorique par cellule, pas le nombre total. Chaque cellule du tableau de contingence doit avoir un effectif théorique d’au moins 5. Pour un tableau 3x2 avec des taux de défaut faibles (3-5 %), il faut facilement 500 à 1000 observations au total pour que toutes les cellules atteignent 5.
Puissance statistique et taille d’effet
La puissance d’un test est la probabilité de détecter un effet quand il existe réellement. On vise généralement une puissance de 80 % (convention standard). La puissance dépend de trois paramètres : la taille d’échantillon n, le seuil de significativité alpha (en général 0.05), et la taille d’effet d.
La taille d’effet de Cohen (pour un test t) se définit comme :
où est l’écart-type commun. Les conventions de Cohen :
- : effet petit (difficile à voir à l’oeil nu sur un histogramme)
- : effet moyen (visible, mais pas évident)
- : effet grand (impossible à rater)
Pour un test t à deux groupes, avec et puissance = 80 % :
- Effet grand () : environ 26 par groupe suffisent
- Effet moyen () : environ 64 par groupe
- Effet petit () : environ 394 par groupe
En production, on cherche rarement un effet petit. Si l’effet est si faible qu’il faut 400 pièces pour le détecter, il est probablement sans conséquence sur la qualité. La plupart des problèmes industriels impliquent des effets moyens à grands. Pour une estimation rapide : avec 20-30 pièces par groupe, on détecte les effets de taille , ce qui couvre la majorité des situations terrain.
Pour l’ANOVA, le raisonnement est similaire mais avec la taille d’effet de Cohen ( petit, moyen, grand). En pratique, 20 observations par groupe et un effet donnent une puissance d’environ 80 % pour une ANOVA à 3 groupes.
Ces règles ne remplacent pas un calcul de puissance formel quand les enjeux le justifient (essais coûteux, pièces aéronautiques, lots de validation). Mais elles donnent un ordre de grandeur fiable pour le dimensionnement quotidien d’une campagne de mesures en usine.
Mieux vaut un calcul approché qui donne 25 pièces qu’aucun calcul qui laisse l’opérateur décider “on en prend 5, ça devrait suffire” — parce que 5 ne suffit presque jamais.
Vidéos associées
Distribution normale, règle 68-95-99.7 et zones de rejet — animation BCUB3.
Pour aller plus loin
- Normalité, linéarité, taille d’échantillon : les trois vérifications avant toute analyse — vérifier les hypothèses avant de lancer un test
- Plans d’expérience (DOE) : du factoriel complet au plan optimal — quand les tests ne suffisent plus et qu’il faut expérimenter
- Machine Learning ou statistiques classiques : l’arbre de choix — quand passer des stats au ML
- Cartes de contrôle SPC — surveiller un processus dans le temps
Zones de rejet d’un test bilatéral (α = 5%) — si la statistique de test tombe dans la zone corail, on rejette H₀.