Tests statistiques : le guide de choix pour l'ingénieur de production

L’arbre de décision : quel test statistique choisir

Un processus de production pose une question. Les données contiennent la réponse. Le test statistique est le pont entre les deux.

Le problème en usine n’est presque jamais la complexité du calcul — c’est le choix du bon test. Un t-test appliqué là où il faut une ANOVA donne un résultat faux. Un test paramétrique lancé sur des données non-normales donne un résultat trompeur.

Ce guide fournit l’arbre de décision, les conditions d’application, et les seuils pratiques pour chaque situation terrain.

L’arbre se lit de haut en bas, en répondant à quatre questions dans l’ordre.

Question 1 — Les données sont-elles continues ou catégorielles ?

Catégorielles (comptages, taux, catégories : OK/NOK, équipe matin/soir/nuit) → Chi²
Continues (mesures : cotes, poids, température, temps de cycle) → Question 2

Question 2 — Combien de groupes compare-t-on ?

1 groupe vs une valeur de référence → Question 3a
2 groupes → Question 3b
3 groupes ou plus → Question 3c

Question 3a — Un groupe, données continues

Normalité vérifiée → Test t pour un échantillon
Normalité non vérifiée → Test des signes ou Wilcoxon pour un échantillon

Question 3b — Deux groupes, données continues

Les mesures sont-elles appariées (avant/après sur les mêmes pièces) ?
- Oui, normalité vérifiée → Test t apparié
- Oui, normalité non vérifiée → Test de Wilcoxon signé
- Non (groupes indépendants), normalité vérifiée → Test t pour deux échantillons (Welch ou Student classique)
- Non, normalité non vérifiée → Test de Mann-Whitney

Question 3c — Trois groupes ou plus, données continues

Normalité des résidus vérifiée + homoscédasticité → ANOVA
- Suivi de Tukey HSD pour identifier quel(s) groupe(s) diffèrent
Normalité non vérifiée → Kruskal-Wallis

Regle d'or

Cet arbre couvre 90 % des situations terrain en qualite et production. Suivez les 4 questions dans l'ordre — le bon test tombe a chaque fois.

Les 10 % restants relèvent de l’analyse multivariée, des modèles de régression, ou des plans d’expérience — des sujets à part entière.

Test t de Student : comparer une ou deux moyennes

Le test t est l’outil de base de l’ingénieur de production. Il répond à une question simple : la différence observée entre deux moyennes est-elle réelle, ou est-ce du bruit ?

La statistique de test se calcule ainsi :

$t = \frac{\bar{X} - \mu}{s / \sqrt{n}}$

où $\bar{X}$ est la moyenne de l’échantillon, $\mu$ la valeur de référence (ou la moyenne de l’autre groupe), $s$ l’écart-type, et $n$ la taille de l’échantillon. Plus $t$ est grand en valeur absolue, plus la différence est significative.

Variante 1 — Un échantillon vs valeur théorique

La question : “La cote moyenne de nos pièces usinées est-elle conforme à la valeur nominale de 50.00 mm ?”

On prélève $n = 35$ pièces sur la ligne. Moyenne mesurée : $\bar{X} = 50.04$ mm. Ecart-type : $s = 0.08$ mm. Valeur cible : $\mu = 50.00$ mm.

$t = \frac{50.04 - 50.00}{0.08 / \sqrt{35}} = \frac{0.04}{0.01352} = 2.96$

Pour 34 degrés de liberté, la p-value bilatérale est d’environ 0.006. Conclusion : la moyenne est significativement différente de 50.00 mm (p < 0.01). Le processus est décentré de 0.04 mm. Action : recalibrer l’outil.

Variante 2 — Deux échantillons indépendants

La question : “La machine A produit-elle des pièces de diamètre différent de la machine B ?”

Machine A : $n_1 = 40$ , $\bar{X}_1 = 25.12$ mm, $s_1 = 0.05$ mm. Machine B : $n_2 = 40$ , $\bar{X}_2 = 25.08$ mm, $s_2 = 0.06$ mm.

Avec le test de Welch (qui ne suppose pas l’égalité des variances — à privilégier en pratique) :

$t = \frac{25.12 - 25.08}{\sqrt{0.05^2/40 + 0.06^2/40}} = \frac{0.04}{\sqrt{0.0000625 + 0.00009}} = \frac{0.04}{0.01237} = 3.23$

p-value environ 0.002. Conclusion : la différence entre les deux machines est significative. La machine A produit des pièces légèrement plus grandes.

Reste à déterminer si 0.04 mm est significatif du point de vue de la tolérance — c’est la différence entre significativité statistique et significativité pratique.

Variante 3 — Deux échantillons appariés

La question : “La calibration effectuée ce matin a-t-elle amélioré la précision des mesures ?”

On mesure les mêmes 30 pièces avant et après calibration. Pour chaque pièce on calcule la différence $d = \text{mesure\_après} - \text{mesure\_avant}$ .

Moyenne des différences : $\bar{d} = -0.03$ mm (les mesures ont diminué en moyenne). Ecart-type des différences : $s_d = 0.04$ mm.

$t = \frac{-0.03 - 0}{0.04 / \sqrt{30}} = \frac{-0.03}{0.0073} = -4.11$

p-value < 0.001. Conclusion : la calibration a eu un effet significatif, réduisant les mesures de 0.03 mm en moyenne. Si la cible était un recentrage vers le bas, c’est un succès.

Conditions d’application du test t

Trois conditions à vérifier avant de lancer un test t :

Normalité — Les données doivent suivre approximativement une loi normale. Vérification rapide : histogramme + test de Shapiro-Wilk ( $p > 0.05$ = pas de preuve de non-normalité). Si $n \geq 30$ , le théorème central limite (CLT) rend le test t robuste même si la distribution sous-jacente n’est pas parfaitement normale.
Indépendance — Les observations doivent être indépendantes les unes des autres. En production, cela signifie prélever à intervalles suffisants pour éviter l’autocorrélation (ne pas mesurer 30 pièces consécutives si le processus dérive lentement).
Variance — Pour le test t classique à deux échantillons, les variances des deux groupes doivent être similaires. Le test de Levene permet de le vérifier. En cas de doute, utiliser le test de Welch qui ne fait pas cette hypothèse. Règle pratique : si le rapport des écarts-types est inférieur à 2, le test t classique tient. Au-delà, Welch.

ANOVA : comparer trois groupes ou plus

L’ANOVA (ANalysis Of VAriance) est la généralisation du test t à plus de deux groupes. La question centrale : “Au moins un des groupes a-t-il une moyenne différente des autres ?” La statistique clé est le ratio F :

$F = \frac{MS_{between}}{MS_{within}}$

Si $F$ est grand, la variation entre les groupes dépasse largement la variation naturelle à l’intérieur de chaque groupe. Il y a un effet réel.

ANOVA à un facteur

La question : “Trois fournisseurs livrent la même nuance d’acier. La résistance à la traction diffère-t-elle selon le fournisseur ?”

On teste 20 éprouvettes par fournisseur, soit 60 mesures au total.

Fournisseur	n	Moyenne (MPa)	Ecart-type (MPa)
A	20	415	12
B	20	408	14
C	20	422	11

Moyenne globale : 415 MPa.

Somme des carrés inter-groupes (SSB) :

$SSB = 20 \times [(415-415)^2 + (408-415)^2 + (422-415)^2] = 20 \times [0 + 49 + 49] = 1960$

Somme des carrés intra-groupes (SSW) : on agrège les variances internes. Avec les écarts-types donnés, $SSW$ est d’environ 9861 ( $19 \times 144 + 19 \times 196 + 19 \times 121$ ).

$MSB = \frac{1960}{2} = 980 \quad \text{(2 degrés de liberté inter)}$

$MSW = \frac{9861}{57} = 173 \quad \text{(57 degrés de liberté intra)}$

$F = \frac{980}{173} = 5.66$

Pour $F(2,\ 57)$ , la p-value est d’environ 0.006. Conclusion : il existe une différence significative de résistance à la traction entre les fournisseurs (p < 0.01).

Mais l’ANOVA ne dit pas lequel diffère. Pour cela, on lance un test post-hoc de Tukey HSD. Résultat typique : le fournisseur C (422 MPa) diffère significativement du fournisseur B (408 MPa), mais pas du fournisseur A. La différence A vs B est à la limite. Le fournisseur C produit l’acier le plus résistant, le fournisseur B le moins résistant.

ANOVA à deux facteurs

La question : “La température du four (3 niveaux : 180, 200, 220 °C) et la vitesse de la ligne (2 niveaux : lente, rapide) influencent-elles le rendement, et y a-t-il une interaction entre les deux ?”

L’ANOVA à deux facteurs décompose la variance en quatre sources : effet de la température, effet de la vitesse, interaction température x vitesse, et résidu. L’interaction est la pièce maîtresse. Si elle est significative, l’effet de la température dépend du niveau de vitesse — on ne peut pas analyser les facteurs séparément. En production, c’est fréquent : une température optimale à basse vitesse peut devenir sous-optimale à haute vitesse.

Le tableau ANOVA montre trois F et trois p-values. Exemple de résultat :

Source	DDL	SS	MS	F	p-value
Température	2	840	420	14.0	< 0.001
Vitesse	1	360	360	12.0	0.001
Température x Vitesse	2	540	270	9.0	< 0.001
Résidu	54	1620	30

Les trois effets sont significatifs. L’interaction est forte : impossible de recommander une température sans préciser la vitesse. C’est exactement le type de résultat qui justifie un plan d’expérience complet plutôt que des essais un facteur à la fois.

Conditions d’application de l’ANOVA

Normalité des résidus — Les résidus (écarts entre valeurs observées et moyennes de groupe) doivent suivre une loi normale. On le vérifie avec un QQ-plot ou un test de Shapiro-Wilk sur les résidus. L’ANOVA est assez robuste aux écarts modérés, surtout si les groupes sont de même taille.
Homoscédasticité — Les variances doivent être homogènes entre les groupes. Test de Bartlett (sensible à la non-normalité) ou test de Levene (plus robuste). Si les variances diffèrent fortement, utiliser le test de Welch ANOVA ou passer en non-paramétrique.
Indépendance — Les observations doivent être indépendantes entre groupes et au sein de chaque groupe. En production, attention aux mesures autocorrélées dans le temps.

$\chi^2$ : tester des données catégorielles

Le $\chi^2$ s’applique quand les données ne sont pas des mesures continues mais des comptages dans des catégories. La statistique se calcule ainsi :

$\chi^2 = \sum \frac{(O_i - E_i)^2}{E_i}$

où $O_i$ est l’effectif observé et $E_i$ l’effectif théorique (celui qu’on attendrait si les catégories étaient indépendantes ou suivaient la distribution supposée).

Test d’indépendance

La question : “Le taux de défaut dépend-il de l’équipe de production (matin, après-midi, nuit) ?”

On relève les résultats sur un mois complet :

Equipe	Pièces conformes	Pièces défectueuses	Total
Matin	1850	150	2000
Après-midi	1780	220	2000
Nuit	1720	280	2000
Total	5350	650	6000

Si l’équipe n’avait pas d’influence, on attendrait un taux de défaut uniforme de 650/6000 = 10.83 % dans chaque équipe. Les effectifs théoriques pour les défectueux seraient 216.7 par équipe.

$\chi^2 = \frac{(150-216.7)^2}{216.7} + \frac{(220-216.7)^2}{216.7} + \frac{(280-216.7)^2}{216.7} + \text{termes conformes}$

Le calcul complet donne $\chi^2 \approx 39.5$ avec 2 degrés de liberté. La p-value est inférieure à 0.001. Conclusion : le taux de défaut dépend significativement de l’équipe. L’équipe de nuit affiche un taux de 14 % contre 7.5 % le matin. Le facteur humain, la fatigue, l’éclairage, ou l’encadrement réduit — les causes possibles sont multiples, mais la dépendance statistique est établie.

Test d’ajustement (goodness of fit)

La question : “Les défauts se répartissent-ils uniformément sur les 5 postes de la ligne, ou certains postes concentrent-ils les problèmes ?”

Défauts observés sur un mois : poste 1 = 42, poste 2 = 38, poste 3 = 65, poste 4 = 35, poste 5 = 70. Total : 250.

Si la distribution était uniforme, on attendrait 50 défauts par poste.

$\chi^2 = \frac{(42-50)^2}{50} + \frac{(38-50)^2}{50} + \frac{(65-50)^2}{50} + \frac{(35-50)^2}{50} + \frac{(70-50)^2}{50}$

$\chi^2 = 1.28 + 2.88 + 4.50 + 4.50 + 8.00 = 21.16$

Avec 4 degrés de liberté, p-value < 0.001. Les défauts ne sont pas uniformes. Les postes 3 et 5 concentrent les problèmes. L’analyse de causes peut se focaliser sur ces deux postes au lieu de disperser les efforts sur toute la ligne.

Condition d’application du $\chi^2$

Une seule condition critique : chaque cellule du tableau doit avoir un effectif théorique d’au moins 5. En dessous, la distribution du $\chi^2$ n’est plus une bonne approximation, et le test donne des résultats peu fiables.

Si certaines cellules sont trop faibles, regrouper les catégories adjacentes. Par exemple, si l’équipe de nuit ne comptait que 200 pièces au lieu de 2000, il faudrait la fusionner avec l’après-midi ou allonger la période d’observation.

Tests non-paramétriques : quand la normalité ne tient pas

Les tests paramétriques (t-test, ANOVA) supposent une distribution normale. En production industrielle, cette hypothèse tient la plupart du temps pour les cotes dimensionnelles et les mesures physiques, surtout avec des échantillons de 30 pièces ou plus.

Mais elle ne tient pas toujours. Les temps de cycle, les temps de panne, les rugosités de surface, les mesures de contamination suivent souvent des distributions asymétriques. Les petits échantillons (n < 15) ne permettent pas de se reposer sur le CLT. Dans ces cas, il faut passer aux tests non-paramétriques.

Mann-Whitney (remplace le t-test pour 2 groupes indépendants)

Le test de Mann-Whitney ne compare pas les moyennes mais les rangs. Il répond à la question : “Un groupe produit-il systématiquement des valeurs plus grandes que l’autre ?” On classe toutes les observations des deux groupes ensemble par ordre croissant, on calcule la somme des rangs de chaque groupe, et on compare à la distribution théorique.

Quand l’utiliser : deux groupes indépendants, données continues ou ordinales, normalité non vérifiée ou échantillons petits (n < 15 par groupe).

Exemple : on compare les temps de réparation de deux techniciens sur 12 interventions chacun. Les temps ne suivent pas une loi normale (distribution fortement asymétrique vers les temps longs). Mann-Whitney donne p = 0.031 : le technicien A est significativement plus rapide que le technicien B.

Kruskal-Wallis (remplace l’ANOVA pour 3 groupes ou plus)

Même logique que Mann-Whitney, étendue à trois groupes ou plus. On classe toutes les observations par rang, on compare les sommes de rangs entre groupes. Si le test est significatif, on enchaîne avec un test post-hoc de Dunn pour identifier les groupes qui diffèrent.

Quand l’utiliser : trois groupes ou plus, données continues ou ordinales, normalité non vérifiée.

Exemple : temps de changement de série sur trois lignes de production (12, 15 et 10 observations). Les temps ne sont pas normaux (quelques changements très longs tirent la distribution). Kruskal-Wallis donne p = 0.018 : les lignes diffèrent significativement. Le test de Dunn identifie que la ligne 2 est plus lente que les lignes 1 et 3.

Wilcoxon signé (remplace le t apparié)

Pour les comparaisons avant/après sur les mêmes unités quand la normalité des différences n’est pas vérifiée. On calcule les différences, on les classe par valeur absolue, et on compare les sommes de rangs des différences positives et négatives.

Quand l’utiliser : deux mesures appariées, normalité des différences non vérifiée, petits échantillons.

Exemple : on mesure la vibration d’un roulement sur 15 machines avant et après graissage. Les différences de vibration ne suivent pas une loi normale. Wilcoxon donne p = 0.008 : le graissage réduit significativement les vibrations.

Règle pratique pour le choix paramétrique / non-paramétrique

En dessous de n = 15-20 par groupe, toujours vérifier la normalité (histogramme + Shapiro-Wilk). Si la normalité ne tient pas, passer en non-paramétrique sans hésitation. Au-dessus de n = 30, le CLT rend le t-test et l’ANOVA suffisamment robustes dans la plupart des cas, sauf distributions très déformées (exponentielle, log-normale marquée).

Un non-paramétrique n’est pas un test “dégradé” — il est toujours valide, contrairement à un paramétrique appliqué à des données non-normales. Il est légèrement moins puissant (il lui faut environ 5 % de données supplémentaires pour détecter le même effet). Le choix est vite fait.

Tableau récapitulatif

Test	Quand l’utiliser	Type de données	n minimum par groupe	Hypothèse clé	Alternative non-param
t-test 1 échantillon	Comparer une moyenne à une valeur cible	Continues	30 (CLT) ou 10-15 si normalité vérifiée	Normalité	Wilcoxon 1 échantillon
t-test 2 échantillons (Welch)	Comparer 2 groupes indépendants	Continues	30 par groupe (CLT) ou 10-15 si normalité	Normalité, indépendance	Mann-Whitney
t-test apparié	Comparer avant/après sur mêmes unités	Continues (différences)	30 paires (CLT) ou 10-15 si normalité	Normalité des différences	Wilcoxon signé
ANOVA 1 facteur	Comparer 3+ groupes	Continues	15-20 par groupe	Normalité résidus, homoscédasticité	Kruskal-Wallis
ANOVA 2 facteurs	Tester 2 facteurs + interaction	Continues	15-20 par cellule	Normalité résidus, homoscédasticité	— (pas d’équivalent direct simple)
Chi² indépendance	Lien entre 2 variables catégorielles	Catégorielles (comptages)	Effectifs théoriques >= 5 par cellule	Effectifs suffisants	Test exact de Fisher (petits effectifs)
Chi² ajustement	Comparer distribution observée vs théorique	Catégorielles (comptages)	Effectifs théoriques >= 5 par catégorie	Effectifs suffisants	—
Mann-Whitney	2 groupes indépendants, non-normal	Continues ou ordinales	10-15 par groupe	Indépendance	— (c’est déjà le non-param)
Kruskal-Wallis	3+ groupes, non-normal	Continues ou ordinales	10-15 par groupe	Indépendance	—
Wilcoxon signé	Avant/après appariés, non-normal	Continues ou ordinales (différences)	10-15 paires	Appariement valide	—

Les erreurs classiques en production

Erreur 1 — Confondre significativité statistique et significativité pratique

Une p-value de 0.001 signifie que la différence observée a moins de 0.1 % de chances d’être due au hasard. Elle ne signifie pas que la différence a de l’importance.

Avec un échantillon de 5000 pièces, on détectera une différence de 0.002 mm entre deux machines — significative statistiquement, totalement négligeable par rapport à une tolérance de +/- 0.1 mm.

Avant de conclure “il y a un effet”, poser la question : “L’effet est-il assez grand pour justifier une action ?” C’est la notion de taille d’effet (effet de Cohen), trop souvent absente des rapports qualité.

Erreur 2 — Oublier de vérifier la normalité

Lancer un test t sur des temps de panne (distribution exponentielle) ou sur des données de comptage (distribution de Poisson) donne des résultats sans valeur. La vérification prend deux minutes : un histogramme pour visualiser, un test de Shapiro-Wilk pour confirmer. Si $p > 0.05$ , la normalité est acceptable. Si $p < 0.05$ , basculer en non-paramétrique.

Erreur 3 — Comparaisons multiples sans correction

On a trois fournisseurs, on veut savoir lequel est meilleur. On lance trois t-tests : A vs B, A vs C, B vs C. Chaque test a un risque de 5 % de faux positif. Mais en cumulant trois tests, le risque global monte à environ 14 % ( $1 - 0.95^3$ ). Avec dix groupes et 45 comparaisons deux à deux, on a 90 % de chance de trouver au moins un faux positif. C’est pourquoi l’ANOVA existe : elle teste d’abord s’il y a un effet global, et seulement ensuite on utilise un test post-hoc (Tukey, Bonferroni) qui corrige pour les comparaisons multiples.

Erreur 4 — p-hacking

Mesurer 20 paramètres sur un processus, tester chacun individuellement, et présenter le seul qui sort avec p < 0.05 en disant “on a trouvé le facteur clé”. Sur 20 tests indépendants avec un seuil de 5 %, on s’attend à trouver un faux positif par hasard.

Le p-hacking est rarement intentionnel en production — il vient souvent d’une exploration exploratoire non structurée, où l’on “cherche ce qui sort” sans hypothèse préalable.

La parade : formuler l’hypothèse avant de regarder les données, et corriger le seuil (Bonferroni : diviser 0.05 par le nombre de tests réalisés).

Combien de données faut-il ?

La taille d’échantillon détermine la puissance du test — sa capacité à détecter un effet réel quand il existe. Trop peu de données, et un effet réel reste invisible (faux négatif). Trop de données, et on détecte des effets microscopiques sans intérêt pratique.

Retenir

Avec 20-30 pieces par groupe, on detecte les effets de taille d >= 0.7, ce qui couvre la majorite des situations terrain en production industrielle.

Règles pratiques par test

Test t : 30 mesures par groupe est le seuil classique du CLT. En dessous, la normalité doit être vérifiée. Pour 10-15 mesures, le test t reste valide si la distribution est raisonnablement symétrique. En dessous de 10, préférer un non-paramétrique.

ANOVA : 15 à 20 observations par groupe est le minimum pour une puissance correcte. Avec 5 par groupe, on ne détecte que les effets très forts. Avec 30 par groupe, on obtient une puissance confortable pour la plupart des effets industriels. Pour une ANOVA à deux facteurs, ces chiffres s’appliquent à chaque cellule du plan (par combinaison de niveaux), pas au total.

Chi² : la contrainte est l’effectif théorique par cellule, pas le nombre total. Chaque cellule du tableau de contingence doit avoir un effectif théorique d’au moins 5. Pour un tableau 3x2 avec des taux de défaut faibles (3-5 %), il faut facilement 500 à 1000 observations au total pour que toutes les cellules atteignent 5.

Puissance statistique et taille d’effet

La puissance d’un test est la probabilité de détecter un effet quand il existe réellement. On vise généralement une puissance de 80 % (convention standard). La puissance dépend de trois paramètres : la taille d’échantillon n, le seuil de significativité alpha (en général 0.05), et la taille d’effet d.

La taille d’effet de Cohen (pour un test t) se définit comme :

$d = \frac{|\mu_1 - \mu_2|}{\sigma}$

où $\sigma$ est l’écart-type commun. Les conventions de Cohen :

$d = 0.2$ : effet petit (difficile à voir à l’oeil nu sur un histogramme)
$d = 0.5$ : effet moyen (visible, mais pas évident)
$d = 0.8$ : effet grand (impossible à rater)

Pour un test t à deux groupes, avec $\alpha = 0.05$ et puissance = 80 % :

Effet grand ( $d = 0.8$ ) : environ 26 par groupe suffisent
Effet moyen ( $d = 0.5$ ) : environ 64 par groupe
Effet petit ( $d = 0.2$ ) : environ 394 par groupe

En production, on cherche rarement un effet petit. Si l’effet est si faible qu’il faut 400 pièces pour le détecter, il est probablement sans conséquence sur la qualité. La plupart des problèmes industriels impliquent des effets moyens à grands. Pour une estimation rapide : avec 20-30 pièces par groupe, on détecte les effets de taille $d \geq 0.7$ , ce qui couvre la majorité des situations terrain.

Pour l’ANOVA, le raisonnement est similaire mais avec la taille d’effet $f$ de Cohen ( $f = 0.1$ petit, $f = 0.25$ moyen, $f = 0.4$ grand). En pratique, 20 observations par groupe et un effet $f = 0.3$ donnent une puissance d’environ 80 % pour une ANOVA à 3 groupes.

Ces règles ne remplacent pas un calcul de puissance formel quand les enjeux le justifient (essais coûteux, pièces aéronautiques, lots de validation). Mais elles donnent un ordre de grandeur fiable pour le dimensionnement quotidien d’une campagne de mesures en usine.

Mieux vaut un calcul approché qui donne 25 pièces qu’aucun calcul qui laisse l’opérateur décider “on en prend 5, ça devrait suffire” — parce que 5 ne suffit presque jamais.

Vidéos associées

Distribution normale, règle 68-95-99.7 et zones de rejet — animation BCUB3.

Pour aller plus loin

Normalité, linéarité, taille d’échantillon : les trois vérifications avant toute analyse — vérifier les hypothèses avant de lancer un test
Plans d’expérience (DOE) : du factoriel complet au plan optimal — quand les tests ne suffisent plus et qu’il faut expérimenter
Machine Learning ou statistiques classiques : l’arbre de choix — quand passer des stats au ML
Cartes de contrôle SPC — surveiller un processus dans le temps

Zones de rejet d’un test bilatéral (α = 5%) — si la statistique de test tombe dans la zone corail, on rejette H₀.

L’arbre de décision : quel test statistique choisir

Test t de Student : comparer une ou deux moyennes

Variante 1 — Un échantillon vs valeur théorique

Variante 2 — Deux échantillons indépendants

Variante 3 — Deux échantillons appariés

Conditions d’application du test t

ANOVA : comparer trois groupes ou plus

ANOVA à un facteur

ANOVA à deux facteurs

Conditions d’application de l’ANOVA

χ2\chi^2χ2 : tester des données catégorielles

Test d’indépendance

Test d’ajustement (goodness of fit)

Condition d’application du χ2\chi^2χ2

Tests non-paramétriques : quand la normalité ne tient pas

Mann-Whitney (remplace le t-test pour 2 groupes indépendants)

Kruskal-Wallis (remplace l’ANOVA pour 3 groupes ou plus)

Wilcoxon signé (remplace le t apparié)

Règle pratique pour le choix paramétrique / non-paramétrique

Tableau récapitulatif

Les erreurs classiques en production

Erreur 1 — Confondre significativité statistique et significativité pratique

Erreur 2 — Oublier de vérifier la normalité

Erreur 3 — Comparaisons multiples sans correction

Erreur 4 — p-hacking

Combien de données faut-il ?

Règles pratiques par test

Puissance statistique et taille d’effet

Vidéos associées

Pour aller plus loin

$\chi^2$ : tester des données catégorielles

Condition d’application du $\chi^2$