Normalité, linéarité, taille d'échantillon : les trois vérifications avant toute analyse

Pourquoi ces trois vérifications conditionnent tout le reste

Utiliser un outil statistique sans vérifier ses hypothèses, c’est mesurer une pièce avec un pied à coulisse dont on n’a pas vérifié le zéro. Le résultat a l’air précis. Il est faux. Et on prend une décision de production dessus.

Un t-test sur des données non normales donne une p-value. Un $R^2$ sur une relation non linéaire donne un chiffre. Une régression avec 12 mesures et 6 variables donne des coefficients. Les trois affichent un résultat. Les trois sont exploitables. Les trois peuvent être faux.

La conséquence n’est pas académique. En production :

Un faux positif déclenche un changement de paramètre inutile — arrêt de ligne, réglage, redémarrage, perte de cadence
Un faux négatif laisse un défaut réel non détecté — rebuts, retours client, pénalités

Dans les deux cas, de l’argent perdu sur la base d’un chiffre qu’on n’aurait jamais dû sortir tel quel.

Trois hypothèses reviennent systématiquement, quel que soit l’outil utilisé. Normalité des données. Linéarité de la relation. Taille d’échantillon suffisante. Les vérifier prend quinze minutes. Ne pas les vérifier peut coûter des mois.

Normalité — la plus connue et la plus mal comprise

“Distribué normalement” signifie que les données suivent une courbe en cloche symétrique autour de la moyenne. En pratique, cela se traduit par la règle 68-95-99.7 : 68 % des valeurs tombent à ±1 écart-type de la moyenne, 95 % à ±2, 99.7 % à ±3. C’est la distribution que produit un processus stable soumis à un grand nombre de petites causes de variation aléatoires et indépendantes.

Quand c’est critique

La normalité est une hypothèse dure pour le t-test, l’ANOVA, le $C_p$ / $C_{pk}$ et les cartes SPC.

Test de Student (t-test) — compare deux moyennes. Si les données ne sont pas normales et l’échantillon est petit ( $n < 30$ ), la p-value est fausse.
ANOVA — compare trois moyennes ou plus. Même problème.
Capabilité $C_p$ / $C_{pk}$ — les formules utilisent l’écart-type en supposant une distribution symétrique. Sur une distribution asymétrique, le $C_{pk}$ surévalue ou sous-évalue la performance réelle.
Cartes de contrôle SPC — les limites à $\pm 3\sigma$ supposent la normalité. Une distribution bimodale ou fortement asymétrique génère des fausses alarmes ou, pire, masque des dérives.

Quand ce n’est pas critique

La normalité n’est pas toujours nécessaire. Trois cas où on peut s’en passer :

Grands échantillons ( $n > 30$ ) — le théorème central limite garantit que la distribution de la moyenne tend vers une loi normale, même si les données individuelles ne le sont pas. Un t-test sur 200 mesures est robuste à la non-normalité.
Tests non paramétriques — Mann-Whitney, Kruskal-Wallis, test des signes. Ils ne supposent pas de distribution particulière.
Machine learning — les arbres de décision, forêts aléatoires et réseaux de neurones ne font aucune hypothèse de normalité. La distribution des variables d’entrée n’affecte pas leur fonctionnement.

Comment vérifier

Trois méthodes, de la plus intuitive à la plus rigoureuse.

Histogramme. Tracer la distribution des données. Si la forme est en cloche, symétrique, sans queue exagérée, c’est bon signe. Mais l’histogramme est subjectif — sa lecture dépend du nombre de classes choisies.

QQ-plot (quantile-quantile). Un QQ-plot compare les quantiles des données réelles aux quantiles théoriques d’une loi normale. Si les points s’alignent sur la diagonale, la distribution est normale. Si les points s’écartent aux extrémités, les queues sont trop lourdes ou trop légères. Si les points forment une courbe en S, la distribution est asymétrique. Le QQ-plot est le meilleur compromis entre simplicité et fiabilité.

Tests formels. Trois tests existent, leur puissance varie :

Shapiro-Wilk — le plus puissant pour les petits échantillons (n < 50). C’est le premier choix par défaut.
Anderson-Darling — performant pour les échantillons plus grands (n > 50), sensible aux queues de distribution.
Kolmogorov-Smirnov — souvent proposé par les logiciels, mais moins puissant que les deux précédents. À éviter sauf contrainte logicielle.

La règle de décision est la même pour les trois : si $p > 0.05$ , on ne rejette pas l’hypothèse de normalité.

Attention au piège inverse : $p > 0.05$ ne prouve pas que les données sont normales — il dit simplement qu’elles ne sont pas suffisamment incompatibles avec une loi normale pour conclure.

Que faire si les données ne sont pas normales

Trois options, selon le contexte.

1. Transformer les données. La transformation logarithmique est la plus courante : elle corrige les distributions asymétriques vers la droite (ce qui est fréquent en industrie — les cotes de rugosité, les temps de cycle, les concentrations chimiques sont naturellement bornées à zéro). La transformation racine carrée est utile pour les données de comptage. La transformation Box-Cox cherche automatiquement l’exposant optimal. Après transformation, on relance le test de normalité pour vérifier que ça a marché.

2. Passer en test non paramétrique. Mann-Whitney remplace le t-test. Kruskal-Wallis remplace l’ANOVA. Ils sont légèrement moins puissants (ils détectent un peu moins bien les vrais effets) mais ils sont valides quelle que soit la distribution.

3. Ne rien faire. Si n est suffisamment grand (typiquement > 30-50), le théorème central limite rend les tests paramétriques robustes. L’impact de la non-normalité diminue avec la taille de l’échantillon.

Exemple terrain

Mesures d’épaisseur de revêtement sur 40 pièces sorties d’une ligne de peinture industrielle. L’histogramme montre une distribution asymétrique à droite — beaucoup de pièces autour de 25 microns, quelques pièces à 45-50 microns. Le QQ-plot confirme : les points décrochent en queue haute.

Test de Shapiro-Wilk : $p = 0.003$ . La normalité est rejetée.

On applique une transformation logarithmique sur les épaisseurs. Nouveau Shapiro-Wilk : $p = 0.42$ . La normalité n’est plus rejetée. L’analyse paramétrique ( $C_p$ / $C_{pk}$ , SPC) peut se faire sur les données log-transformées, en retransformant les résultats pour l’interprétation.

Alternativement, pour comparer deux lots de pièces (ancien vs nouveau fournisseur de peinture), on utilise un test de Mann-Whitney directement sur les données brutes. Pas de transformation nécessaire, résultat valide.

Linéarité — la relation entre X et Y est-elle droite ?

La linéarité signifie que quand X augmente d’une unité, Y augmente toujours du même montant. Si la température monte de 10 °C et que le temps de séchage baisse de 2 minutes, la relation est linéaire si cette baisse de 2 minutes est la même qu’on passe de 60 à 70 °C ou de 90 à 100 °C.

Pourquoi c’est important

Quatre outils courants en industrie supposent la linéarité :

Régression linéaire — par définition.
Corrélation de Pearson — mesure la force d’une relation linéaire. Si la relation est en U, Pearson peut donner $r = 0$ alors que X et Y sont fortement liés.
Plans d’expérience (DOE) classiques — un DOE $2^k$ suppose que l’effet de chaque facteur est linéaire entre son niveau bas et son niveau haut. Si l’effet est quadratique, le DOE le rate.
SPC sur des variables pilotantes — si on pilote Y via X en supposant une relation linéaire qui ne l’est pas, les corrections appliquées sont fausses.

Comment vérifier

Scatter plot. Le plus simple. Tracer Y en fonction de X. Si les points forment un nuage allongé le long d’une droite, c’est linéaire. Si le nuage forme une courbe, un coude, un plateau — ce ne l’est pas. Cette vérification visuelle prend trente secondes et suffit dans 90 % des cas.

Résidus vs valeurs prédites. Après avoir ajusté une régression linéaire, tracer les résidus (écarts entre valeurs mesurées et valeurs prédites) en fonction des valeurs prédites. Si le graphe ne montre aucun pattern — nuage aléatoire centré sur zéro — la linéarité tient. Si les résidus dessinent un arc, une trompette ou tout autre motif systématique, il y a un problème.

$R^2$ — avec précaution. Un $R^2$ de 0.95 ne prouve pas la linéarité — il mesure la force de l’association, pas sa forme. Un $R^2$ élevé peut masquer une non-linéarité si le nuage est étroit. Inversement, un $R^2$ modeste (0.60) sur une relation parfaitement linéaire signifie simplement qu’il y a beaucoup de bruit.

Test de Lack-of-Fit. Quand on dispose de réplicats (plusieurs mesures de Y pour une même valeur de X), ce test compare la variance due au manque d’ajustement à la variance pure du bruit. Si $p < 0.05$ , le modèle linéaire ne capture pas la forme réelle de la relation.

Non-linéarité courante en industrie

Trois patterns reviennent constamment.

Saturation. La relation est linéaire dans une plage, puis atteint un plateau. Exemple : rendement d’un catalyseur en fonction de la température. Linéaire de 150 à 250 °C, plateau au-dessus. Augmenter la température au-delà de 250 °C ne sert à rien — le modèle linéaire dit le contraire.

Effet de seuil. Pas de changement en dessous d’une valeur, puis un effet brutal. Exemple : usure d’un outil de coupe en fonction de la vitesse. Stable jusqu’à 180 m/min, puis dégradation rapide. Un modèle linéaire sur toute la plage donne une pente faible qui moyennise deux régimes fondamentalement différents.

Relation quadratique. L’optimum est au milieu, pas à un extrême. Exemple classique en DOE : la qualité de surface est optimale à une vitesse intermédiaire — trop lent, l’outil arrache ; trop rapide, ça chauffe. Sans le terme carré dans le modèle, le DOE conclut à l’absence d’effet ou indique un extrême comme optimum.

Que faire face à la non-linéarité

Ajouter un terme quadratique. Passer de $Y = a + bX$ à $Y = a + bX + cX^2$ . C’est la solution la plus simple et souvent suffisante. En DOE, cela revient à utiliser un plan composite centré (CCD) ou un plan Box-Behnken au lieu d’un plan factoriel pur.

Transformer X ou Y. La transformation logarithmique de X ou de Y peut linéariser certaines relations exponentielles ou en puissance. Même logique que pour la normalité : on cherche un espace transformé où la relation est droite.

Passer en machine learning. Les arbres de décision, forêts aléatoires et réseaux de neurones gèrent nativement les non-linéarités. Ils n’ont pas besoin qu’on spécifie la forme de la relation. En contrepartie, ils sont moins interprétables et nécessitent plus de données.

Exemple terrain

Étude de la relation entre vitesse de coupe et rugosité de surface (Ra) sur un centre d’usinage. 35 essais à des vitesses allant de 80 à 300 m/min.

Le scatter plot montre une courbe en U : la rugosité diminue quand la vitesse augmente de 80 à 180 m/min, puis remonte au-delà.

Régression linéaire simple : $R^2 = 0.31$ . Le modèle dit qu’il n’y a presque pas de relation. C’est faux — la relation est forte, mais elle n’est pas droite.

Régression quadratique (avec terme $V^2$ ) : $R^2 = 0.89$ . Le modèle capture le U et identifie un optimum autour de 180 m/min.

Arbre de décision : $R^2 = 0.92$ . Performance légèrement supérieure, avec l’avantage de fonctionner sans spécifier la forme. Inconvénient : il ne donne pas d’équation prédictive exploitable pour le réglage.

Le bon choix ici est le modèle quadratique : interprétable, suffisamment précis, et directement utilisable pour définir la plage de vitesse optimale.

Taille d’échantillon — combien de données faut-il ?

La question que tout le monde pose en réunion. Combien de pièces mesurer. Combien d’essais lancer. Combien de semaines de données historiques prendre. Et personne ne donne de réponse claire, parce que la bonne réponse dépend de trois paramètres que personne n’a définis avant de poser la question.

Règles pratiques

Voici les ordres de grandeur par type d’analyse. Pas des seuils absolus, des repères de terrain.

Analyse	Minimum vital	Recommandé	Idéal
t-test	10/groupe	30/groupe	50+
ANOVA	10/groupe	20/groupe	30+
Régression linéaire	10 x nb variables	20 x nb variables	50x
Random Forest	200 total	1 000+	10 000+
Réseau de neurones	1 000	10 000+	100 000+
Capabilité $C_p$ / $C_{pk}$	30	50	100+

La colonne “minimum vital” est le seuil en dessous duquel les résultats sont trop instables pour servir de base à une décision. La colonne “recommandé” donne un niveau de confiance exploitable en production. La colonne “idéal” est ce qu’on vise quand le coût de mesure le permet.

Pour la régression, le ratio 10 x nombre de variables est un plancher. Avec 4 variables explicatives, il faut au minimum 40 observations. En dessous, le modèle surajuste : il colle aux données existantes mais prédit mal les nouvelles.

Pour le machine learning, les chiffres montent d’un à deux ordres de grandeur. Un réseau de neurones avec 1 000 observations ne marchera que sur des problèmes simples à faible dimension. Une forêt aléatoire est plus frugale, mais reste gourmande comparée à une régression. La règle est simple : plus le modèle est flexible, plus il faut de données pour le contraindre.

Puissance statistique

La puissance d’un test, c’est la probabilité de détecter un vrai effet quand il existe. Si la puissance est de 80 %, il y a 20 % de chance de conclure “pas d’effet” alors qu’il y en a un. Ce 20 % s’appelle le risque $\beta$ , ou erreur de type II.

En pratique, une puissance de 80 % est le standard minimum. Pour des décisions critiques (validation d’un processus, qualification d’un fournisseur), on vise 90 %. En dessous de 80 %, le test ne vaut pas la peine d’être fait — il a trop de chances de rater un vrai problème.

Le piège classique : “on a fait 15 mesures, la p-value est 0.12, donc il n’y a pas d’effet”. Non. Avec 15 mesures, la puissance est peut-être de 40 %. On n’a rien prouvé du tout.

Taille d’effet

La puissance dépend de la taille de l’effet qu’on cherche à détecter. Plus l’effet est petit, plus il faut de données pour le voir. C’est logique : distinguer un décalage de 2 mm sur une pièce de 20 mm est facile avec 10 mesures. Distinguer un décalage de 0.02 mm demande des centaines de mesures.

Formule simplifiée pour le t-test

Pour un t-test bilatéral à 80 % de puissance et 5 % de risque alpha :

$n \approx 16 \cdot \left(\frac{s}{d}\right)^2$

Où $s$ est l’écart-type estimé des données et $d$ est la différence minimale qu’on veut détecter. Le résultat donne $n$ par groupe.

Exemple terrain

On veut savoir si un nouveau lubrifiant réduit la rugosité de surface sur une opération de tournage. L’historique de production montre un écart-type de 0.5 micromètre sur la rugosité Ra. L’effet qu’on espère détecter est une réduction de 0.2 micromètre (passer de Ra 1.6 à Ra 1.4).

$n = 16 \cdot \left(\frac{0.5}{0.2}\right)^2 = 16 \times 6.25 = 100 \text{ pièces par groupe}$

Il faut mesurer 100 pièces avec l’ancien lubrifiant et 100 avec le nouveau. Pas 10. Pas 30. 100. Si on fait l’essai sur 20 pièces par groupe, la puissance tombe à environ 30 % — autant jouer à pile ou face.

Ce calcul devrait être fait avant l’essai, pas après — pas dimensionné par le planning mais par la statistique. Trop d’essais industriels sont dimensionnés par “on a trois jours de production” plutôt que par “il nous faut n pièces”. Le résultat : des essais non concluants, qu’on relance, qui coûtent finalement trois fois plus.

Homoscédasticité et indépendance — les deux oubliées

Normalité, linéarité et taille d’échantillon ne sont pas les seules hypothèses. Deux autres sont systématiquement négligées, souvent par ignorance de leur existence.

Homoscédasticité

L’homoscédasticité (mot barbare, concept simple) signifie que la variance est la même dans tous les groupes comparés. Si on compare la rugosité entre trois machines et que la machine A varie entre 0.8 et 1.2, la machine B entre 0.5 et 2.5, et la machine C entre 1.0 et 1.1, les variances sont très différentes. L’ANOVA classique suppose qu’elles sont égales.

Comment vérifier. Le test de Levene est le plus robuste — il fonctionne même si les données ne sont pas normales. Le test de Bartlett est plus puissant mais sensible à la non-normalité. En pratique, Levene est le choix par défaut. Si $p < 0.05$ , les variances sont significativement différentes.

Que faire si violée. Pour le t-test, utiliser la version de Welch au lieu de Student. La version de Welch ne suppose pas l’égalité des variances et donne des résultats fiables dans tous les cas — il n’y a d’ailleurs aucune raison de ne pas l’utiliser systématiquement. Pour l’ANOVA, passer en ANOVA de Welch ou en test de Games-Howell pour les comparaisons multiples. Autre option : transformer les données pour stabiliser la variance (la transformation logarithmique stabilise souvent la variance en même temps qu’elle corrige l’asymétrie).

Indépendance

Chaque mesure doit être indépendante des autres. En laboratoire, c’est facile à garantir : on mesure des éprouvettes distinctes, prélevées aléatoirement. En production, c’est rarement le cas.

Violation courante. Sur une ligne de production, les pièces sortent séquentiellement. La pièce 2 est usinée juste après la pièce 1, avec le même outil, la même température, la même matière. Si l’outil s’use progressivement, les mesures ne sont pas indépendantes — elles sont autocorrélées. La pièce n ressemble plus à la pièce n-1 qu’à la pièce n-50.

Conséquence. L’autocorrélation réduit la variabilité apparente — on croit avoir 40 mesures indépendantes, on en a effectivement 15 en termes d’information. L’écart-type est sous-estimé. L’intervalle de confiance est trop étroit. La p-value est trop petite. On surestime la précision de tout.

Solution. Sous-échantillonner : ne prendre qu’une pièce sur 10 ou une pièce par heure, de façon à casser l’autocorrélation. Ou utiliser des modèles qui intègrent l’autocorrélation (séries temporelles, modèles à effets mixtes). En SPC, les cartes I-MR sont conçues pour des données individuelles séquentielles, mais elles supposent quand même une indépendance résiduelle après retrait de la tendance.

Checklist terrain — 7 points avant toute analyse

Avant de lancer un test statistique, une régression ou un modèle, passer ces sept points en revue. Quinze minutes maximum.

Tracer l’histogramme des données. Forme en cloche ? Symétrique ? Bimodal ? Queues longues ? L’histogramme donne une première image brute.
Faire un QQ-plot. Points alignés sur la diagonale = normalité. Écarts aux extrémités = queues anormales. Forme en S = asymétrie. Plus fiable que l’histogramme.
Lancer un Shapiro-Wilk (ou Anderson-Darling si $n > 50$ ). Si $p > 0.05$ , la normalité n’est pas rejetée. Si $p < 0.05$ , envisager une transformation ou un test non paramétrique.
Si deux variables : scatter plot. La relation est-elle droite, courbe, en palier, en U ? Ne pas ajuster un modèle linéaire sur une relation qui ne l’est pas.
Vérifier que n est suffisant pour l’analyse envisagée. Consulter le tableau des minimums. Si n est trop petit, le résultat ne vaut rien — mieux vaut le savoir avant qu’après.
Test de Levene si comparaison de groupes. Les variances sont-elles homogènes ? Si non, utiliser Welch.
Vérifier l’indépendance. Les données viennent-elles d’une série chronologique ? D’une ligne de production séquentielle ? Si oui, évaluer l’autocorrélation et sous-échantillonner si nécessaire.

Regle pratique

Cette checklist ne garantit pas un resultat juste. Elle garantit qu'on ne lance pas une analyse sur des fondations fausses — la difference entre un chiffre qui tient en comite de pilotage et un chiffre qui s'effondre a la premiere question d'un client exigeant.

Vidéos associées

Analyse en Composantes Principales (ACP) — réduction de dimensions et projection sur les axes principaux.

Pour aller plus loin

Tests statistiques : le guide de choix — choisir le bon test une fois les hypothèses vérifiées
Plans d’expérience (DOE) — structurer des essais industriels
Machine Learning ou statistiques classiques — le ML comme alternative quand les hypothèses classiques ne tiennent pas
Cartes de contrôle SPC — surveiller un processus stable

Corrélation, colinéarité et VIF — quand les variables d’entrée sont trop liées entre elles, le modèle devient instable.