Plans d'expérience (DOE) : du factoriel complet au plan optimal, guide terrain

Pourquoi un plan d’experience et pas juste “essayer des trucs”

La méthode la plus naturelle du monde pour règler un procédé, c’est de changer un paramètre, regarder ce que ça donne, puis changer le suivant. Un facteur à la fois. C’est le OFAT — One Factor At à Time.

Tout le monde le fait. Et tout le monde passe à côté de l’information la plus importante : les interactions.

Prenons un cas concret. Une reaction chimique en batch, deux facteurs : température (60 C ou 80 C) et pression (2 bar ou 4 bar).

L’operateur teste d’abord la température à pression fixe (2 bar). Il passe de 60 à 80 C, le rendement monte de 72 % à 78 %. Conclusion OFAT : la température compte, on gagne 6 points.

Il teste ensuite la pression à température fixe (80 C). Il passe de 2 à 4 bar, le rendement monte de 78 % à 82 %. Conclusion OFAT : la pression compte aussi, on gagne 4 points. Bilan OFAT : température et pression contribuent independamment, on s’attend à un rendement de 88 % si on combine les deux optima.

Sauf que le rendement réel à 80 C et 4 bar est de 94 %. L’ecart de 6 points, c’est l’interaction température x pression — un phenomene qui n’existe que lorsque les deux facteurs bougent ensemble. Le OFAT ne peut pas la voir, par construction.

Un plan d’experience (DOE, Design of Experiments) resout ce problème. Il fait varier tous les facteurs simultanément selon une matrice structuree. Résultat :

Moins d’essais que le OFAT exhaustif
Estimation des effets principaux et des interactions
Un modèle mathematique du procédé qu’on peut utiliser pour prédire et optimiser

Fisher à formalise ça en 1935 pour l’agronomie. Quatre-vingt-dix ans plus tard, c’est l’outil le plus sous-utilise en production industrielle.

Vocabulaire en 2 minutes

Avant de construire un plan, il faut parler la même langue.

Facteur : variable qu’on contrôle pendant l’essai (temperature, vitesse de rotation, concentration d’un additif, type de matière première). Ce qu’on fait bouger volontairement.
Niveau : valeur qu’on attribue à un facteur. Dans un plan à 2 niveaux, chaque facteur prend une valeur basse (-1) et une valeur haute (+1). Dans un plan à 3 niveaux, on ajoute un point milieu (0).
Reponse : ce qu’on mesure (rendement, rugosite de surface, resistance mecanique, temps de sechage, taux de défauts). C’est la variable de sortie du procédé.
Effet principal : l’influence d’un facteur seul sur la réponse. Calcule comme la différence entre la moyenne des réponses au niveau haut et la moyenne des réponses au niveau bas.
Interaction : l’influence combinee de deux facteurs ou plus. Quand l’effet d’un facteur dépend du niveau d’un autre facteur, il y à interaction. C’est ce que le OFAT ne voit pas.
Replique : refaire le même essai (memes conditions) pour estimer l’erreur experimentale. Sans repliques, impossible de savoir si un écart est réel ou du bruit.
Point central : essai realise au milieu de tous les facteurs (niveau 0). Sert à vérifiér la linéarité de la relation et à estimer l’erreur pure.

Factoriel complet $2^k$ — Le plan de référence

Le factoriel complet est le plan le plus direct : on teste toutes les combinaisons possibles de $k$ facteurs à 2 niveaux chacun. C’est exhaustif, transparent, et il fournit l’estimation non biaisee de tous les effets principaux et de toutes les interactions.

Le nombre d’essais suit une loi exponentielle simple :

Facteurs ( $k$ )	Essais ( $2^k$ )
2	4
3	8
4	16
5	32
6	64
7	128

Jusqu’a 4 facteurs, le nombre d’essais reste raisonnable. À 5 facteurs, on atteint 32 essais — faisable si chaque essai coûte peu (reglage machine, injection plastique rapide). Au-dela de 5, le plan complet devient rarement economique. On passe au fractionnaire.

Exemple complet : $2^3 = 8$ essais

Situation : optimisation du rendement de conversion d’une reaction en batch. Trois facteurs identifiés par le procédé :

À — Temperature : 60 C (niveau bas, -1) / 80 C (niveau haut, +1)
B — Pression : 2 bar (-1) / 4 bar (+1)
C — Temps de reaction : 10 min (-1) / 20 min (+1)

Réponse : taux de conversion (%).

La matrice du plan $2^3$ complet, avec résultats fictifs mais realistes :

Essai	À (Temp.)	B (Pression)	C (Temps)	Temp. (C)	Pression (bar)	Temps (min)	Conversion (%)
1	-1	-1	-1	60	2	10	68
2	+1	-1	-1	80	2	10	76
3	-1	+1	-1	60	4	10	73
4	+1	+1	-1	80	4	10	89
5	-1	-1	+1	60	2	20	71
6	+1	-1	+1	80	2	20	78
7	-1	+1	+1	60	4	20	75
8	+1	+1	+1	80	4	20	94

Calcul des effets principaux. L’effet de À (température) est la différence entre la moyenne des essais ou À = +1 et la moyenne des essais ou À = -1 :

$\text{Effet A} = \frac{76 + 89 + 78 + 94}{4} - \frac{68 + 73 + 71 + 75}{4} = 84.25 - 71.75 = \textbf{+12.5 points}$

$\text{Effet B} = \frac{73 + 89 + 75 + 94}{4} - \frac{68 + 76 + 71 + 78}{4} = 82.75 - 73.25 = \textbf{+9.5 points}$

$\text{Effet C} = \frac{71 + 78 + 75 + 94}{4} - \frac{68 + 76 + 73 + 89}{4} = 79.50 - 76.50 = \textbf{+3.0 points}$

La température domine (+12.5), suivie de la pression (+9.5). Le temps de reaction à un effet modeste (+3.0).

Calcul de l’interaction A x B (Temperature x Pression). On compare l’effet de A quand B est haut versus quand B est bas :

$\text{Effet de A quand } B = -1 : \frac{76 + 78}{2} - \frac{68 + 71}{2} = 77.0 - 69.5 = +7.5$

$\text{Effet de A quand } B = +1 : \frac{89 + 94}{2} - \frac{73 + 75}{2} = 91.5 - 74.0 = +17.5$

L’interaction $A \times B$ vaut +5.0 points — c’est plus gros que l’effet principal du temps de reaction. Un plan OFAT n’aurait pas pu le détecter.

Points centraux. En ajoutant 2 ou 3 essais au centré du domaine (70 C, 3 bar, 15 min), on obtient deux informations supplementaires :

Une estimation de l’erreur pure sans avoir besoin de repliquer tous les essais
Un test de courbure : si la réponse au centré est significativement différente de la moyenne des 8 essais, la relation n’est pas linéaire et il faut passer à un plan de surface de réponse

Le cout : 2 ou 3 essais de plus, soit 10 ou 11 au total. Negligeable.

Factoriel fractionnaire $2^{k-p}$ — Quand le complet coûte trop cher

À 6 facteurs, le plan complet demande 64 essais. À 7 facteurs, 128. À 8, 256. Si chaque essai coûte 500 euros de matière et 4 heures de temps machine, le complet devient irraliste. Le factoriel fractionnaire réduit le nombre d’essais en sacrifiant l’information sur les interactions d’ordre élevé — celles entre 3 facteurs ou plus, qui sont rarement significatives en pratique.

Le principe : on ne teste qu’une fraction $1/2^p$ de toutes les combinaisons. Le plan est note $2^{k-p}$ . Pour 5 facteurs, un $2^{5-1}$ donne 16 essais au lieu de 32. Pour 7 facteurs, un $2^{7-4}$ donne 8 essais au lieu de 128.

Le prix à payer s’appelle confusion (aliasing) : certains effets deviennent indiscernables les uns des autres. La resolution du plan dit quels effets sont confondus :

Resolution III : les effets principaux sont confondus avec des interactions d’ordre 2. Dangereux si des interactions existent. Utiliser uniquement pour un screening brut.
Resolution IV : les effets principaux sont clairs, mais les interactions d’ordre 2 sont confondues entre elles. Acceptable pour identifiér les facteurs significatifs.
Resolution V : les effets principaux et les interactions d’ordre 2 sont tous clairs. Les interactions d’ordre 3 se confondent entre elles — en general, on s’en moque.

Tailles des plans fractionnaires les plus courants

Facteurs	Complet $2^k$	Fraction $2^{k-1}$	Fraction $2^{k-2}$
4	16	8 (Res. IV)	—
5	32	16 (Res. V)	8 (Res. III)
6	64	32 (Res. VI)	16 (Res. IV)
7	128	64	16 (Res. IV)
8	256	128	32 (Res. IV)

Stratégie screening + confirmation

En pratique, le fractionnaire s’utilise en deux temps. Premier temps : screening. On lance un plan resolution III ou IV avec 5 à 8 facteurs pour identifiér les 2 ou 3 facteurs qui pèsent. Deuxieme temps : on lance un plan complet $2^2$ ou $2^3$ sur ces facteurs-la, avec des repliques.

Exemple : 7 facteurs suspects sur une ligne d’extrusion plastique (température zone 1, température zone 2, vitesse vis, pression filiere, taux de charge, granulometrie matière, hygrometrie).

Plan $2^{7-4} = 8$ essais, resolution III. Le screening identifié 3 facteurs significatifs : température zone 2, vitesse vis, taux de charge. On lance un $2^3$ complet = 8 essais sur ces 3 facteurs, avec 3 points centraux. Total : 19 essais pour couvrir 7 facteurs. Un plan complet en aurait demande 128.

Plans de surface de réponse (RSM) — Quand la relation n’est pas linéaire

Les plans $2^k$ supposent que la relation entre facteurs et réponse est linéaire — ou du moins suffisamment linéaire pour etre utile. Ce n’est pas toujours le cas. Beaucoup de procédés ont un optimum : un rendement qui augmente avec la température jusqu’à un certain seuil, puis diminue. Une rugosite qui s’ameliore quand on ralentit la vitesse, mais qui se degrade en dessous d’un minimum. Ces relations necessitent un modèle quadratique — avec des termes au carré — et donc des plans à 3 niveaux minimum.

C’est le domaine de la methodologie de surface de réponse (RSM, Response Surface Methodology). Deux plans dominent.

Box-Behnken

Le plan Box-Behnken teste chaque paire de facteurs à ses combinaisons extremes (-1, +1) tandis que les autres facteurs restent au centré (0). Il ne place jamais un essai dans un coin du domaine — c’est-a-dire ou tous les facteurs sont à leur extremum en même temps. C’est un avantage quand les combinaisons extremes sont dangereuses (explosion, degradation d’un catalyseur) ou physiquement impossibles.

Nombre d’essais :

Facteurs	Essais Box-Behnken
3	15 (12 + 3 centraux)
4	27 (24 + 3 centraux)
5	46 (40 + 6 centraux)

Le Box-Behnken est le bon choix quand on travaille avec 3 ou 4 facteurs, qu’on veut un modèle quadratique, et qu’on veut eviter les conditions extremes.

Composite Central (CCD)

Le plan composite central part du factoriel $2^k$ et ajoute deux types de points : des points axiaux (etoiles) places à une distance $\alpha$ du centré sur chaque axe, et des points centraux. Le nombre d’essais est $2^k + 2k + n_c$ , ou $n_c$ est le nombre de points centraux.

Facteurs	Factoriel $2^k$	Points axiaux $2k$	Centraux	Total CCD
2	4	4	5	13
3	8	6	6	20
4	16	8	7	31

Le CCD est plus flexible que le Box-Behnken : il permet de construire un modèle quadratique rotatif (precision de prédiction constante dans toutes les directions à distance egale du centré). Il necessite les coins du domaine, donc des conditions extremes. Si c’est acceptable, c’est souvent le meilleur choix.

Trouver l’optimum

L’objectif du RSM est de construire un modèle polynomial du second degré :

$y = b_0 + b_1 x_1 + b_2 x_2 + b_{12} x_1 x_2 + b_{11} x_1^2 + b_{22} x_2^2 + \cdots$

Ce modèle definit une surface dans l’espace des facteurs. L’optimum est le point ou la réponse est maximale (ou minimale, selon l’objectif). Geometriquement, c’est le sommet (ou le creux) de la surface. On le trouve en annulant les dérivees partielles, ou numeriquement si le modèle est plus complexe.

Exemple : optimiser le rendement d’une synthese chimique en fonction de la température (50-90 C), la concentration du reactif (0.5-2.0 mol/L) et le pH (4-8). On lance un CCD à 3 facteurs, 20 essais. Le modèle ajuste donne un maximum à 74 C, 1.4 mol/L, pH 6.2, avec un rendement predit de 96.3 %. On realise un essai de confirmation à ces conditions : rendement mesure 95.1 %. L’ecart de 1.2 point est coherent avec l’erreur experimentale du plan. L’optimum est valide.

Taguchi — Un mot honnete

Les tables de Taguchi (L4, L8, L9, L16, L27…) sont presentes dans toutes les formations Lean Six Sigma. Elles sont populaires parce qu’elles demandent très peu d’essais et qu’elles se presentent sous forme de tables toutes faites : on choisit le nombre de facteurs et de niveaux, on prend la table correspondante, on fait les essais. L’attrait de la simplicite est réel.

Le problème est statistique. Les tables de Taguchi sont des plans fractionnaires de resolution III — les effets principaux sont confondus avec des interactions d’ordre 2. Si l’interaction $A \times B$ est significative (ce qui, on l’a vu plus haut, est très courant en procédé industriel), Taguchi va l’attribuer à un effet principal et l’optimum sera faux.

Autre limite : Taguchi utilise le rapport signal-sur-bruit (S/N ratio) comme metrique unique, ce qui melange la moyenne et la variance en un seul indicateur. C’est intellectuellement elegant, mais ça empeche de distinguer un processus qui à une bonne moyenne et une forte variance d’un processus qui à une moyenne mediocre et une faible variance.

Recommandation : utiliser Taguchi pour un premier screening rapide quand on n’a aucune connaissance prealable des interactions et très peu de budget essais. Mais des que le procédé est critique ou que des interactions sont soupconnees, passer à un factoriel classique ou à un RSM.

L’arbre de decision du DOE — Quel plan choisir ?

Le choix du plan dépend de trois questions : combien de facteurs, quelle relation attendue, quel budget.

Question 1 — Combien de facteurs ?

2 à 4 facteurs : factoriel complet $2^k$ , eventuellement avec points centraux pour tester la courbure. De 4 à 19 essais. Pas de raison de se compliquer la vie.
5 à 8 facteurs : factoriel fractionnaire pour screening (8 à 32 essais), puis plan complet ou RSM sur les 2-3 facteurs significatifs. Total : 20 à 40 essais.
Plus de 8 facteurs : Plackett-Burman (plan de screening à N essais, ou N est un multiple de 4 juste supérieur au nombre de facteurs — 12 essais pour 11 facteurs) ou Definitive Screening Design (DSD, $2k+1$ essais, estime les effets principaux, les interactions d’ordre 2 et les effets quadratiques en un seul plan). Ces plans sont reserves au screening initial.

Question 2 — Relation linéaire ou courbe ?

Lineaire (ou supposee linéaire en première approximation) : plans à 2 niveaux (factoriel complet ou fractionnaire). Le modèle est $y = b_0 + b_1 x_1 + b_2 x_2 + b_{12} x_1 x_2$ .
Courbe / recherche d’optimum : plans à 3 niveaux ou plus (Box-Behnken, CCD). Le modèle inclut des termes quadratiques $y = b_0 + b_1 x_1 + b_{11} x_1^2 + \cdots$

Question 3 — Budget essais ?

Budget max	Plan recommande (3 facteurs)	Plan recommande (5 facteurs)
8 essais	$2^3$ complet — tout est estime	$2^{5-2}$ screening Res. III — identification des facteurs cles
16 essais	$2^3$ + 3 centraux + 5 repliques — estimation robuste	$2^{5-1}$ Res. V — tous les effets clairs
20 essais	Box-Behnken 3 facteurs — modèle quadratique	$2^{5-1}$ + 4 centraux — screening + test courbure
30+ essais	CCD 3 facteurs — surface de réponse complété	CCD après screening — optimisation finale

Strategie sequentielle

Ne lancez jamais un CCD a 30 essais sans avoir d'abord identifie les bons facteurs en 8 ou 16 essais. Chaque essai inutile coute du temps machine, de la matiere, et de la credibilite du DOE aupres de l'equipe de production.

Les 5 erreurs DOE les plus courantes en usine

1. Ne pas randomiser l’ordre des essais

La matrice du plan donne un ordre de presentation logique (essai 1 à essai 8). Ce n’est pas l’ordre d’execution. Il faut tirer au sort l’ordre pour casser les effets parasites : dérive thermique du four au cours de la journee, fatigue de l’operateur, variation de la matière première entre lots.

La randomisation est la seule protection contre les facteurs inconnus.

Cas réel : un plan $2^4$ sur une ligne d’injection. Les 16 essais ont été realises dans l’ordre de la matrice, du lundi au mercredi. Le mardi, la granulometrie du lot de matière à change. L’effet du facteur “granulometrie” à absorbe en partie le changement de lot, rendant le résultat ininterpretable. Trois jours de production perdus. La randomisation aurait reparti ce bruit uniformement sur tous les essais.

2. Oùblier les repliques

Sans repliques, on ne peut pas estimer l’erreur experimentale. On ne peut donc pas savoir si un effet de 3 points est significatif ou s’il est dans le bruit. En pratique, la decision devient subjective : “je pense que c’est significatif” remplacé “le test montre que c’est significatif avec un risque de 5 %”. C’est exactement le contraire de ce que le DOE est cense apporter.

Deux repliques par essai doublent le nombre d’essais — souvent inacceptable. La solution : repliquer au minimum les points centraux (3 à 5 repliques), qui donnent une estimation de l’erreur pure à moindre cout. Si le budget le permet, repliquer 2 ou 3 essais du plan complet, choisis aléatoirement.

3. Choisir des niveaux trop proches

Si les deux niveaux d’un facteur sont 75 C et 77 C, l’effet sera probablement noye dans le bruit de mesure. La variation entre niveaux doit etre substantielle par rapport à la variabilité naturelle du procédé. La règle empirique : les niveaux doivent couvrir au moins 50 à 80 % de la plage opérationnelle raisonnable du facteur. Si la température de process varie normalement entre 60 et 90 C, les niveaux à 65 et 85 C sont un bon choix. Des niveaux à 74 et 76 C ne sont utiles que si le capteur est extremement précis et la variabilité du procédé très faible.

L’erreur inverse existe aussi : des niveaux trop eloignes, en dehors du domaine de fonctionnement normal. À 120 C, le polymere degrade. L’essai est perdu et potentiellement dangereux. Le choix des niveaux est un acte d’ingenierie, pas un choix mathematique.

4. Ignorer les interactions

C’est le piege OFAT déjà decrit, mais qui persiste même avec un DOE si on ne calcule pas les interactions. Certains logiciels affichent par défaut uniquement les effets principaux. Certains rapports ne mentionnent que les effets principaux. L’interaction AxB à +5.0 points dans notre exemple est plus grande que l’effet principal du facteur C. L’ignorer, c’est se priver de 40 % de l’information du plan.

Règle : toujours analyser au minimum les interactions d’ordre 2 (deux facteurs). Les interactions d’ordre 3 et plus sont rarement significatives en pratique — mais les interactions d’ordre 2 le sont dans environ 30 à 40 % des plans industriels publies.

5. Ne pas confirmer l’optimum

Le plan donne un modèle. Le modèle predit un optimum. Mais le modèle est une approximation construite sur un nombre limite d’essais. L’essai de confirmation est le test final : on realise 3 à 5 essais aux conditions optimales predites et on vérifié que le résultat mesure est coherent avec la prédiction. Si l’ecart est supérieur à 2 fois l’erreur standard du modèle, quelque chose ne va pas — un facteur non contrôle, une non-linearite ignoree, un domaine mal borne.

L’essai de confirmation coûte 3 à 5 essais — ne pas le faire peut coûter des semaines de production défectueuse.

En résumé

Le DOE n’est pas un outil académique. C’est une méthode de travail qui transforme l’approche “on essaie et on voit” en une approche “on sait ce qu’on cherche, on le mesure, et on peut le prouver”. Le factoriel complet $2^k$ reste le plan de référence pour 2 à 4 facteurs. Le fractionnaire permet de couvrir 5 à 8 facteurs en gardant un nombre d’essais raisonnable. Le RSM (Box-Behnken ou CCD) entre en jeu quand on cherche un optimum et que la relation n’est pas linéaire.

La stratégie séquentielle — screening d’abord, optimisation ensuite — est systématiquement supérieure à un plan unique surdimensionné. Elle coûte moins cher, elle apprend à chaque étape, et elle résiste mieux aux surprises. En usine, les surprises sont la norme.

Cinq règles à ne pas négocier :

Randomiser l’ordre
Repliquer les centraux
Ecarter les niveaux
Calculer les interactions
Confirmer l’optimum

Le reste est de l’ingenierie de détail — importante, mais secondaire par rapport à ces fondamentaux.

A retenir

La strategie sequentielle — screening d'abord, optimisation ensuite — est systematiquement superieure a un plan unique surdimensionne. Elle coute moins cher, elle apprend a chaque etape, et elle resiste mieux aux surprises.

Vidéos associées

*Interaction température × pression dans un plan factoriel 2² — ce que le OFAT ne voit pas.

Pour aller plus loin

Tests statistiques : le guide de choix — les tests derrière l’analyse des effets DOE
Normalité, linéarité, hypothèses — vérifier les conditions avant d’interpréter un DOE
Machine Learning ou statistiques classiques — quand le DOE ne suffit plus
Cartes de contrôle SPC — mettre sous contrôle le réglage optimisé par DOE

Stratégie DOE séquentielle : screening → caractérisation → optimisation. Chaque étape réduit les facteurs et augmente la précision.

Essai	À (Temp.)	B (Pression)	C (Temps)	Temp. (C)	Pression (bar)	Temps (min)	Conversion (%)
1	-1	-1	-1	60	2	10	68
2	+1	-1	-1	80	2	10	76
3	-1	+1	-1	60	4	10	73
4	+1	+1	-1	80	4	10	89
5	-1	-1	+1	60	2	20	71
6	+1	-1	+1	80	2	20	78
7	-1	+1	+1	60	4	20	75
8	+1	+1	+1	80	4	20	94

Essai	À (Temp.)	B (Pression)	C (Temps)	Temp. (C)	Pression (bar)	Temps (min)	Conversion (%)
1	-1	-1	-1	60	2	10	68
2	+1	-1	-1	80	2	10	76
3	-1	+1	-1	60	4	10	73
4	+1	+1	-1	80	4	10	89
5	-1	-1	+1	60	2	20	71
6	+1	-1	+1	80	2	20	78
7	-1	+1	+1	60	4	20	75
8	+1	+1	+1	80	4	20	94

Pourquoi un plan d’experience et pas juste “essayer des trucs”

Vocabulaire en 2 minutes

Factoriel complet 2k2^k2k — Le plan de référence

Exemple complet : 23=82^3 = 823=8 essais

Factoriel fractionnaire 2k−p2^{k-p}2k−p — Quand le complet coûte trop cher

Tailles des plans fractionnaires les plus courants

Stratégie screening + confirmation

Plans de surface de réponse (RSM) — Quand la relation n’est pas linéaire

Box-Behnken

Composite Central (CCD)

Trouver l’optimum

Taguchi — Un mot honnete

L’arbre de decision du DOE — Quel plan choisir ?

Question 1 — Combien de facteurs ?

Question 2 — Relation linéaire ou courbe ?

Question 3 — Budget essais ?

Les 5 erreurs DOE les plus courantes en usine

1. Ne pas randomiser l’ordre des essais

2. Oùblier les repliques

3. Choisir des niveaux trop proches

4. Ignorer les interactions

5. Ne pas confirmer l’optimum

En résumé

Vidéos associées

Pour aller plus loin

Factoriel complet $2^k$ — Le plan de référence

Exemple complet : $2^3 = 8$ essais

Factoriel fractionnaire $2^{k-p}$ — Quand le complet coûte trop cher

Essai	À (Temp.)	B (Pression)	C (Temps)	Temp. (C)	Pression (bar)	Temps (min)	Conversion (%)
1	-1	-1	-1	60	2	10	68
2	+1	-1	-1	80	2	10	76
3	-1	+1	-1	60	4	10	73
4	+1	+1	-1	80	4	10	89
5	-1	-1	+1	60	2	20	71
6	+1	-1	+1	80	2	20	78
7	-1	+1	+1	60	4	20	75
8	+1	+1	+1	80	4	20	94