Didacticiel — Régression & prédiction
Régression linéaire et polynomiale
Ajustez un modèle de prédiction sur vos données. Le didacticiel vous guide du choix du degré polynomial jusqu'à la lecture des intervalles de confiance — avec un jeu de données maintenance (usure d'outil vs défaut pièce) pré-chargé.
Les concepts en 4 minutes
1. Les moindres carrés (OLS)
On cherche une droite (ou une courbe) ŷ = f(x) qui minimise la somme des carrés des résidus :
min Σ (yᵢ - ŷᵢ)²
Élever au carré pénalise fort les gros écarts et rend la solution mathématiquement simple (dérivée nulle → système linéaire). C'est la régression linéaire ordinaire — OLS.
2. R² — Coefficient de détermination
R² = 1 - SSE / SST. Proportion de la variance de Y expliquée par le modèle. Entre 0 (nul) et 1 (parfait). Attention : un R² élevé sur un modèle polynomial de degré 5 avec 10 points ne veut rien dire — c'est de l'overfit.
3. R² ajusté
Corrige le R² en pénalisant le nombre de paramètres. Si R² ajusté baisse en ajoutant un terme, ce terme n'apporte rien. C'est la bonne métrique pour comparer des modèles de degrés différents.
4. RMSE vs MAE
- RMSE = √(Σ(y - ŷ)² / n) — dans les unités de Y. Pénalise les grosses erreurs.
- MAE = Σ|y - ŷ| / n — erreur absolue moyenne. Plus robuste aux outliers. Plus facile à expliquer à un opérateur (« en moyenne on se trompe de X microns »).
5. IC moyenne vs IC prédiction
Deux intervalles différents — ne pas confondre :
- IC de la moyenne (étroit) — intervalle où se situe la vraie valeur moyenne de Y pour un X donné.
- IC de prédiction (large) — intervalle où se situera une observation future. Plus large car il intègre le bruit résiduel.
ICpred(x₀) = ŷ₀ ± tα/2,n-p · s · √(1 + 1/n + (x₀ - x̄)² / Σ(xᵢ - x̄)²)
6. Sous-apprentissage vs sur-apprentissage
- Underfit — modèle trop simple (degré 1 sur une courbe). R² train bas, R² test bas. Biais élevé.
- Overfit — modèle trop complexe (degré 5 sur 20 points). R² train quasi 1, R² test s'effondre. Variance élevée.
- Bon ajustement — R² train ≈ R² test, résidus sans structure.
7. Choix du degré polynomial
Méthode : augmenter progressivement le degré jusqu'à ce que le R² ajusté test cesse de croître. Au-delà, on capte du bruit. En pratique, dépasser degré 3-4 est rare en industrie.
8. Durbin-Watson et résidus
Après ajustement, examiner les résidus (y - ŷ) en fonction de X :
- Aléatoires autour de 0 → modèle correct.
- Forme en U ou en cloche → non-linéarité non captée, augmenter le degré.
- Auto-corrélation (vagues) → structure temporelle, passer à série temporelle (ARIMA, Prophet).
La statistique de Durbin-Watson quantifie l'auto-corrélation des résidus : ≈ 2 = indépendants, < 1 = auto-corrélation positive (données ordonnées dans le temps), > 3 = auto-corrélation négative.
Données
Collez X;Y par ligne (virgule ou point-virgule). Ou importez un CSV (2 colonnes : X, Y).
Jeu pré-chargé : usure d'outil de coupe (heures) vs défaut mesuré sur pièce (µm). Cas maintenance — au-delà de 70h la dégradation devient non-linéaire.
Configuration
Exercices
Testez votre compréhension — cliquez pour voir la réponse.
01 Sur le jeu usure d'outil (pré-chargé), ajustez un modèle linéaire (degré 1). R² est autour de 0.72 sur train. Est-ce un bon modèle pour prédire le défaut à 95h ?
Réponse : Non — les résidus montrent une forme clairement non-linéaire (courbure en U). R² = 0.72 est trompeur : la relation est exponentielle, pas linéaire.
Règle terrain : toujours regarder le graphique des résidus. Si forme → passer à degré 2 ou 3.
02 Même jeu, passez au degré 3. R² train monte à 0.98, R² test à 0.96. Le Durbin-Watson est à 1.9. Modèle utilisable ?
Réponse : Oui. R² train ≈ R² test (écart < 5%) et DW ≈ 2 (résidus indépendants). Pas d'overfit, pas de structure temporelle résiduelle.
03 Quel est le degré optimal sur le jeu pré-chargé usure d'outil ? Testez 1, 2, 3, 4, 5 et comparez les R² ajustés.
Réponse : Degré 3. Au-delà, le R² ajusté stagne ou baisse (la complexité supplémentaire n'apporte rien).
Le R² brut croît toujours en ajoutant des termes. Le R² ajusté pénalise la complexité — c'est la bonne métrique de sélection.
04 Un modèle a R² train = 0.99 et R² test = 0.62. Diagnostic ?
Réponse : Sur-apprentissage (overfit) sévère. Le modèle a mémorisé le bruit du train. Réduire le degré, régulariser, ou ajouter des données.
05 Pour X = 75 sur le jeu pré-chargé (degré 3), l'IC de prédiction à 95% est [110 ; 135]. L'observation réelle pour X=75 est Y=120. Le modèle est-il bon ?
Réponse : Oui — l'observation tombe dans l'IC de prédiction. C'est le critère correct : sur 100 observations futures, environ 95 devraient tomber dans leur IC respectif.
Ne pas confondre avec l'IC de la moyenne (plus étroit) — lui concerne la droite de régression, pas les observations.
06 Pourquoi utiliser MAE plutôt que RMSE sur des données industrielles avec quelques outliers ?
Réponse : MAE est plus robuste : RMSE élève au carré donc un outlier pèse énormément. MAE donne une erreur moyenne plus représentative du comportement courant du modèle.
Alternative : utiliser une régression robuste (Huber, RANSAC) si les outliers sont nombreux.
07 Durbin-Watson vaut 0.7 sur vos résidus. Que conclure ?
Réponse : Auto-corrélation positive forte — vos données ont probablement une structure temporelle non captée. Passer à un modèle de série temporelle (ARIMA, Prophet) ou ajouter un terme temporel dans la régression.
DW proche de 2 = résidus indépendants. DW < 1 = auto-corrélation positive, > 3 = négative.
08 Vous avez 30 points et testez un modèle polynomial de degré 5. Que se passe-t-il ?
Réponse : Risque très élevé d'overfit. Avec 30 points, 6 paramètres (intercept + 5 coefs), il ne reste que 24 degrés de liberté. R² train sera artificiellement élevé.
Règle empirique : n ≥ 10 × p (nombre de paramètres). Pour degré 5, viser 60 points minimum.
09 Quand faut-il PAS utiliser la régression polynomiale ?
Réponse : Trois cas : (1) structure temporelle dominante → série temporelle. (2) relation non-monotone complexe → arbre de décision ou random forest. (3) beaucoup de variables prédictives → régression multiple / LASSO / XGBoost.
10 L'équation du modèle est Y = 2.1 + 0.8·X - 0.03·X². Quel est Y pour X=10 ?
Réponse : Y = 2.1 + 0.8×10 - 0.03×100 = 2.1 + 8 - 3 = 7.1
Pour toute prédiction : substituer X dans l'équation. L'IC de prédiction autour de 7.1 vous dit à quel point vous pouvez faire confiance à cette valeur.
Ce didacticiel vous aide ? BCUB3 construit des modèles de prédiction sur vos données de capteurs et de production — maintenance prédictive, dérive qualité, prévision de charge.
Discuter d'un cas concret