Didacticiel — Régression & prédiction

Régression linéaire et polynomiale

Ajustez un modèle de prédiction sur vos données. Le didacticiel vous guide du choix du degré polynomial jusqu'à la lecture des intervalles de confiance — avec un jeu de données maintenance (usure d'outil vs défaut pièce) pré-chargé.

Méthode des moindres carrés — la droite pivote pour minimiser Σ(y - ŷ)² (somme des carrés des écarts verticaux).

Les concepts en 4 minutes

1. Les moindres carrés (OLS)

On cherche une droite (ou une courbe) ŷ = f(x) qui minimise la somme des carrés des résidus :

min Σ (yᵢ - ŷᵢ)²

Élever au carré pénalise fort les gros écarts et rend la solution mathématiquement simple (dérivée nulle → système linéaire). C'est la régression linéaire ordinaire — OLS.

2. R² — Coefficient de détermination

R² = 1 - SSE / SST. Proportion de la variance de Y expliquée par le modèle. Entre 0 (nul) et 1 (parfait). Attention : un R² élevé sur un modèle polynomial de degré 5 avec 10 points ne veut rien dire — c'est de l'overfit.

3. R² ajusté

Corrige le R² en pénalisant le nombre de paramètres. Si R² ajusté baisse en ajoutant un terme, ce terme n'apporte rien. C'est la bonne métrique pour comparer des modèles de degrés différents.

4. RMSE vs MAE

  • RMSE = √(Σ(y - ŷ)² / n) — dans les unités de Y. Pénalise les grosses erreurs.
  • MAE = Σ|y - ŷ| / n — erreur absolue moyenne. Plus robuste aux outliers. Plus facile à expliquer à un opérateur (« en moyenne on se trompe de X microns »).

5. IC moyenne vs IC prédiction

Deux intervalles différents — ne pas confondre :

  • IC de la moyenne (étroit) — intervalle où se situe la vraie valeur moyenne de Y pour un X donné.
  • IC de prédiction (large) — intervalle où se situera une observation future. Plus large car il intègre le bruit résiduel.

ICpred(x₀) = ŷ₀ ± tα/2,n-p · s · √(1 + 1/n + (x₀ - x̄)² / Σ(xᵢ - x̄)²)

6. Sous-apprentissage vs sur-apprentissage

  • Underfit — modèle trop simple (degré 1 sur une courbe). R² train bas, R² test bas. Biais élevé.
  • Overfit — modèle trop complexe (degré 5 sur 20 points). R² train quasi 1, R² test s'effondre. Variance élevée.
  • Bon ajustement — R² train ≈ R² test, résidus sans structure.

7. Choix du degré polynomial

Méthode : augmenter progressivement le degré jusqu'à ce que le R² ajusté test cesse de croître. Au-delà, on capte du bruit. En pratique, dépasser degré 3-4 est rare en industrie.

8. Durbin-Watson et résidus

Après ajustement, examiner les résidus (y - ŷ) en fonction de X :

  • Aléatoires autour de 0 → modèle correct.
  • Forme en U ou en cloche → non-linéarité non captée, augmenter le degré.
  • Auto-corrélation (vagues) → structure temporelle, passer à série temporelle (ARIMA, Prophet).

La statistique de Durbin-Watson quantifie l'auto-corrélation des résidus : ≈ 2 = indépendants, < 1 = auto-corrélation positive (données ordonnées dans le temps), > 3 = auto-corrélation négative.

Données

Collez X;Y par ligne (virgule ou point-virgule). Ou importez un CSV (2 colonnes : X, Y).

Jeu pré-chargé : usure d'outil de coupe (heures) vs défaut mesuré sur pièce (µm). Cas maintenance — au-delà de 70h la dégradation devient non-linéaire.

Configuration

1 (linéaire) 3 5
Chargement de Pyodide…

Exercices

Testez votre compréhension — cliquez pour voir la réponse.

01 Sur le jeu usure d'outil (pré-chargé), ajustez un modèle linéaire (degré 1). R² est autour de 0.72 sur train. Est-ce un bon modèle pour prédire le défaut à 95h ?

Réponse : Non — les résidus montrent une forme clairement non-linéaire (courbure en U). R² = 0.72 est trompeur : la relation est exponentielle, pas linéaire.

Règle terrain : toujours regarder le graphique des résidus. Si forme → passer à degré 2 ou 3.

02 Même jeu, passez au degré 3. R² train monte à 0.98, R² test à 0.96. Le Durbin-Watson est à 1.9. Modèle utilisable ?

Réponse : Oui. R² train ≈ R² test (écart < 5%) et DW ≈ 2 (résidus indépendants). Pas d'overfit, pas de structure temporelle résiduelle.

03 Quel est le degré optimal sur le jeu pré-chargé usure d'outil ? Testez 1, 2, 3, 4, 5 et comparez les R² ajustés.

Réponse : Degré 3. Au-delà, le R² ajusté stagne ou baisse (la complexité supplémentaire n'apporte rien).

Le R² brut croît toujours en ajoutant des termes. Le R² ajusté pénalise la complexité — c'est la bonne métrique de sélection.

04 Un modèle a R² train = 0.99 et R² test = 0.62. Diagnostic ?

Réponse : Sur-apprentissage (overfit) sévère. Le modèle a mémorisé le bruit du train. Réduire le degré, régulariser, ou ajouter des données.

05 Pour X = 75 sur le jeu pré-chargé (degré 3), l'IC de prédiction à 95% est [110 ; 135]. L'observation réelle pour X=75 est Y=120. Le modèle est-il bon ?

Réponse : Oui — l'observation tombe dans l'IC de prédiction. C'est le critère correct : sur 100 observations futures, environ 95 devraient tomber dans leur IC respectif.

Ne pas confondre avec l'IC de la moyenne (plus étroit) — lui concerne la droite de régression, pas les observations.

06 Pourquoi utiliser MAE plutôt que RMSE sur des données industrielles avec quelques outliers ?

Réponse : MAE est plus robuste : RMSE élève au carré donc un outlier pèse énormément. MAE donne une erreur moyenne plus représentative du comportement courant du modèle.

Alternative : utiliser une régression robuste (Huber, RANSAC) si les outliers sont nombreux.

07 Durbin-Watson vaut 0.7 sur vos résidus. Que conclure ?

Réponse : Auto-corrélation positive forte — vos données ont probablement une structure temporelle non captée. Passer à un modèle de série temporelle (ARIMA, Prophet) ou ajouter un terme temporel dans la régression.

DW proche de 2 = résidus indépendants. DW < 1 = auto-corrélation positive, > 3 = négative.

08 Vous avez 30 points et testez un modèle polynomial de degré 5. Que se passe-t-il ?

Réponse : Risque très élevé d'overfit. Avec 30 points, 6 paramètres (intercept + 5 coefs), il ne reste que 24 degrés de liberté. R² train sera artificiellement élevé.

Règle empirique : n ≥ 10 × p (nombre de paramètres). Pour degré 5, viser 60 points minimum.

09 Quand faut-il PAS utiliser la régression polynomiale ?

Réponse : Trois cas : (1) structure temporelle dominante → série temporelle. (2) relation non-monotone complexe → arbre de décision ou random forest. (3) beaucoup de variables prédictives → régression multiple / LASSO / XGBoost.

10 L'équation du modèle est Y = 2.1 + 0.8·X - 0.03·X². Quel est Y pour X=10 ?

Réponse : Y = 2.1 + 0.8×10 - 0.03×100 = 2.1 + 8 - 3 = 7.1

Pour toute prédiction : substituer X dans l'équation. L'IC de prédiction autour de 7.1 vous dit à quel point vous pouvez faire confiance à cette valeur.

Ce didacticiel vous aide ? BCUB3 construit des modèles de prédiction sur vos données de capteurs et de production — maintenance prédictive, dérive qualité, prévision de charge.

Discuter d'un cas concret