Didacticiel — Performance & disponibilité
Analyse des micro-arrêts
Les micro-arrêts (< 5 min, très fréquents, souvent non déclarés) sont invisibles sur un tableau de suivi classique — mais leur impact cumulé rivalise avec une panne majeure. Importez votre journal d'événements : vous obtenez la distribution ajustée, un Pareto double vue (nombre vs durée), la heatmap heure × jour, MTBA, P95, et l'estimation d'impact TRS. 100 % navigateur via Pyodide.
1. Qu'est-ce qu'un micro-arrêt ?
Un micro-arrêt (ou micro-stop) est un arrêt de production de très courte durée — typiquement < 5 minutes — qui se résout sans intervention externe (pas d'appel maintenance, pas d'ouverture de fiche). AFNOR NF E60-182 le définit comme un arrêt « traité par l'opérateur de conduite en cours de poste ».
Caractéristiques :
- Invisibles dans les logs traditionnels GMAO — trop courts pour être saisis.
- Très fréquents : 50 à 500 par semaine sur une ligne de conditionnement.
- Cause mécanique répétitive : bourrage, éjection, capteur, orientation, alim matière.
- Résolus en < 5 min par l'opérateur ou par auto-reset machine.
Dans la taxonomie Nakajima (6 grandes pertes du TPM), les micro-arrêts relèvent de la perte « ralentissements et micro-arrêts » — c'est la 5ᵉ perte, celle qui dilue la composante Performance du TRS.
2. Pourquoi les analyser séparément ?
Le TRS mesure globalement : TRS = Disponibilité × Performance × Qualité. Les micro-arrêts
tombent dans la Performance (ralentissements par rapport au temps de cycle théorique),
pas dans la Disponibilité (qui capte les arrêts longs déclarés).
Conséquence : sur un tableau de bord TRS classique, 200 arrêts de 1 min apparaissent comme un simple ralentissement — la granularité événementielle est perdue.
200 arrêts × 1 min = 3 h 20 min de perte
Équivalent d'une panne longue — mais zéro ticket GMAO, zéro réunion quality, zéro visibilité management.
L'analyse dédiée permet :
- Quantifier l'impact réel (cumul durée, MTBA, part de TRS perdu).
- Localiser dans le temps (heatmap shift, effet post-pause).
- Prioriser par cause (Pareto double vue — voir §4).
- Monitorer un SLA (ex : P95 < 3 min) après action corrective.
3. Distribution des durées — log-normale, Weibull, ou bimodale ?
La distribution des durées n'est presque jamais normale. Elle présente trois formes canoniques en industrie :
- Log-normale — cas général. Les durées sont multiplicativement aléatoires (temps de diagnostic × temps de correction × temps de redémarrage). Queue longue asymétrique.
- Weibull — quand la durée dépend de l'usure. Paramètre de forme β : β < 1 rodage / défauts décroissants, β = 1 aléatoire pur (exponentielle), β > 1 usure croissante. Diagnostic précieux pour la maintenance.
- Exponentielle — cas particulier de Weibull (β = 1). Arrêts « sans mémoire », indépendants dans le temps. Souvent le modèle de base quand il n'y a pas d'information contraire.
Bimodalité — quand l'histogramme a deux pics, on a plusieurs causes mélangées. Un seul fit log-normal masque alors la réalité physique. Toujours regarder l'histogramme avant de fitter.
Le didacticiel propose le fit automatique des trois distributions avec scipy.stats.
Le meilleur fit au sens Kolmogorov-Smirnov (plus grand p-value) sera mis en évidence, mais
le choix final reste éditorial et métier.
4. Pareto en nombre vs en durée cumulée — les deux classements diffèrent
Le Pareto 80-20 est un réflexe : trier les causes par fréquence décroissante, la loi des 80-20 s'applique souvent. Mais trier par nombre d'événements donne un classement différent que trier par durée cumulée.
| Cause | N événements | Durée moy. | Durée cumulée |
|---|---|---|---|
| Micro-bourrage goulot | 108 (45 %) | 0.8 min | 86 min (17 %) |
| Changement format | 12 (5 %) | 12 min | 144 min (29 %) |
| Étiquetage | 36 (15 %) | 1.8 min | 65 min (13 %) |
| … | … | … | … |
Ici, « micro-bourrage » domine en nombre (45 %) mais pèse peu en durée (17 %). « Changement format » est rare (5 %) mais #1 en durée (29 %).
Les deux Pareto sont valides mais mesurent des choses différentes :
- Pareto en nombre → irritation opérateur, charge cognitive, risque de désactivation.
- Pareto en durée → impact TRS, temps machine perdu, indicateur dirigeant.
Un diagnostic industriel sérieux présente systématiquement les deux vues côte à côte.
5. Analyse temporelle — heatmap heure × jour
Agréger les événements par heure de la journée et jour de la semaine révèle des patterns invisibles sur un Pareto :
- Effet shift : pic concentré sur un quart spécifique — problème de formation ou de procédure.
- Post-pause / passation : pic 14 h et 22 h — machine refroidie, premières pièces dérivent.
- Fin de shift : pic 13-14 h et 21-22 h — accélération pour « finir » sature les buffers aval.
- Nuit : personnel moins expérimenté, MTTR allongé sur mêmes causes.
- Fin de semaine : fatigue cumulée, pics vendredi après-midi récurrents.
Deux façons de colorier la heatmap :
- Intensité = nombre d'événements → repère la fréquence d'incident.
- Intensité = durée cumulée → repère le temps machine perdu.
Un toggle permet de basculer entre les deux vues dans le didacticiel.
6. MTBA, MTBF, MTTR — ne pas confondre
Trois acronymes industriels proches mais distincts :
MTBA = Mean Time Between Arrests (tous arrêts, y compris micro)
Temps moyen entre deux arrêts, toute cause confondue. Pertinent pour les micro-arrêts.
MTBF = Mean Time Between Failures (pannes déclarées seulement)
Temps moyen entre deux pannes fonctionnelles. Indicateur fiabilité long terme.
MTTR = Mean Time To Repair (durée moyenne de remise en état)
Durée moyenne d'une intervention maintenance. Lié à la maintenabilité.
Pour les micro-arrêts, le MTBA est l'indicateur clé — il mesure l'intervalle moyen entre deux événements. Comparer le MTBA entre postes, lignes, périodes permet de détecter une dégradation progressive invisible au TRS agrégé.
Exemple concret : ligne A : MTBA = 12 min, ligne B : MTBA = 45 min. Les deux peuvent avoir le même TRS ≈ 85 % si la ligne A « récupère » via vitesse plus élevée. Mais la ligne A fatigue davantage et son opérateur a une charge cognitive bien plus forte.
7. Biais de mesure — ce que vous ne voyez pas
Deux biais majeurs fausseent systématiquement l'analyse des micro-arrêts :
Biais de détection
Un arrêt très court (< 30 s) peut être filtré par l'automate (seuil de détection). 20-40 % des micro-arrêts « réels » sont invisibles dans les données remontées. Conséquence : la distribution est artificiellement tronquée à gauche, la moyenne est sur-estimée.
Biais de saisie manuelle
Si la cause est saisie manuellement (tablette, papier), l'opérateur sous-déclare quand il est occupé. Résultat : la cause n°1 (la plus fréquente) est souvent sous-représentée. Parade : passer en capture automatique via automate + codification obligatoire.
Biais d'attribution causale
Un arrêt peut avoir plusieurs causes concomitantes (ex : bourrage + orientation). L'opérateur coche une seule case. Les outils récents (MES industriels, vision IA) permettent d'enregistrer plusieurs causes par événement — essentiel pour un diagnostic rigoureux.
Vos événements
Format CSV, 1 arrêt par ligne : timestamp,duree_min,cause,poste.
Le timestamp accepte les formats ISO (YYYY-MM-DD HH:MM) ou FR
(DD/MM/YYYY HH:MM). Minimum recommandé : 100 événements sur ≥ 7 jours pour
stabiliser les distributions.
Séparateurs acceptés : virgule, point-virgule, tabulation. En-têtes : timestamp, duree_min, cause, poste.
Paramètres & actions
Utilisé pour estimer la perte de Performance équivalente.
Protocole de collecte terrain
- Seuil minimum 10-15 s — évite le bruit capteur pur tout en captant les vrais micro-arrêts.
- Capture automatique (automate/MES) plutôt que saisie opérateur — réduit le biais de sous-déclaration.
- Codification causes fermée — liste figée (max 10 catégories) pour éviter la dispersion sémantique.
- ≥ 7 jours consécutifs pour capter l'effet jour × heure. 14 jours idéal.
- Croiser avec données procédé (température, vitesse, pression) pour tester des corrélations — étape suivante.
Exercices guidés
Chaque exercice correspond à un cas industriel réel, avec dataset prêt à charger et interprétation corrigée. Travaillez l'analyse avant de cliquer sur la solution.
facile Assemblage EX1 — Ligne assemblage vis — Pareto dominé
Contexte. Petit atelier de vissage électronique. 180 micro-arrêts relevés sur 2 semaines via compteur automate. L'atelier se plaint d'une baisse de cadence mais aucune panne majeure n'a été enregistrée.
Question. Identifiez la cause dominante. Quelle part de la durée cumulée représente-t-elle ? Faut-il traiter d'autres causes en priorité ?
Voir la solution
Résultat attendu : ~180 événements · durée cumulée ≈ 370 min · cause n°1 : Bourrage vis · Verdict dégradé
Interprétation. Le bourrage vis représente environ 55 % des événements et ~55-60 % de la durée cumulée. C'est un cas d'école Pareto : une seule cause pèse plus que toutes les autres. Action : qualifier la trémie de vis, vérifier la géométrie du convoyeur vibrant, réduire la tolérance d'alimentation. Les autres causes pourront attendre.
Piège à éviter. Ne pas s'acharner sur « Divers » ou « Défaut capteur » qui cumulent peu. La règle 80-20 s'applique ici très clairement — concentrer 100 % des ressources sur la cause n°1.
intermédiaire Agroalimentaire EX2 — Ligne conditionnement — bimodalité cachée
Contexte. Ligne de conditionnement yaourts. 220 arrêts courts sur 2 semaines. L'histogramme montre DEUX pics : un vers 1 min, un vers 4-5 min.
Question. La distribution est-elle bien log-normale simple ? Si non, que signifient les deux modes ? Quelle cause cibler pour réduire la durée cumulée ?
Voir la solution
Résultat attendu : ~220 événements · durée cumulée ≈ 520 min · cause n°1 : Bourrage capsule · Verdict critique
Interprétation. La distribution est bimodale : le pic court (~1 min) vient des étiquettes mal placées (très fréquentes mais vite corrigées), le pic long (~4-5 min) vient des bourrages capsule (plus rares mais nécessitant un démontage). En nombre, étiquettes domine. En durée cumulée, c'est bourrage capsule qui pèse le plus. Prioriser bourrage capsule pour gagner du temps machine.
Piège à éviter. Fitter une seule log-normale sur une distribution bimodale donne des paramètres aberrants. Toujours regarder l'histogramme avant de lancer un fit automatique. Le fit peut être statistiquement « bon » tout en masquant la réalité physique.
intermédiaire Plasturgie EX3 — Presse injection — biais post-démarrage
Contexte. Presse d'injection plastique 160 T. 160 micro-arrêts. L'équipe constate un pic d'arrêts en début de poste (06-07h, 14-15h, 22-23h) après les changements d'équipe.
Question. La heatmap heure × jour confirme-t-elle ce pic ? Quelle cause en est responsable ? Est-ce un problème opérateur ou un problème procédé ?
Voir la solution
Résultat attendu : ~160 événements · durée cumulée ≈ 345 min · cause n°1 : Éjection pièce · Verdict dégradé
Interprétation. La heatmap montre clairement une sur-concentration autour de 6-7h, 14-15h et 22-23h : ce sont les premières pièces après que la machine s'est un peu refroidie (pause, passation consigne). Ce n'est pas l'opérateur — c'est le fait que la température du moule redescend pendant la transition. Parade : maintenir la régulation thermique active pendant la passation, ou prévoir une purge systématique avant reprise série.
Piège à éviter. Ne pas conclure « opérateur lent en prise de poste » sans regarder la cause technique. Le biais temporel existe, mais son origine est souvent procédé, pas humain.
avancé Usinage EX4 — Machine CNC — effet shift
Contexte. Centre d'usinage 5 axes, 3×8. Shifts A (matin), B (après-midi), C (nuit). 200+ micro-arrêts sur 2 semaines. Rumeur : l'équipe B est « plus efficace », la C « plus lente ».
Question. Les données confirment-elles cette perception ? Comment distinguer un effet volumétrique (moins d'arrêts) d'un effet vitesse (arrêts plus courts) ?
Voir la solution
Résultat attendu : ~160 événements · durée cumulée ≈ 340 min · cause n°1 : Changement outil · Verdict dégradé
Interprétation. Poste B a effectivement moins d'arrêts (~40 % de moins par événement) — signe d'une meilleure prévention (changement outil anticipé, contrôle visuel plus rigoureux). Poste C a des durées ~30 % plus longues pour les mêmes causes — personnel moins expérimenté sur la maintenance de premier niveau. Deux leviers distincts : copier la pratique B côté A/C (prévention), et former C à l'intervention rapide (MTTR).
Piège à éviter. Confondre « moins d'arrêts » et « plus performant ». Un opérateur peut laisser dériver avant d'intervenir (moins d'arrêts déclarés, mais qualité qui baisse). Croiser systématiquement micro-arrêts et Qualité du TRS.
avancé Traitement thermique EX5 — Four continu — distribution Weibull β<1
Contexte. Four de cuisson composites. 150 arrêts courts sur 2 semaines. Le fit log-normal donne un R² médiocre. Le fit Weibull converge avec β ≈ 0.7.
Question. Comment interpréter β = 0.7 ? Quelle stratégie de maintenance ? Les arrêts longs sont-ils symptomatiques ?
Voir la solution
Résultat attendu : ~150 événements · durée cumulée ≈ 430 min · cause n°1 : Seuil température · Verdict critique
Interprétation. Weibull β < 1 signifie taux de défaillance décroissant dans le temps — beaucoup d'incidents très courts au début (auto-résolus) et une queue longue sur quelques événements sérieux. C'est typique d'un équipement en phase de rodage ou qui cumule des micro-défauts mécaniques non traités. Action : audit maintenance préventive, traquer les écarts en trace longue (queue = incidents réels à investiguer).
Piège à éviter. Confondre Weibull β<1 (usure décroissante = rodage / défauts mineurs) avec Weibull β>1 (usure croissante = fin de vie). L'interprétation de β est essentielle et souvent mal enseignée.
intermédiaire Plasturgie EX6 — Extrudeuse — log-normale claire
Contexte. Extrudeuse mono-vis pour profilés PVC. 200 micro-arrêts sur 14 jours. Le responsable veut définir un SLA « aucun arrêt > 5 min » et demande si c'est réaliste.
Question. Quel percentile (P90, P95, P99) l'arrêt de 5 min représente-t-il ? Le SLA est-il tenable ou faut-il le revoir ?
Voir la solution
Résultat attendu : ~200 événements · durée cumulée ≈ 480 min · cause n°1 : Filtre vis · Verdict dégradé
Interprétation. La distribution est log-normale typique (queue longue). Le P95 se situe vers 5-6 min — donc 5 % des arrêts dépassent le seuil SLA. Le SLA est tenable à P90 mais pas à P95. Recommandation : SLA « P90 < 5 min » = réaliste, SLA « aucun » = irréaliste sans refonte de la maintenance filtre. Le P95 et la médiane sont des indicateurs complémentaires — ne pas piloter à la moyenne (biaisée par la queue).
Piège à éviter. Piloter à la moyenne sur une distribution log-normale est dangereux : la moyenne est tirée par la queue. Toujours utiliser la médiane comme centre de tendance et P90/P95 comme contraintes SLA.
avancé Embouteillage EX7 — Ligne embouteillage — Pareto nombre vs durée INVERSÉ
Contexte. Ligne d'embouteillage 10 000 b/h. 240 micro-arrêts. En Pareto en <strong>nombre</strong>, le micro-bourrage goulot domine (>45 %). En Pareto en <strong>durée cumulée</strong>, c'est le changement de format qui pèse le plus.
Question. Pourquoi les deux classements diffèrent-ils ? Lequel est « vrai » ? Quelle cause faut-il traiter en priorité ?
Voir la solution
Résultat attendu : ~240 événements · durée cumulée ≈ 500 min · cause n°1 : Changement format · Verdict critique
Interprétation. Les deux Pareto sont vrais mais mesurent des choses différentes. Pareto en nombre = irritation opérateur (petit bourrage répété = fatigue + perte d'attention). Pareto en durée = impact TRS direct (machine à l'arrêt). Pour gagner du temps de production, attaquer le changement de format. Pour améliorer l'ergonomie opérateur et prévenir la dérive qualité, traiter le micro-bourrage. Les deux sont à traiter mais pour des raisons différentes.
Piège à éviter. Trancher Pareto en nombre ou en durée comme s'il y avait une bonne réponse. C'est un choix éditorial : production / finance → durée ; qualité / ergonomie → nombre. Les livrables de diagnostic industriel doivent TOUJOURS présenter les deux vues côte à côte.
avancé Logistique interne EX8 — Robot palettisation — saturation buffer
Contexte. Robot de palettisation en bout de ligne. 180 arrêts. Hypothèse du responsable : « c'est le robot qui freine, il faut en prendre un plus rapide ». Les heures de pic sont 13-14h et 21-22h.
Question. Les arrêts sont-ils liés à la vitesse intrinsèque du robot ou à une congestion en amont ? Comment trancher ?
Voir la solution
Résultat attendu : ~180 événements · durée cumulée ≈ 350 min · cause n°1 : Saturation buffer · Verdict dégradé
Interprétation. La cause n°1 est saturation buffer, concentrée aux heures 13-14h et 21-22h (fin de shift = tout le monde pousse pour finir). Ce n'est pas le robot qui est lent : c'est le buffer amont qui déborde ponctuellement quand les lignes en amont accélèrent en fin de quart. Parade : lisser la cadence amont via un bridé dynamique ou agrandir le buffer. Changer le robot ne résoudrait rien — il est lui-même victime.
Piège à éviter. Conclure sur la ressource visible (le robot) sans étudier le flux amont. L'analyse temporelle (heatmap) est le seul moyen de détecter une saturation transitoire invisible sur un Pareto agrégé. Penser flux, pas ressource.
Formateur / chef de maintenance ? Consultez le guide pédagogique complet (plan 2h, FAQ, QCM 10 questions, 6 pièges classiques, références AFNOR et Wang 2002).