Didacticiel — Contrôle visuel & fiabilité

Analyse Rouge/Vert (Attribute MSA)

Quand votre contrôle est visuel ou sensoriel (bon/rebut, OK/NOK, conforme/non-conforme), les mesures classiques de R&R ne s'appliquent plus. On mesure l'accord entre opérateurs via les kappa de Cohen (2 juges) et Fleiss (3+ juges). Corrige l'effet du hasard — calcul en Python Pyodide dans votre navigateur, aucune donnée ne quitte votre machine.

κ = (Po − Pe) / (1 − Pe) — corrige l'effet du hasard que %agreement ignore

1. Pourquoi Attribute MSA ? Quand le contrôle est subjectif

Un Gauge R&R classique (variable MSA) mesure la variance d'un instrument numérique : pied à coulisse, dynamomètre, balance. La réponse est un réel. Mais une grande part du contrôle industriel est attributif : l'opérateur regarde, palpe, sent — et dit OK ou NOK.

  • Contrôle peinture : défaut de surface, coulure, grain orange.
  • Contrôle soudure : fissure, défaut d'aspect, cordon conforme.
  • Contrôle cosmétique : rayure, trace de démoulage, bavure.
  • Contrôle sensoriel : odeur, goût, toucher (textile, cuir).
  • Contrôle final assemblage : pièce complète ? fonctionnelle ?

Sur ces contrôles, on mesure l'accord plutôt que la variance. Deux questions :

  1. Répétabilité (within appraiser) : le même opérateur donne-t-il le même jugement sur la même pièce quand on la lui représente ?
  2. Reproductibilité (between appraisers) : les opérateurs jugent-ils la même pièce de la même façon ?

Si oui, le contrôle est fiable. Sinon, la conformité de vos pièces dépend de qui les regarde — ce qui est industriellement inacceptable.

2. Cohen's κ — 2 évaluateurs, 2 catégories

Cohen (1960) a proposé la première mesure d'accord corrigée du hasard pour 2 évaluateurs sur des catégories nominales. La formule est élégante et universelle :

κ = (Po − Pe) / (1 − Pe)

où Po = proportion d'accord observée, Pe = proportion d'accord attendue par hasard.

Pourquoi pas simplement Po (le %agreement) ? Parce qu'avec 2 catégories équilibrées (50 % V / 50 % R), deux singes qui jugent au hasard tombent d'accord 50 % du temps. Un %agreement de 75 % ressemble alors à de la chance. Cohen normalise : κ = 0 signifie pas mieux que le hasard, κ = 1 signifie accord parfait.

Calcul de Pe sur 2 × 2 catégories : on multiplie les marginales. Si Op1 dit V dans 70 % des cas et Op2 dit V dans 60 %, alors la proba d'accord sur V par hasard est 0.70 × 0.60 = 0.42. La proba d'accord sur R est 0.30 × 0.40 = 0.12. Pe = 0.54.

Exemple concret

Op2 dit VOp2 dit RTotal Op1
Op1 dit V14014 (70 %)
Op1 dit R426 (30 %)
Total Op218 (90 %)2 (10 %)20

Po = (14 + 2) / 20 = 0.80. Pe = 0.70 × 0.90 + 0.30 × 0.10 = 0.66. κ = (0.80 − 0.66) / (1 − 0.66) = 0.14 / 0.34 = 0.41. Le %agreement brut suggère un bon accord, mais κ révèle un accord marginal.

3. Fleiss' κ — 3+ évaluateurs

Cohen s'arrête à 2 juges. En industrie, on a souvent 3-5 opérateurs. Fleiss (1971) a généralisé l'approche pour N évaluateurs sur K catégories nominales. La formule reste dans l'esprit de Cohen :

κFleiss = (P̄ − P̄e) / (1 − P̄e)

P̄ = accord moyen observé sur toutes les pièces, P̄e = accord attendu par hasard selon les fréquences marginales.

Le calcul est plus complexe : pour chaque pièce i, on calcule la proportion de paires d'évaluateurs en accord (parmi toutes les paires possibles), puis on moyenne sur les pièces. P̄e est la somme des carrés des fréquences marginales de chaque catégorie.

Contrairement à Cohen, Fleiss ne nécessite pas que chaque évaluateur juge toutes les pièces, ni le même nombre de juges par pièce — mais dans notre cadre industriel standard, c'est le cas (opérateurs × pièces × répétitions en plan équilibré).

On utilise aussi souvent des κ de Cohen pairwise (toutes les paires d'opérateurs) en complément du Fleiss global : cela permet d'identifier l'opérateur divergent quand l'un est désaligné des autres.

4. Seuils d'acceptation — AIAG / Landis-Koch

Deux référentiels principaux, cohérents entre eux :

κLandis & Koch (1977)AIAG MSA (application)Action
> 0.90Almost perfectExcellentAccepté. Pas d'action.
0.75 – 0.90SubstantialAcceptableAccepté sous surveillance. Améliorer pour applications critiques.
0.40 – 0.75Moderate / FairMarginalAction requise : formation, étalon, révision critère.
< 0.40Slight / PoorRejetéInutilisable. Refondre le système de contrôle.

Ces seuils sont pragmatiques, pas universels. Pour des applications critiques sécurité (aéronautique, médical, automobile safety), on exige typiquement κ > 0.90. Pour du contrôle cosmétique mineur, on peut accepter 0.70.

Taille d'échantillon minimale

AIAG recommande au moins 20 pièces, 3 opérateurs, 2 répétitions (soit 120 jugements). En dessous, les intervalles de confiance de κ deviennent trop larges pour conclure — on peut avoir κ = 0.45 ± 0.30, ce qui ne distingue pas marginal de rejeté.

Choisir les pièces pour couvrir la plage de difficulté : 30 % clairement OK, 30 % clairement NOK, 40 % borderline. Un κ calculé sur 20 pièces toutes évidentes ne prouve rien.

5. Effectiveness vs référence — miss rate & false alarm rate

Cohen et Fleiss mesurent l'accord entre opérateurs. Mais deux opérateurs peuvent être parfaitement d'accord… et systématiquement faux. Quand un étalon de référence existe (pièces expertisées par un chef de ligne, un labo, un gabarit instrumental), on ajoute une analyse d'effectiveness.

Effectiveness = bons jugements / total jugements (par opérateur)

Miss rate = R jugé V quand étalon = R (on laisse passer un défaut)
False alarm rate = V jugé R quand étalon = V (on rejette du bon)

EffectivenessMiss rateFalse alarmVerdict
> 90 %< 2 %< 5 %Accepté
80 – 90 %2 – 5 %5 – 10 %Marginal
< 80 %> 5 %> 10 %Rejeté

Le miss rate est plus grave que le false alarm en général : laisser passer un défaut va jusqu'au client, alors qu'un faux rejet augmente juste le coût. Exiger un miss rate proche de zéro sur les caractéristiques sécurité.

6. Quand refaire l'étude ? — cadence recommandée
  • Initiale : avant de mettre le contrôle en production.
  • Après formation / changement d'opérateur : refaire sur les nouveaux seuls puis mélangés aux anciens.
  • Changement de critère / spécifications : la décision change, donc le système change.
  • Périodique : annuel sur postes stables, semestriel sur postes critiques.
  • Suite réclamation client : si un défaut échappe au contrôle final, Attribute MSA en premier.

Conserver toutes les études dans un dossier qualité — la traçabilité est exigée par IATF 16949, ISO 13485, AS 9100.

Vos jugements

Format long, 1 jugement par ligne : piece,operateur,repetition,jugement,reference. Jugement et référence ∈ {R, V}. La colonne référence est optionnelle (laisser vide si pas d'étalon). Minimum recommandé : 20 pièces × 2-3 opérateurs × 2 répétitions (AIAG).

Séparateur virgule ou point-virgule. En-têtes acceptées : piece,operateur,repetition,jugement,reference

Actions

Protocole sur le terrain

  • 20 pièces minimum — mix d'évidentes et de borderline (30/40/30).
  • Ordre aléatoire entre les répétitions. Les opérateurs ne doivent pas se souvenir.
  • Étiquetage caché : chaque pièce a un numéro que seul l'observateur connaît.
  • Référence : idéalement un expert ou un gabarit — utile mais optionnel.
  • Pas de pause entre les passages au risque de biais sensoriel.

Exercices guidés

Chaque exercice a un dataset prêt à charger (menu « Charger un preset » ci-dessus) et une interprétation corrigée. Travaillez l'analyse avant de cliquer sur la solution.

facile Automobile EX1 — Contrôle visuel peinture carrosserie — 2 opérateurs, Cohen moyen

Contexte. Atelier peinture carrosserie, contrôle final avant expédition. 20 éléments, 2 opérateurs (Op1 et Op2) jugent R (Rouge : reprendre) ou V (Vert : OK) en 2 passages. Op1 tend à accepter les défauts cosmétiques limites, Op2 est plus strict. Question : calculer le Cohen's κ et identifier l'origine du désaccord.

Voir la solution

Résultat attendu : Fleiss κ ≈ ~ 0.50 · %agreement ≈ ~ 75 % · Verdict marginal

Interprétation. Cohen's κ ≈ 0.50 (zone marginale). L'accord brut (%agreement) est élevé (~75 %) mais trompeur : corriger par le hasard révèle un désaccord systématique. Op2 rejette 3-4 pièces qu'Op1 accepte. Formation requise sur les critères frontière (profondeur orange-peel, granulosité acceptable).

Piège à éviter. Piège : le %agreement à 75 % paraît rassurant alors que κ = 0.50 montre qu'on est à peine mieux que le hasard sur les pièces limites. Toujours regarder κ, jamais le %agreement seul.

intermédiaire Chaudronnerie EX2 — Détection fissure soudure — novice rate les fissures fines

Contexte. Cellule soudure robotisée, contrôle non destructif visuel (hors CND par ressuage). 20 pièces, 3 opérateurs (2 experts + 1 novice), 2 passages. Les fissures franches font l'accord. Les fissures fines (< 2 mm) sont vues par les experts mais ratées par le novice.

Voir la solution

Résultat attendu : Fleiss κ ≈ ~ 0.60 · %agreement ≈ ~ 80 % · Verdict marginal

Interprétation. Fleiss κ ≈ 0.60. La matrice pairwise révèle κ(Op1,Op2) ≈ 0.90 (experts alignés) mais κ(Op1,Op3) ≈ 0.45. Le novice est la cause unique du désaccord. %effectiveness Op3 ~ 65 % (vs >95 % pour les experts). Action : accompagnement terrain sur 4 shifts, revérification à 1 mois.

Piège à éviter. Piège : conclure 'le système est marginal, il faut changer la méthode' alors que le problème est un opérateur précis. Toujours sortir la matrice κ pairwise et l'effectiveness par opérateur avant de toucher la procédure.

intermédiaire Moulage plastique EX3 — Tri pièces moulées — cosmétique borderline, rejeté

Contexte. Tri manuel pièces injectées, critères cosmétiques sur aspect mat/brillant, traces de démoulage. 20 pièces, 3 opérateurs, 2 passages. Beaucoup de pièces sont limites — chaque opérateur tranche à sa façon.

Voir la solution

Résultat attendu : Fleiss κ ≈ ~ 0.15 · %agreement ≈ ~ 55 % · Verdict rejete

Interprétation. Fleiss κ ≈ 0.15. Rejeté. L'agreement within (répétabilité) est lui-même faible (~65 %) : les opérateurs ne sont même pas d'accord avec eux-mêmes d'une répétition à l'autre. Le problème n'est ni l'opérateur ni la méthode, c'est le critère qui n'est pas opérationnel. Actions : créer un étalon de comparaison physique (pièces limites étiquetées), formation conjointe, redéfinir les classes.

Piège à éviter. Piège : former davantage les opérateurs alors que le vrai problème est l'ambiguïté intrinsèque du critère. Quand κ < 0.20 et que la répétabilité individuelle est aussi mauvaise, le critère lui-même n'est pas mesurable et il faut le remplacer (ex : passer au contrôle instrumental).

intermédiaire Électronique EX4 — Classification défauts électronique — Fleiss modéré

Contexte. Inspection visuelle cartes électroniques (soudure, composants manquants, polarité). 20 cartes, 3 opérateurs, 2 passages. Catégorisation binaire simplifiée R/V (reprise ou libération). Question : peut-on piloter la qualité avec ce système de contrôle ?

Voir la solution

Résultat attendu : Fleiss κ ≈ ~ 0.78 · %agreement ≈ ~ 90 % · Verdict acceptable

Interprétation. Fleiss κ ≈ 0.78 — zone acceptable (0.75-0.90). Répétabilité individuelle ~95 %, reproductibilité ~90 %. Sur une ligne non-critique (non sécurité), on peut piloter. Sur une ligne auto/médical, viser κ > 0.90 : revoir les pièces sur lesquelles il y a eu désaccord, créer des fiches réflexes par défaut type.

Piège à éviter. Piège : considérer κ = 0.78 comme 'acceptable' partout. Les seuils AIAG/Landis-Koch sont des ordres de grandeur, pas une loi universelle. Plus la caractéristique est critique (sécurité, client direct), plus le seuil doit monter (0.90 pour aéro, 0.95 pour médical).

facile Usinage EX5 — Go/No-Go avec gabarit — κ excellent

Contexte. Contrôle dimension d'un alésage avec gabarit tampon Go/No-Go. 20 pièces, 3 opérateurs, 2 passages. La décision est binaire et instrumentée : le tampon entre ou n'entre pas.

Voir la solution

Résultat attendu : Fleiss κ ≈ ~ 0.95 · %agreement ≈ ~ 99 % · Verdict excellent

Interprétation. Fleiss κ ≈ 0.95 — excellent. Un seul désaccord sur 120 jugements (P15, 1 opérateur). C'est typique des contrôles instrumentés binaires : le résultat est quasi indépendant de l'opérateur. Ne pas sur-investir — l'attention doit aller aux autres gammes de contrôle.

Piège à éviter. Piège : vouloir optimiser κ de 0.95 à 0.98 sur ce poste alors qu'il y a un autre contrôle (visuel, à κ = 0.40) qui saigne la qualité. Prioriser les MSA d'abord selon le risque, pas selon la facilité.

avancé Agroalimentaire EX6 — Évaluation odeur produit alimentaire — sensoriel

Contexte. Panel sensoriel olfactif, 20 échantillons produit fermenté. Critère : odeur conforme (V) ou déviation (R). 3 panelistes expérimentés, 2 passages. La fatigue olfactive joue après 10 échantillons.

Voir la solution

Résultat attendu : Fleiss κ ≈ ~ 0.65 · %agreement ≈ ~ 82 % · Verdict marginal

Interprétation. Fleiss κ ≈ 0.65 — zone marginale. Typique du sensoriel : la répétabilité intra-paneliste est plus faible que sur un contrôle visuel (fatigue, saturation, context). Actions : limiter les sessions à 8-10 échantillons, rincer le palais entre, randomiser l'ordre. Pour les décisions critiques (rappel produit), exiger l'unanimité des 3 panelistes, pas la majorité.

Piège à éviter. Piège : appliquer les mêmes seuils AIAG qu'en visuel instrumenté. Le sensoriel sature à κ ≈ 0.75 dans le monde réel. Définir un seuil spécifique au panel et à la matrice produit, documenter la procédure de session.

avancé Verrerie EX7 — Tri optique verre — caméra vs humain, biais systématique

Contexte. Ligne d'inspection verre plat. Op1 = caméra algorithme (ML), Op2 = expert humain, Op3 = junior. 20 plaques. La caméra a un biais systématique sur les stries fines (faux positifs) et sur les défauts transparents (faux négatifs).

Voir la solution

Résultat attendu : Fleiss κ ≈ ~ 0.45 · %agreement ≈ ~ 70 % · Verdict marginal

Interprétation. Fleiss κ ≈ 0.45 — marginal. La matrice pairwise révèle κ(humains) ≈ 0.85 mais κ(caméra, humains) ≈ 0.25. Le problème est un biais systématique de la caméra : elle ne voit pas la même chose que l'humain. Il ne s'agit pas d'un problème de 'fiabilité' mais de 'validité' : re-entraîner le modèle ML sur les cas de désaccord, ajouter un module 'stries fines' et 'défauts transparents'.

Piège à éviter. Piège : supposer que 'machine > humain' sans vérifier l'accord avec la référence. Un κ élevé entre deux caméras du même modèle ne garantit rien si elles partagent le même biais. Toujours confronter à l'expert humain pendant la phase de qualification.

intermédiaire Assemblage EX8 — Contrôle ensemble clavier — effectiveness avec référence

Contexte. Contrôle final d'ensembles claviers : 20 claviers expertisés par le chef de ligne (référence), puis recontrôlés par 3 opérateurs en 2 passages. La question n'est pas seulement 'sont-ils d'accord entre eux ?' mais 'retrouvent-ils la réalité ?'

Voir la solution

Résultat attendu : Fleiss κ ≈ ~ 0.82 · %agreement ≈ ~ 92 % · Verdict acceptable

Interprétation. Fleiss κ ≈ 0.82 acceptable. Effectiveness par opérateur : Op1 ≈ 95 %, Op2 ≈ 90 %, Op3 ≈ 80 % avec 2 miss (rejet de bon = faux positif) et 1 false alarm. Le κ inter-opérateur masque le problème Op3 : il est d'accord avec les autres mais sur les mauvaises pièces. Sans la référence, on ne l'aurait pas vu.

Piège à éviter. Piège majeur : se contenter du κ inter-opérateur et oublier l'effectiveness. Trois opérateurs peuvent être parfaitement alignés et systématiquement faux (biais commun). Quand un étalon existe, le calculer est obligatoire, pas optionnel.