← Blog

Quand un seul agent ne suffit plus — pattern orchestrator pour PME

Limites d'un LLM mono-agent (context, biais, rate limit), seuils concrets pour basculer vers du multi-agent, patterns.

TL;DR

  • Un seul LLM qui “fait tout” plafonne vite. Trois limites dures : taille de contexte (~200 k tokens utiles chez Claude, ~128 k chez GPT-4o), biais de convergence (le modèle s’accroche à sa première interprétation), et rate limit API (5–20 requêtes/s en tier standard).
  • Le basculement multi-agent s’impose quand l’input dépasse 50 k tokens par tâche, quand la décision exige des angles orthogonaux (rédaction vs critique), ou quand la parallélisation divise le temps mural par 3 ou plus.
  • Trois patterns qui marchent en PME : orchestrator + workers (séparation plan/exécution), pipeline séquentiel (extraction → validation → drafting), review croisée (rédacteur + relecteur + arbitre).
  • Coût typique PME 25 salariés : stack mono-agent ≈ 50–200 €/mois d’API. Stack multi-agent bien cadrée ≈ 150–600 €/mois (2–4× plus), pour un gain de qualité mesurable de 15–40 % sur les tâches complexes et un temps mural divisé par 2 à 5.
  • Anti-pattern #1 : cloner le même agent 5 fois avec des prompts légèrement différents. Ça coûte 5× et ça ne gagne rien. Les rôles doivent être vraiment orthogonaux (outils différents, contexte différent, fonction objective différente).
  • Verdict : passer au multi-agent quand on le mesure, pas quand on le pressent. Le test simple : si un LLM seul atteint 70 % de bon-du-premier-coup, viser 90 % en multi-agent a du sens. Si le single-agent est déjà à 95 %, ne rien changer.

Le plafond du mono-agent — trois limites dures

Avant de parler pattern, il faut comprendre pourquoi un seul agent ne suffit plus passé un certain seuil. Trois plafonds concrets, observés sur missions réelles chez nos clients PME.

1. La fenêtre de contexte utile n’est pas celle annoncée

Claude Sonnet 4.6 annonce 200 000 tokens de contexte. GPT-4o annonce 128 000. En pratique, les benchmarks “needle in a haystack” (retrouver une info cachée dans un long texte) montrent une dégradation nette à partir de 60–80 % de remplissage. Un prompt qui charge 150 k tokens a de fortes chances de voir l’agent “oublier” les instructions placées au milieu.

Corollaire terrain : dès qu’on veut faire raisonner un agent sur 50 pages de cahier des charges ou 18 mois d’historique de tickets, le mono-agent atteint son plafond. L’attention dilue les signaux faibles. On a mesuré sur un cas réel (extraction de contraintes techniques dans un CdC de 78 pages) une chute de 92 % à 63 % de rappel quand on passait d’un extrait de 20 pages à l’intégral en prompt.

2. Le biais de convergence

Un LLM qui commence à répondre s’enferme dans sa première interprétation. Si l’agent lit les trois premières pages d’un devis et “décide” que c’est un projet de GPAO, il interprétera tout le reste à travers ce prisme — même si la page 15 dit explicitement “hors GPAO”.

Ce biais est documenté sous le nom d’anchoring bias dans les LLM (papier Anthropic 2024, “Sleeper Agents”). Il n’est pas corrigeable par prompt. Seule une seconde passe avec un agent critique indépendant le détecte.

3. Le rate limit et la séquentialité forcée

Un agent mono-thread traite une tâche à la fois. Pour traiter 50 devis en une heure, si chaque devis demande 12 secondes d’aller-retour LLM, on tient dans la minute. Pour traiter 500 devis dans la nuit, même sans problème de qualité, on sature la latence. En API Anthropic tier standard, on a 5 requêtes/seconde, soit 18 000/heure théoriques — mais en pratique, un workflow “lire + extraire + valider + écrire” est 3 à 8 appels par tâche. On plafonne vite.

La parallélisation multi-agent n’est pas un confort : c’est la seule façon d’atteindre du throughput en dessous du tier entreprise (qui coûte >10 k$/mois d’engagement).


Trois patterns qui marchent en PME

Pattern 1 — Orchestrator + workers (le plus courant)

Un agent orchestrateur lit la tâche globale, la décompose en sous-tâches, les dispatche à des agents workers spécialisés, puis agrège les résultats. Les workers ont chacun leur contexte restreint, leurs outils, leur modèle (parfois Haiku pour les sous-tâches simples, Sonnet pour les complexes).

%%{init: {'theme':'base', 'themeVariables': {'primaryColor':'#C77F4F','primaryTextColor':'#1f2937','primaryBorderColor':'#C77F4F','lineColor':'#14b8a6','secondaryColor':'#FDFBF8','tertiaryColor':'#FDFBF8','background':'#FDFBF8'}}}%%
flowchart TD
    O1[Orchestrator] --> W1[Worker extract]
    O1 --> W2[Worker valider]
    O1 --> W3[Worker rédiger]
    W1 --> J1[JSON]
    W2 --> J2[JSON]
    W3 --> J3[MDX]
    J1 --> O2[Orchestrator]
    J2 --> O2
    J3 --> O2
    O2 --> OUT[Output final]
    style O1 fill:#C77F4F,stroke:#C77F4F,color:#FDFBF8
    style O2 fill:#C77F4F,stroke:#C77F4F,color:#FDFBF8
    style W1 fill:#14b8a6,stroke:#14b8a6,color:#FDFBF8
    style W2 fill:#14b8a6,stroke:#14b8a6,color:#FDFBF8
    style W3 fill:#14b8a6,stroke:#14b8a6,color:#FDFBF8
    style OUT fill:#1f2937,stroke:#1f2937,color:#FDFBF8

Avantages : chaque worker a un contexte propre (200 k tokens dédiés), les workers simples peuvent tourner en Haiku (5–10× moins cher), la parallélisation divise le temps mural.

Cas d’usage PME :

  • Traitement batch de factures fournisseurs (orchestrator lit le dossier, dispatche 1 worker / facture, agrège les écritures).
  • Analyse de retours clients (orchestrator classe par thème, dispatche 1 worker / thème pour synthèse).
  • Audit RGPD sur GED (orchestrator cartographie, workers scannent chaque sous-dossier).

Pattern 2 — Pipeline séquentiel (chaîne de spécialistes)

Chaque agent a un rôle unique et passe son output au suivant. Pas de back-and-forth, pas d’orchestration dynamique : une usine logique.

%%{init: {'theme':'base', 'themeVariables': {'primaryColor':'#C77F4F','primaryTextColor':'#1f2937','primaryBorderColor':'#C77F4F','lineColor':'#14b8a6','background':'#FDFBF8'}}}%%
flowchart LR
    A["Extraction<br/>(Haiku)"] --> B["Validation<br/>(Sonnet)"]
    B --> C["Drafting<br/>(Sonnet)"]
    C --> D["QA<br/>(Haiku)"]
    style A fill:#14b8a6,stroke:#14b8a6,color:#FDFBF8
    style B fill:#C77F4F,stroke:#C77F4F,color:#FDFBF8
    style C fill:#C77F4F,stroke:#C77F4F,color:#FDFBF8
    style D fill:#14b8a6,stroke:#14b8a6,color:#FDFBF8

Avantages : simple à déboguer, chaque étape est cacheable (on ne refait pas l’extraction si seul le drafting change), chaque agent peut être remplacé indépendamment.

Cas d’usage PME :

  • Génération de devis : extraction CdC → validation business rules → drafting devis → QA (cohérence prix, marge, délais).
  • Newsletter hebdo : veille web → filtrage pertinence → rédaction → relecture éditoriale.
  • Onboarding client : parsing formulaire → enrichissement SIREN → génération contrat → checklist comptable.

Pattern 3 — Review croisée (rédacteur + relecteur + arbitre)

Un agent rédige, un second critique avec une consigne opposée (“cherche ce qui cloche, pas ce qui va”), un troisième arbitre. Directement inspiré des pratiques humaines de peer review scientifique.

%%{init: {'theme':'base', 'themeVariables': {'primaryColor':'#C77F4F','primaryTextColor':'#1f2937','primaryBorderColor':'#C77F4F','lineColor':'#14b8a6','background':'#FDFBF8'}}}%%
flowchart LR
    R[Rédacteur] -->|draft| C[Relecteur critique]
    C -->|commentaires| A[Arbitre]
    R --> A
    A --> F[Version finale]
    style R fill:#C77F4F,stroke:#C77F4F,color:#FDFBF8
    style C fill:#14b8a6,stroke:#14b8a6,color:#FDFBF8
    style A fill:#1f2937,stroke:#1f2937,color:#FDFBF8
    style F fill:#C77F4F,stroke:#C77F4F,color:#FDFBF8

Avantages : tue le biais de convergence (le relecteur a un prompt opposé), force l’agent à justifier les choix, produit du texte qui résiste à un vrai reviewer humain.

Cas d’usage PME :

  • Rédaction juridique (CGV, contrats, mentions légales).
  • Réponses à appel d’offres (conformité technique + conformité administrative).
  • Diagnostic technique pour client (proposition + contre-proposition + synthèse).

Anatomie du coût — PME 25 salariés, charge réelle

Prenons une PME industrielle qui traite 400 devis/mois + 800 factures fournisseurs/mois + 20 réponses AO/an. Voici les deux architectures chiffrées, tarifs Anthropic 2026 (Sonnet 4.6 : 3/Minput,3/M input, 15/M output ; Haiku 4.5 : 1/Minput,1/M input, 5/M output).

Stack mono-agent (Sonnet partout, un seul pipeline)

FluxVolume/moisTokens/tâcheCoût/mois
Devis40012 k in + 3 k out~32 €
Factures8004 k in + 1 k out~21 €
AO (mensualisé)1.780 k in + 20 k out~10 €
Total~63 €/mois

Taux de bon-du-premier-coup observé : 72 % sur devis, 88 % sur factures, 55 % sur AO.

Stack multi-agent (orchestrator + pipeline + review selon flux)

FluxAgentsVolume/moisTokens/tâcheCoût/mois
Devis (pipeline 4 étapes, 2 Haiku + 2 Sonnet)extract+valid (Haiku), draft+QA (Sonnet)4004 k in + 1 k out (×2) + 10 k in + 2 k out (×2)~58 €
Factures (orchestrator + 1 Haiku worker)28002 k in + 0.5 k out (×2)~9 €
AO (review croisée, 3 Sonnet)31.760 k in + 15 k out (×3)~23 €
Total~90 €/mois

Taux de bon-du-premier-coup observé : 91 % sur devis (+19 pts), 94 % sur factures (+6 pts), 82 % sur AO (+27 pts).

Conclusion chiffrée : +42 % de coût API pour +15–27 pts de qualité et un temps mural divisé par 3 sur les flux parallélisables. Sur les 20 AO/an, on passe de 9 AO gagnés à 12 dans le même temps commercial : ROI immédiat.


Cas terrain — Sous-traitant mécanique, 32 salariés

Sous-traitant mécanique en région AURA, 5 M€ de CA, 30 à 50 réponses à AO industriels par an. Problème initial : un seul agent Claude tournait dans Claude Code pour rédiger la réponse technique. Taux de pertinence jugé par le BE : 60 %, 5 à 8 h de correction humaine par AO.

Stack v1 (mono-agent, 3 semaines de dev, 6 k€)

  • Claude Sonnet lit le CdC + RAG sur 15 AO passés
  • Rédige en une passe
  • Export Word

Résultat : 60 % de pertinence, BE frustré, abandon partiel.

Stack v2 (multi-agent review croisée, 2 semaines de refonte, 8 k€)

  • Agent extracteur (Haiku) : extrait 30–80 exigences structurées depuis le CdC.
  • Agent rédacteur technique (Sonnet) : pour chaque exigence, rédige la réponse en s’appuyant sur RAG (anciens AO, fiches techniques internes).
  • Agent auditeur conformité (Sonnet, prompt opposé) : vérifie que chaque exigence a une réponse explicite, flag les réponses vagues (“notre entreprise est capable de…”).
  • Agent arbitre (Sonnet) : relit le flag et décide keep/rewrite.
  • Human-in-the-loop final : BE valide en 1–2 h.

Résultats mesurés sur 8 AO (3 mois) :

IndicateurMono-agentMulti-agent
Pertinence jugée BE60 %88 %
Temps correction humaine5–8 h1–2 h
Coût API/AO2,10 €5,80 €
Coût humain/AO (chargé 80 €/h)400–640 €80–160 €
Taux de gain AO (série de 8)2/85/8

Le coût API triple. Le coût humain divise par 4. Et le taux de gain commercial double. La question n’est pas “le multi-agent coûte-t-il plus ?” — c’est “coûte-t-il plus que l’humain qu’il libère ?”.


Anti-patterns et pièges observés

  1. “On multiplie les agents avec le même prompt reformulé” → zero gain. Les agents doivent avoir des fonctions objectives orthogonales (rédiger ≠ critiquer ≠ valider la forme). Si deux agents cherchent la même chose avec des mots différents, ils convergent et on paie double.
  2. “Orchestrator fait tout, workers sont passifs” → l’orchestrator devient le bottleneck. Ses 200 k tokens saturent, il oublie les sous-tâches 4 et 5. Remède : donner aux workers assez d’autonomie pour décider seuls (pas juste exécuter un prompt fixe).
  3. “Tout en Sonnet partout” → coûte 3 à 5× trop cher pour peu de valeur ajoutée. Les tâches structurées (extraction JSON, classification, validation schéma) passent très bien en Haiku à 1/5 du prix.
  4. “On câble les agents en dur sans monitoring” → quand la qualité chute (nouveau format de CdC, modèle mis à jour), personne ne voit rien. Instrumenter : latence par agent, tokens, taux de retry, validation humaine hit rate. Sans métriques, pas de dette contrôlée.
  5. “Review croisée avec les deux agents en parallèle sans contrainte” → les deux convergent sur les mêmes points. Forcer le second à avoir un prompt systémiquement opposé (“tu es un avocat qui cherche le moindre défaut”, “tu es un auditeur ISO qui cherche les non-conformités”).
  6. “Pas de fallback quand un agent échoue” → si le worker 3 retourne une erreur JSON, toute la chaîne plante. Prévoir : retry avec prompt simplifié, fallback human-in-the-loop, circuit breaker après 3 échecs consécutifs.
  7. “On pense que c’est mieux, on ne mesure pas” → le multi-agent est 2–5× plus complexe à maintenir. Si on ne peut pas prouver le gain de qualité en chiffres, on dégrade le bilan. Mesurer avant/après, échantillon de 20 tâches minimum.

Seuils de décision — quand basculer

Règle simple testée sur une douzaine de missions PME :

CritèreSeuil mono-agent → multi-agent
Taille input> 50 k tokens par tâche
Durée tâche mono-agent> 30 s wall time
Tâches à paralléliser> 20 / heure
Taux de bon-du-premier-coup< 80 % sur tâche importante
Biais de convergence observéAgent s’accroche à sa 1re hypothèse
Budget API mensuel> 200 € (en dessous, le gain marginal ne justifie pas la complexité)

Si deux critères ou plus sont cochés, le multi-agent a du sens. Un seul critère : reste mono-agent, optimise le prompt.


Verdict

Le multi-agent n’est pas une fin, c’est une réponse à un plafond mesuré. Les PME qui déploient bien font trois choses :

  1. Elles mesurent d’abord. Instrumenter le mono-agent pendant 2–4 semaines, compter les retries, mesurer la qualité sur échantillon, identifier les tâches qui échouent.
  2. Elles choisissent le pattern selon la forme du problème. Batch massif → orchestrator + workers. Chaîne de traitement fixe → pipeline. Décision nuancée → review croisée. Pas de pattern universel.
  3. Elles mélangent les modèles. Haiku pour les tâches structurées, Sonnet pour le raisonnement, Opus uniquement pour les arbitrages complexes (rare en PME). Le coût pile-au-kilo baisse de 60 % en moyenne.

En 2026, les frameworks (LangGraph, CrewAI, Claude Code sub-agents, Autogen) rendent le multi-agent accessible en 2–4 semaines de dev. Le gating facteur n’est plus technique — c’est la discipline de mesure et le cadrage métier.


On peut en parler

BCUB3 accompagne les PME et ETI industrielles sur ces sujets : audit de votre stack agentique existante, cadrage d’un passage multi-agent sur un flux critique (devis, AO, extraction), choix du pattern adapté, mise en place d’instrumentation qualité + coût.

Pas d’éditeur à pousser. Pas de framework fétiche. On regarde les métriques réelles de votre mono-agent, on décide ensemble si un pattern multi-agent apporte un ROI mesurable — ou pas.

Prendre 30 minutes pour en parler →

Et si vous voulez suivre sans vous engager : la newsletter BCUB3 publie un article de ce niveau chaque semaine, sans hype, sur l’IA et les systèmes agentiques en contexte industriel.

S’abonner à la newsletter →

Cet article vous a été utile ?

BCUB3 est une petite structure. Si vous pensez à un collègue ou un partenaire qui pourrait en tirer quelque chose, la meilleure manière de nous aider est de partager le lien. Et si vous avez un cas concret à discuter, parlons-en directement.

Prendre un RDV de cadrage