TL;DR
- Une stack RAG en prod coûte rarement ce qu’annonce la démo. Les tokens sont la partie visible ; l’infra, le dev et la maintenance représentent 70–85 % du TCO sur 24 mois.
- Cas concret PME 25 salariés, 500 docs ingérés/mois + 1000 queries/mois : TCO 24 mois entre 22 k€ (stack minimaliste, self-host, LLM cloud) et 55 k€ (stack managée, redondance, LLM enterprise).
- Où ça tombe cher : le dev initial (60–80 % du coût y1), la maintenance évolutive (nouveaux formats, modèles à jour), la réingestion forcée quand on change d’embedding model, et les LLM premium (Sonnet > Haiku > GPT-4o-mini sur coût par query, par 3–10×).
- Où ça reste OK : les tokens d’embedding (ridicules, ~0,02–0,05 € / 1 M tokens), Qdrant self-hosté sur VPS 50 €/mois qui encaisse des millions de vecteurs, les queries simples en Haiku (<0,01 €/query).
- Piège #1 : raisonner “coût / query” sans compter la charge opérationnelle (monitoring, retries, évolutions). Une query qui coûte 0,003 € en API peut coûter 0,15 € chargée (dev+infra+maint) sur le premier an.
- Verdict : budget réaliste pour une PME qui déploie sérieusement = 15–25 k€ y1 + 6–12 k€ y2. Sous ces montants, on a un prototype qui dérive en 6 mois. Au-dessus, c’est de l’overengineering sauf si l’usage dépasse 10 k queries/jour.
Pourquoi ce calcul revient tout le temps
Depuis un an, quasiment chaque mission agentique PME démarre par la même phrase : « On a testé en interne, ça coûte 30 balles par mois chez OpenAI. Pourquoi vous en demanderiez 25 000 pour la mettre en prod ? »
La question est légitime. La réponse aussi : les 30 € de tokens sont réels ; ce ne sont pas 30 € de stack RAG.
Une stack RAG en production, c’est au minimum :
- Un pipeline d’ingestion (lecture PDF/Word/mail → chunking → embeddings → stockage).
- Une base vectorielle (Qdrant, pgvector, Weaviate, Pinecone, Chroma).
- Une couche de retrieval (search par similarité + reranking + filtres métier).
- Un orchestrateur LLM (prompt template, contexte injection, citations, garde-fous).
- Une interface (chat, API, intégration dans un outil existant).
- Du monitoring (latence, taux de hallucination, coût, qualité sur benchmark).
Les tokens sont la seule brique dont le coût est public et visible. Le reste est invisible jusqu’à ce qu’on le déploie. C’est là que le décalage démo/prod apparaît.
Les 5 postes de coût réels d’une stack RAG en prod
1. Ingestion (parsing + embeddings)
Transformer 500 documents/mois en chunks vectorisés demande :
- Parsing : un PDF scanné ≠ un PDF natif ≠ un Word ≠ un mail. Le parsing est le premier poste de complexité invisible. OCR qualité (Tesseract fine-tuné ou Mistral OCR API) : 1–5 € par 1000 pages.
- Chunking : découpage en segments sémantiques (pas par paragraphe brut). Bibliothèques gratuites (langchain, llamaindex) mais le paramétrage coûte 2–5 jours en v1.
- Embeddings : ~300 tokens par chunk, ~15 chunks par doc, 500 docs/mois = 2,25 M tokens/mois. En
text-embedding-3-small(OpenAI, $0,02/M) oubge-small-en-v1.5(gratuit, self-host) : 0,05 € à 5 € par mois selon choix.
Verdict : les embeddings sont quasiment gratuits à l’échelle PME. Le coût est dans le parsing et le chunking bien faits.
2. Stockage vectoriel
500 docs × 15 chunks = 7500 vecteurs/mois, soit 90 k vecteurs/an. Un vecteur bge-small-384d pèse ~1.5 KB. 90 k vecteurs = 135 MB/an. Rien du tout.
Options concrètes :
| Option | Coût | Notes |
|---|---|---|
| Qdrant self-host sur VPS 4 vCPU/8 Go | 50–80 €/mois | Supporte 10 M+ vecteurs sans sourciller |
| pgvector sur PostgreSQL managé | 30–60 €/mois | Bon si on a déjà Postgres |
| Qdrant Cloud (managed) | 25–200 €/mois | Commence gratuit, scale cher |
| Pinecone (serverless) | 70–300 €/mois | Facture par query + storage |
| Weaviate Cloud | 75 €/mois entry | Idem |
Verdict PME : Qdrant self-hosté sur un VPS OVH/Scaleway à 50 €/mois suffit pour 99 % des cas jusqu’à 1 M vecteurs. Au-delà, on bascule managé — mais les PME n’y arrivent jamais.
3. LLM (génération de réponse)
C’est LE poste visible et LE poste mal estimé. 1000 queries/mois, chaque query = retrieval (~8 chunks = 3000 tokens) + prompt système (500 tokens) + question (50 tokens) + réponse (400 tokens).
= 3550 tokens in + 400 tokens out par query.
| Modèle | $/1M in | $/1M out | €/1000 queries |
|---|---|---|---|
| Claude Haiku 4.5 | $1 | $5 | ~4,30 € |
| GPT-4o-mini | $0,15 | $0,60 | ~0,75 € |
| Claude Sonnet 4.6 | $3 | $15 | ~13 € |
| GPT-4o | $2,50 | $10 | ~11 € |
| Claude Opus 4.7 | $15 | $75 | ~65 € |
Verdict : pour une PME, 1000 queries/mois = 1–65 € de LLM selon le modèle. Haiku ou GPT-4o-mini suffisent dans 80 % des cas RAG (synthèse factuelle). Sonnet si la tâche exige du raisonnement (analyse croisée, rédaction).
Piège : les démos tournent toutes en Opus pour impressionner. Prod en PME tourne en Haiku ou Sonnet selon la criticité.
4. Dev initial (la vraie facture)
C’est là que ça coûte vraiment. Un RAG de prod demande :
| Poste | Effort PME 25 sal. | Coût (consultants 800 €/j) |
|---|---|---|
| Cadrage + corpus delimitation | 3–5 j | 2 400 – 4 000 € |
| Pipeline ingestion + chunking | 5–10 j | 4 000 – 8 000 € |
| Retrieval + reranking | 3–6 j | 2 400 – 4 800 € |
| Orchestrateur LLM + prompts | 4–8 j | 3 200 – 6 400 € |
| Interface (chat web ou intégration) | 5–15 j | 4 000 – 12 000 € |
| Monitoring + eval benchmark | 3–6 j | 2 400 – 4 800 € |
| Tests + corrections | 3–8 j | 2 400 – 6 400 € |
| Total dev y1 | 26–58 j | 20 800 – 46 400 € |
Ce sont des ordres de grandeur observés sur 8 missions PME en 2025–2026. Les variations tiennent à la complexité du corpus (PDF scannés vs Word natifs), à la criticité (prototype vs production réglementée), et au niveau d’intégration (chat autonome vs plugin dans l’ERP).
5. Maintenance évolutive (invisible à la démo, critique sur 24 mois)
Un RAG se dégrade sans maintenance. Sources de dégradation mesurées :
- Nouveaux formats de docs : le chunking initial casse sur un format qu’il n’a jamais vu (procédure ISO exportée en HTML, facture d’un nouveau fournisseur).
- Dérive de prompts : un prompt qui marche sur Claude 3.5 peut sous-performer sur Claude 4.x. Il faut refine et tester.
- Changement d’embedding model :
text-embedding-ada-002déprécié en 2024,3-smallen 2026 vraisemblablement obsolète d’ici 18 mois. Migration = réingestion complète (quelques heures de compute, mais test qualité à refaire). - Évolution du corpus métier : l’entreprise renomme une procédure, change ses CGV — le RAG garde l’ancienne version sauf qu’on pense à purger.
- Régressions LLM : un provider déprécie un modèle, il faut basculer, retester.
Effort typique maintenance PME : 1–2 jours/mois, soit 8–16 k€/an.
Cas concret chiffré — Sous-traitant industriel, 28 salariés
PME industrielle, CA 4,2 M€, 28 salariés. Besoin : RAG sur 4200 documents techniques (fiches produits, procédures qualité, historique AO, modes opératoires), ~40 docs ajoutés/mois, ~80 queries/jour en moyenne (80 × 22 = 1760/mois).
Stack déployée (v1, 2 mois de travail, puis 6 mois de run)
- Ingestion : pipeline Python + langchain (parsing PDF/DOCX/TXT), OCR Mistral pour scans (budget ~30 €/mois), chunks 600 tokens.
- Embeddings : bge-large-en-v1.5 local sur le VPS (CPU suffit, 5 min pour 4200 docs).
- Vector DB : Qdrant self-hosté sur VPS Scaleway 4 vCPU / 16 Go SSD, 65 €/mois.
- LLM : Claude Haiku 4.5 en Q&A direct, Sonnet 4.6 pour 15 % des cas ambigus (détection via score confidence).
- Interface : chat web Astro + API REST, intégré au portail interne.
- Monitoring : Prometheus + Grafana (déjà en place), dashboards latence + coût + qualité.
- Eval benchmark : 45 questions-réponses gold validées par BE, lancé hebdo.
Coûts réels mesurés sur 12 mois
| Poste | Coût y1 | Coût y2 projeté |
|---|---|---|
| Dev initial (BCUB3, 35 jours, 22 k€) | 22 000 € | 0 € |
| VPS Scaleway (Qdrant + app) | 780 € | 780 € |
| OCR Mistral (scans anciens dossiers) | 380 € | 60 € |
| LLM Anthropic (Haiku + Sonnet mix) | 420 € | 480 € |
| Embeddings (local, compute inclus VPS) | 0 € | 0 € |
| Maintenance (12 jours BCUB3 chargés) | 9 600 € | 9 600 € |
| Total | 33 180 € | 10 920 € |
TCO 2 ans = ~44 k€. Sans le dev initial, y2 = ~11 k€/an en run. Sans la maintenance (si le client prend en interne), y2 ≈ 1 800 €/an — ce qui fait croire aux démos “30 € par mois”.
Ce qui a été mesuré en parallèle :
- Temps gagné BE = ~2 h/jour sur recherche documentaire (avant : 2h30, après : 0h30 avec RAG).
- Réponses aux clients techniques : 24h → 2h de délai moyen.
- Économie chargée estimée : ~28 k€/an (1 ETP 0,25 récupéré + commercial plus réactif).
ROI : 15 mois sur le dev initial, puis positif à vie tant qu’on maintient.
Les trois architectures typiques — et leurs TCO
Architecture A — Minimaliste (PME < 20 sal., pilote)
- Qdrant self-host VPS 50 €/mois
- Haiku partout
- Pas de reranker
- Interface basique
- 15–25 jours de dev
- Pas de monitoring formalisé
TCO y1 : 15–22 k€. y2 : 5–9 k€. Cible : prototype fonctionnel, mono-cas d’usage.
Architecture B — Production raisonnable (PME 20–80 sal., usage quotidien)
- Qdrant self-host ou pgvector, 80–150 €/mois
- Mix Haiku/Sonnet selon criticité
- Reranker (Cohere rerank ou bge-reranker local)
- Interface web + API
- Monitoring + eval benchmark hebdo
- 30–45 jours de dev
TCO y1 : 25–45 k€. y2 : 10–16 k€. Cible : 80 % des déploiements PME sérieux.
Architecture C — Managée + redondée (PME exigeante / pré-ETI)
- Qdrant Cloud ou Pinecone, 150–400 €/mois
- Sonnet partout, Opus sur arbitrages
- Reranker API
- Multi-tenant, SSO, audit trail
- 50–80 jours de dev
- SRE en astreinte
TCO y1 : 45–75 k€. y2 : 18–32 k€. Cible : sociétés avec exigences conformité/sécurité, ou usage >10 k queries/jour.
Là où les démos vous mentent
- “Ça coûte 0,003 € la query” → vrai en tokens, faux en coût total. En y1, chaque query coûte (20 k€ dev) / (12 000 queries) = 1,67 €/query chargée. Seule à partir d’environ 50 k queries/an l’équation s’équilibre.
- “Pinecone gratuit jusqu’à 100 k vecteurs” → les limites gratuites incluent souvent 1 index max, 1 namespace, latence P99 non garantie. Toute PME qui ingère des nouveaux corpus de manière itérative explose ces limites en 3 mois.
- “Llama 3 local pour la confidentialité” → 30 k€+ d’infra GPU dédiée et 20–40 % de qualité en moins. Rentable uniquement à partir de 10 k+ queries/jour et sur données ultra-sensibles (médical, défense, finance réglementée). Une PME standard : non.
- “RAG, c’est tout automatique” → 1–2 jours de maintenance par mois sur une stack qui tourne vraiment. Sinon, la qualité chute en 6 mois et personne ne voit rien.
- “Embeddings pas chers, chunkez large” → chunks trop gros = moins de précision en retrieval, plus de tokens par query, latence ↑. Chunks trop petits = contexte perdu. L’optimum PME : 400–800 tokens avec overlap 50–100.
- “RAG remplace le search” → non. RAG complémente le search classique. Un utilisateur qui cherche un numéro de référence exact veut du fulltext (SQL LIKE / ElasticSearch), pas de la similarité sémantique. Stack hybride (BM25 + vectors) = meilleur recall.
- “Chat bot, c’est l’interface évidente” → rarement. Un plugin dans l’outil existant (Odoo, Teams, Outlook, portail interne) convertit mieux qu’un chat standalone. Les utilisateurs n’ouvrent pas une nouvelle app juste pour une question.
Verdict — budget à prévoir sérieusement
Pour une PME 15–50 salariés qui veut un RAG qui tourne 2 ans sans dériver :
| Phase | Budget réaliste |
|---|---|
| Cadrage + v1 (2–3 mois) | 18–30 k€ |
| Run y1 (infra + LLM + maint) | 10–15 k€ |
| Run y2 (infra + LLM + maint) | 9–14 k€ |
| TCO 24 mois | 37–59 k€ |
Sous 30 k€ TCO, on a un prototype qui dérive avant 12 mois. Au-dessus de 70 k€, c’est soit un périmètre qui le justifie (>10 k queries/jour, multi-tenant, conformité), soit de l’overengineering.
Le vrai piège : les démos à 30 €/mois, qui masquent le coût de la transformation d’un POC en produit stable. L’écart est 2 ordres de grandeur. Le chiffrer avant, pas après.
On peut en parler
BCUB3 accompagne les PME et ETI industrielles sur ces sujets : audit de stack RAG existante, chiffrage v1 réaliste avant engagement éditeur, cadrage architecture (Qdrant vs pgvector, Haiku vs Sonnet, self-host vs managé), mise en place du monitoring et de l’eval benchmark.
Pas d’éditeur à pousser. Pas de framework fétiche. On regarde votre corpus, vos volumes, votre exigence de qualité, et on dit combien ça coûte vraiment — avant que vous signiez un contrat.
Prendre 30 minutes pour en parler →
Et si vous voulez suivre sans vous engager : la newsletter BCUB3 publie un article de ce niveau chaque semaine, sans hype, sur l’IA et les systèmes agentiques en contexte industriel.