Le vrai coût d'une stack RAG en production — chiffres PME

TL;DR

Une stack RAG en prod coûte rarement ce qu’annonce la démo. Les tokens sont la partie visible ; l’infra, le dev et la maintenance représentent 70–85 % du TCO sur 24 mois.
Cas concret PME 25 salariés, 500 docs ingérés/mois + 1000 queries/mois : TCO 24 mois entre 22 k€ (stack minimaliste, self-host, LLM cloud) et 55 k€ (stack managée, redondance, LLM enterprise).
Où ça tombe cher : le dev initial (60–80 % du coût y1), la maintenance évolutive (nouveaux formats, modèles à jour), la réingestion forcée quand on change d’embedding model, et les LLM premium (Sonnet > Haiku > GPT-4o-mini sur coût par query, par 3–10×).
Où ça reste OK : les tokens d’embedding (ridicules, ~0,02–0,05 € / 1 M tokens), Qdrant self-hosté sur VPS 50 €/mois qui encaisse des millions de vecteurs, les queries simples en Haiku (<0,01 €/query).
Piège #1 : raisonner “coût / query” sans compter la charge opérationnelle (monitoring, retries, évolutions). Une query qui coûte 0,003 € en API peut coûter 0,15 € chargée (dev+infra+maint) sur le premier an.
Verdict : budget réaliste pour une PME qui déploie sérieusement = 15–25 k€ y1 + 6–12 k€ y2. Sous ces montants, on a un prototype qui dérive en 6 mois. Au-dessus, c’est de l’overengineering sauf si l’usage dépasse 10 k queries/jour.

Pourquoi ce calcul revient tout le temps

Depuis un an, quasiment chaque mission agentique PME démarre par la même phrase : « On a testé en interne, ça coûte 30 balles par mois chez OpenAI. Pourquoi vous en demanderiez 25 000 pour la mettre en prod ? »

La question est légitime. La réponse aussi : les 30 € de tokens sont réels ; ce ne sont pas 30 € de stack RAG.

Une stack RAG en production, c’est au minimum :

Un pipeline d’ingestion (lecture PDF/Word/mail → chunking → embeddings → stockage).
Une base vectorielle (Qdrant, pgvector, Weaviate, Pinecone, Chroma).
Une couche de retrieval (search par similarité + reranking + filtres métier).
Un orchestrateur LLM (prompt template, contexte injection, citations, garde-fous).
Une interface (chat, API, intégration dans un outil existant).
Du monitoring (latence, taux de hallucination, coût, qualité sur benchmark).

Les tokens sont la seule brique dont le coût est public et visible. Le reste est invisible jusqu’à ce qu’on le déploie. C’est là que le décalage démo/prod apparaît.

Les 5 postes de coût réels d’une stack RAG en prod

1. Ingestion (parsing + embeddings)

Transformer 500 documents/mois en chunks vectorisés demande :

Parsing : un PDF scanné ≠ un PDF natif ≠ un Word ≠ un mail. Le parsing est le premier poste de complexité invisible. OCR qualité (Tesseract fine-tuné ou Mistral OCR API) : 1–5 € par 1000 pages.
Chunking : découpage en segments sémantiques (pas par paragraphe brut). Bibliothèques gratuites (langchain, llamaindex) mais le paramétrage coûte 2–5 jours en v1.
Embeddings : ~300 tokens par chunk, ~15 chunks par doc, 500 docs/mois = 2,25 M tokens/mois. En text-embedding-3-small (OpenAI, $0,02/M) ou bge-small-en-v1.5 (gratuit, self-host) : 0,05 € à 5 € par mois selon choix.

Verdict : les embeddings sont quasiment gratuits à l’échelle PME. Le coût est dans le parsing et le chunking bien faits.

2. Stockage vectoriel

500 docs × 15 chunks = 7500 vecteurs/mois, soit 90 k vecteurs/an. Un vecteur bge-small-384d pèse ~1.5 KB. 90 k vecteurs = 135 MB/an. Rien du tout.

Options concrètes :

Option	Coût	Notes
Qdrant self-host sur VPS 4 vCPU/8 Go	50–80 €/mois	Supporte 10 M+ vecteurs sans sourciller
pgvector sur PostgreSQL managé	30–60 €/mois	Bon si on a déjà Postgres
Qdrant Cloud (managed)	25–200 €/mois	Commence gratuit, scale cher
Pinecone (serverless)	70–300 €/mois	Facture par query + storage
Weaviate Cloud	75 €/mois entry	Idem

Verdict PME : Qdrant self-hosté sur un VPS OVH/Scaleway à 50 €/mois suffit pour 99 % des cas jusqu’à 1 M vecteurs. Au-delà, on bascule managé — mais les PME n’y arrivent jamais.

3. LLM (génération de réponse)

C’est LE poste visible et LE poste mal estimé. 1000 queries/mois, chaque query = retrieval (~8 chunks = 3000 tokens) + prompt système (500 tokens) + question (50 tokens) + réponse (400 tokens).

= 3550 tokens in + 400 tokens out par query.

Modèle	$/1M in	$/1M out	€/1000 queries
Claude Haiku 4.5	$1	$5	~4,30 €
GPT-4o-mini	$0,15	$0,60	~0,75 €
Claude Sonnet 4.6	$3	$15	~13 €
GPT-4o	$2,50	$10	~11 €
Claude Opus 4.7	$15	$75	~65 €

Verdict : pour une PME, 1000 queries/mois = 1–65 € de LLM selon le modèle. Haiku ou GPT-4o-mini suffisent dans 80 % des cas RAG (synthèse factuelle). Sonnet si la tâche exige du raisonnement (analyse croisée, rédaction).

Piège : les démos tournent toutes en Opus pour impressionner. Prod en PME tourne en Haiku ou Sonnet selon la criticité.

4. Dev initial (la vraie facture)

C’est là que ça coûte vraiment. Un RAG de prod demande :

Poste	Effort PME 25 sal.	Coût (consultants 800 €/j)
Cadrage + corpus delimitation	3–5 j	2 400 – 4 000 €
Pipeline ingestion + chunking	5–10 j	4 000 – 8 000 €
Retrieval + reranking	3–6 j	2 400 – 4 800 €
Orchestrateur LLM + prompts	4–8 j	3 200 – 6 400 €
Interface (chat web ou intégration)	5–15 j	4 000 – 12 000 €
Monitoring + eval benchmark	3–6 j	2 400 – 4 800 €
Tests + corrections	3–8 j	2 400 – 6 400 €
Total dev y1	26–58 j	20 800 – 46 400 €

Ce sont des ordres de grandeur observés sur 8 missions PME en 2025–2026. Les variations tiennent à la complexité du corpus (PDF scannés vs Word natifs), à la criticité (prototype vs production réglementée), et au niveau d’intégration (chat autonome vs plugin dans l’ERP).

5. Maintenance évolutive (invisible à la démo, critique sur 24 mois)

Un RAG se dégrade sans maintenance. Sources de dégradation mesurées :

Nouveaux formats de docs : le chunking initial casse sur un format qu’il n’a jamais vu (procédure ISO exportée en HTML, facture d’un nouveau fournisseur).
Dérive de prompts : un prompt qui marche sur Claude 3.5 peut sous-performer sur Claude 4.x. Il faut refine et tester.
Changement d’embedding model : text-embedding-ada-002 déprécié en 2024, 3-small en 2026 vraisemblablement obsolète d’ici 18 mois. Migration = réingestion complète (quelques heures de compute, mais test qualité à refaire).
Évolution du corpus métier : l’entreprise renomme une procédure, change ses CGV — le RAG garde l’ancienne version sauf qu’on pense à purger.
Régressions LLM : un provider déprécie un modèle, il faut basculer, retester.

Effort typique maintenance PME : 1–2 jours/mois, soit 8–16 k€/an.

Cas concret chiffré — Sous-traitant industriel, 28 salariés

PME industrielle, CA 4,2 M€, 28 salariés. Besoin : RAG sur 4200 documents techniques (fiches produits, procédures qualité, historique AO, modes opératoires), ~40 docs ajoutés/mois, ~80 queries/jour en moyenne (80 × 22 = 1760/mois).

Stack déployée (v1, 2 mois de travail, puis 6 mois de run)

Ingestion : pipeline Python + langchain (parsing PDF/DOCX/TXT), OCR Mistral pour scans (budget ~30 €/mois), chunks 600 tokens.
Embeddings : bge-large-en-v1.5 local sur le VPS (CPU suffit, 5 min pour 4200 docs).
Vector DB : Qdrant self-hosté sur VPS Scaleway 4 vCPU / 16 Go SSD, 65 €/mois.
LLM : Claude Haiku 4.5 en Q&A direct, Sonnet 4.6 pour 15 % des cas ambigus (détection via score confidence).
Interface : chat web Astro + API REST, intégré au portail interne.
Monitoring : Prometheus + Grafana (déjà en place), dashboards latence + coût + qualité.
Eval benchmark : 45 questions-réponses gold validées par BE, lancé hebdo.

Coûts réels mesurés sur 12 mois

Poste	Coût y1	Coût y2 projeté
Dev initial (BCUB3, 35 jours, 22 k€)	22 000 €	0 €
VPS Scaleway (Qdrant + app)	780 €	780 €
OCR Mistral (scans anciens dossiers)	380 €	60 €
LLM Anthropic (Haiku + Sonnet mix)	420 €	480 €
Embeddings (local, compute inclus VPS)	0 €	0 €
Maintenance (12 jours BCUB3 chargés)	9 600 €	9 600 €
Total	33 180 €	10 920 €

TCO 2 ans = ~44 k€. Sans le dev initial, y2 = ~11 k€/an en run. Sans la maintenance (si le client prend en interne), y2 ≈ 1 800 €/an — ce qui fait croire aux démos “30 € par mois”.

Ce qui a été mesuré en parallèle :

Temps gagné BE = ~2 h/jour sur recherche documentaire (avant : 2h30, après : 0h30 avec RAG).
Réponses aux clients techniques : 24h → 2h de délai moyen.
Économie chargée estimée : ~28 k€/an (1 ETP 0,25 récupéré + commercial plus réactif).

ROI : 15 mois sur le dev initial, puis positif à vie tant qu’on maintient.

Les trois architectures typiques — et leurs TCO

Architecture A — Minimaliste (PME < 20 sal., pilote)

Qdrant self-host VPS 50 €/mois
Haiku partout
Pas de reranker
Interface basique
15–25 jours de dev
Pas de monitoring formalisé

TCO y1 : 15–22 k€. y2 : 5–9 k€. Cible : prototype fonctionnel, mono-cas d’usage.

Architecture B — Production raisonnable (PME 20–80 sal., usage quotidien)

Qdrant self-host ou pgvector, 80–150 €/mois
Mix Haiku/Sonnet selon criticité
Reranker (Cohere rerank ou bge-reranker local)
Interface web + API
Monitoring + eval benchmark hebdo
30–45 jours de dev

TCO y1 : 25–45 k€. y2 : 10–16 k€. Cible : 80 % des déploiements PME sérieux.

Architecture C — Managée + redondée (PME exigeante / pré-ETI)

Qdrant Cloud ou Pinecone, 150–400 €/mois
Sonnet partout, Opus sur arbitrages
Reranker API
Multi-tenant, SSO, audit trail
50–80 jours de dev
SRE en astreinte

TCO y1 : 45–75 k€. y2 : 18–32 k€. Cible : sociétés avec exigences conformité/sécurité, ou usage >10 k queries/jour.

Là où les démos vous mentent

“Ça coûte 0,003 € la query” → vrai en tokens, faux en coût total. En y1, chaque query coûte (20 k€ dev) / (12 000 queries) = 1,67 €/query chargée. Seule à partir d’environ 50 k queries/an l’équation s’équilibre.
“Pinecone gratuit jusqu’à 100 k vecteurs” → les limites gratuites incluent souvent 1 index max, 1 namespace, latence P99 non garantie. Toute PME qui ingère des nouveaux corpus de manière itérative explose ces limites en 3 mois.
“Llama 3 local pour la confidentialité” → 30 k€+ d’infra GPU dédiée et 20–40 % de qualité en moins. Rentable uniquement à partir de 10 k+ queries/jour et sur données ultra-sensibles (médical, défense, finance réglementée). Une PME standard : non.
“RAG, c’est tout automatique” → 1–2 jours de maintenance par mois sur une stack qui tourne vraiment. Sinon, la qualité chute en 6 mois et personne ne voit rien.
“Embeddings pas chers, chunkez large” → chunks trop gros = moins de précision en retrieval, plus de tokens par query, latence ↑. Chunks trop petits = contexte perdu. L’optimum PME : 400–800 tokens avec overlap 50–100.
“RAG remplace le search” → non. RAG complémente le search classique. Un utilisateur qui cherche un numéro de référence exact veut du fulltext (SQL LIKE / ElasticSearch), pas de la similarité sémantique. Stack hybride (BM25 + vectors) = meilleur recall.
“Chat bot, c’est l’interface évidente” → rarement. Un plugin dans l’outil existant (Odoo, Teams, Outlook, portail interne) convertit mieux qu’un chat standalone. Les utilisateurs n’ouvrent pas une nouvelle app juste pour une question.

Verdict — budget à prévoir sérieusement

Pour une PME 15–50 salariés qui veut un RAG qui tourne 2 ans sans dériver :

Phase	Budget réaliste
Cadrage + v1 (2–3 mois)	18–30 k€
Run y1 (infra + LLM + maint)	10–15 k€
Run y2 (infra + LLM + maint)	9–14 k€
TCO 24 mois	37–59 k€

Sous 30 k€ TCO, on a un prototype qui dérive avant 12 mois. Au-dessus de 70 k€, c’est soit un périmètre qui le justifie (>10 k queries/jour, multi-tenant, conformité), soit de l’overengineering.

Le vrai piège : les démos à 30 €/mois, qui masquent le coût de la transformation d’un POC en produit stable. L’écart est 2 ordres de grandeur. Le chiffrer avant, pas après.

On peut en parler

BCUB3 accompagne les PME et ETI industrielles sur ces sujets : audit de stack RAG existante, chiffrage v1 réaliste avant engagement éditeur, cadrage architecture (Qdrant vs pgvector, Haiku vs Sonnet, self-host vs managé), mise en place du monitoring et de l’eval benchmark.

Pas d’éditeur à pousser. Pas de framework fétiche. On regarde votre corpus, vos volumes, votre exigence de qualité, et on dit combien ça coûte vraiment — avant que vous signiez un contrat.

Prendre 30 minutes pour en parler →

Et si vous voulez suivre sans vous engager : la newsletter BCUB3 publie un article de ce niveau chaque semaine, sans hype, sur l’IA et les systèmes agentiques en contexte industriel.

S’abonner à la newsletter →