Combien coûte vraiment l'IA en industrie : cloud vs on-premise, le calcul que personne ne fait

Le vrai prix de l’IA, celui qu’on ne montre pas dans les démos

Il y a un moment dans chaque comité de direction où quelqu’un pose la question qui fâche : combien ça coûte ? Pas combien coûte la prestation du consultant, ni combien coûte la licence du logiciel qui a un joli tableau de bord. Combien coûte le fonctionnement, mois après mois, une fois que le consultant est parti et que l’outil tourne en production.

La réponse est rarement simple, parce que l’IA en 2026 propose deux modèles économiques fondamentalement différents :

Le cloud : on envoie des données à un modèle hébergé par un fournisseur, on paie à l’usage.
Le on-premise : on achète du matériel, on installe un modèle localement, on paie l’électricité et le temps ingénieur.

Les deux ont des avantages réels. Les deux ont des coûts cachés que les plaquettes commerciales ne mentionnent pas.

Cet article pose les chiffres. Pas de buzzword, pas de promesse. Des prix unitaires, des scénarios concrets d’ETI industrielle, et un calcul de coût total de possession sur trois ans. L’objectif est qu’un directeur industriel ou un responsable qualité puisse, à la fin de la lecture, dimensionner un budget IA réaliste pour son site.

Ce que coûte un appel à un LLM cloud

Le token : unité de facturation de l’IA générative

Les grands modèles de langage (LLM) facturent à l’usage, et l’unité de mesure est le token. Un token n’est ni un mot ni un caractère : c’est un fragment de texte que le modèle traite comme une unité. En français, un token correspond en moyenne à 0,75 mot. En anglais, c’est plus proche de 1 mot. Concrètement, une phrase de 10 mots en français consomme environ 13 tokens.

Le prix est exprimé en dollars par million de tokens ($/M tokens). On distingue deux flux :

Input tokens : ce qu’on envoie au modèle (la question, le document à analyser, le contexte).
Output tokens : ce que le modèle génère (la réponse, le résumé, l’analyse).

Les output tokens coûtent systématiquement plus cher, souvent 3 à 5 fois plus. C’est logique : générer du texte est plus coûteux en calcul que le lire.

Grille tarifaire comparée (avril 2026)

Le marché évolue vite. Les prix ci-dessous reflètent les tarifs publics en avril 2026. La tendance de fond est une baisse d’environ 50 % par an depuis 2023.

Modèle	Input (€/M tokens)	Output (€/M tokens)	Niveau	Documentation
Claude Sonnet 4	2,75	13,80	Flagship	Anthropic Pricing
Claude Haiku 3.5	0,74	3,68	Rapide/économique	Anthropic Pricing
Claude Opus 4	13,80	69,00	Premium	Anthropic Pricing
GPT-4o	2,30	9,20	Flagship	OpenAI Pricing
GPT-4o mini	0,14	0,55	Rapide/économique	OpenAI Pricing
Gemini 2.5 Pro	1,15 – 2,30	9,20 – 13,80	Flagship	Google AI Pricing
Gemini 2.5 Flash	0,14	0,55	Rapide/économique	Google AI Pricing
Mistral Large	1,84	5,52	Flagship	Mistral Pricing
Llama 3.1 70B (via Together)	0,81	0,81	Open source hébergé	Self-host gratuit

Conversion appliquée : 1 $ = 0,92 €. Vérifier les prix actuels sur les pages fournisseurs, ils évoluent tous les trimestres.

Quelques ordres de grandeur pour ancrer ces chiffres. Un rapport qualité de 5 pages représente environ 3 000 tokens en input et 2 000 tokens en output. Avec Claude Haiku 3.5, ce rapport coûte environ 0,01 €. Avec Claude Opus 4, il coûte 0,18 €. La différence est un facteur 18 pour un usage unitaire. Sur 10 000 rapports par mois, elle devient un facteur budgétaire majeur.

Point important : ces prix baissent régulièrement. GPT-4 coûtait environ 27 €/M tokens en input à sa sortie en mars 2023. Trois ans plus tard, GPT-4o offre des performances supérieures pour 2,30 €/M tokens, soit une division par 12. Il ne faut pas dimensionner un budget 2027 sur les prix 2026.

Combien ça coûte en pratique pour une ETI

Les prix unitaires ne veulent rien dire sans volume. Voici trois scénarios représentatifs d’une ETI industrielle de 200 à 500 salariés.

Scénario 1 : contrôle qualité par vision (500 images/jour)

Un poste de contrôle visuel automatisé analyse 500 pièces par jour. Chaque image est envoyée à un modèle de vision pour détecter des défauts (rayures, bavures, déformations).

Option cloud (GPT-4o vision) : chaque analyse d’image consomme environ 1 500 tokens. Sur 500 images/jour, 250 jours/an : environ 15 à 25 €/jour, soit 400 à 550 €/mois.

Option locale : un modèle YOLO fine-tuné sur les défauts spécifiques du site, tournant sur une carte GPU dédiée. Coût token : 0 €. Coût électricité : environ 50 €/mois. Coût initial : formation du modèle + hardware (voir section suivante).

Verdict : pour de la vision industrielle en volume, le modèle local fine-tuné est presque toujours plus pertinent. Il est plus rapide (latence < 50 ms vs 500 ms en cloud), il fonctionne hors connexion, et il ne fait pas transiter les images de production chez un tiers.

Scénario 2 : assistant documentation technique (100 questions/jour)

Un chatbot interne répond aux questions des opérateurs et techniciens de maintenance sur la documentation technique : procédures, gammes, fiches de sécurité. 100 questions par jour, chaque échange consommant environ 4 000 tokens (contexte documentaire + question + réponse).

Option cloud (Claude Haiku 3.5) : environ 5 à 10 €/jour, soit 150 à 250 €/mois. C’est le cas d’usage où le cloud est le plus compétitif : volume modéré, modèle économique, mise en place rapide.

Option locale (Llama 3.1 8B sur Mac Mini M4 Pro) : 0 €/token après achat du hardware (1 800 €). Consommation électrique négligeable (~50 W). La qualité des réponses sera légèrement inférieure à Claude Haiku sur des questions complexes, mais suffisante pour de la recherche documentaire structurée avec un bon pipeline RAG (Retrieval-Augmented Generation).

Verdict : le cloud est pertinent tant que le volume reste sous 200 000 tokens/jour. Au-delà, le calcul bascule en faveur du local.

Scénario 3 : maintenance prédictive (1 million de prédictions/mois)

Un système surveille 50 machines et génère des prédictions de panne toutes les 15 minutes à partir de données vibratoires et thermiques. Volume : environ 1 million de prédictions par mois.

Réponse : il n’y a pas de LLM ici. Ce cas d’usage relève du machine learning classique : un modèle XGBoost ou Random Forest entraîné sur les données historiques de pannes. Le coût est uniquement celui de l’infrastructure de calcul : un serveur à 50-80 €/mois suffit largement.

LLM ou ML classique ?

Les LLM ne sont pas la bonne réponse à tous les problèmes d'IA. Pour de la prédiction sur données tabulaires ou séries temporelles, un modèle classique coûte 100 fois moins cher, tourne 1 000 fois plus vite, et donne souvent de meilleurs résultats.

L’IA générative excelle sur le langage naturel, la vision et la génération de contenu. Pour le reste, les méthodes éprouvées restent supérieures.

Hardware pour l’IA on-premise : benchmark et coûts réels

Quand le volume justifie une installation locale, ou quand la confidentialité des données l’impose, il faut acheter du matériel. Voici les options réalistes pour une ETI en 2026, de la plus accessible à la plus puissante.

Mac Mini M4 Pro (36 Go de mémoire unifiée) — ~1 800 €

C’est la porte d’entrée la plus accessible pour faire tourner un LLM en local. Le Mac Mini M4 Pro combine un processeur ARM performant, un Neural Engine dédié à l’IA, et une mémoire unifiée partagée entre CPU et GPU. Résultat : il peut exécuter des modèles que sa fiche technique ne laisserait pas présager.

Llama 3.1 8B : inférence fluide en temps réel, ~30 tokens/seconde
Llama 3.1 70B (quantifié 4-bit) : fonctionnel à ~10 tokens/seconde, suffisant pour un assistant interne
Silencieux, compact (12 cm de côté), consommation ~50 W
Pas de GPU discrète, mais l’architecture Apple Silicon compense par la bande passante mémoire

C’est le choix pragmatique pour un premier déploiement local : un assistant documentaire interne, un outil de résumé automatique, un chatbot métier. On le pose dans un bureau, on le branche, et il tourne.

Apple Mac Mini | Benchmarks : llama.cpp

Mac Studio M4 Ultra (192 Go de mémoire unifiée) — 6 000 à 8 000 €

Le grand frère. Avec 192 Go de mémoire unifiée, il peut charger des modèles que même des cartes GPU haut de gamme ne peuvent pas contenir en VRAM. C’est une station de travail IA silencieuse et autonome.

Llama 3.1 405B (quantifié 4-bit) : fonctionnel, lent mais utilisable pour du batch
Mixtral 8x22B : inférence fluide
Station de travail complète, pas besoin de serveur dédié
Idéal pour du prototypage avancé et de l’inférence en volume modéré

NVIDIA RTX 4090 (24 Go VRAM) — ~1 600 € (carte seule), ~3 500 € en station de travail

La référence pour l’inférence rapide et le fine-tuning de modèles de taille moyenne. La RTX 4090 offre le meilleur rapport performance/prix en 2026 pour les charges de travail IA.

Llama 3.1 70B (quantifié 4-bit) : ~40 tokens/seconde, quatre fois plus rapide que le Mac Mini
Fine-tuning LoRA sur des modèles jusqu’à 13 milliards de paramètres
Consommation élevée : 350 à 450 W en charge
Nécessite un PC avec alimentation adaptée (850 W minimum) et un boîtier ventilé

C’est le choix pour une ETI qui veut aller au-delà de l’inférence simple : fine-tuner un modèle sur ses propres données techniques, faire tourner plusieurs modèles en parallèle, ou traiter du volume.

Tom’s Hardware GPU Benchmark

NVIDIA A100 / H100 — 10 000 à 30 000 € (ou location cloud ~2 à 4 €/h)

Les GPU datacenter de NVIDIA sont le standard de l’industrie pour le fine-tuning de grands modèles et l’inférence à l’échelle. L’A100 offre 80 Go de VRAM HBM2e, le H100 monte à 80 Go de HBM3 avec une bande passante doublée.

Fine-tuning complet de modèles de plus de 30 milliards de paramètres
Inférence batch à haut débit pour des milliers de requêtes par minute
Rarement justifié en achat pour une ETI, sauf volume massif
La location cloud est souvent plus pertinente : RunPod (~2 €/h pour une A100 80 Go), Lambda Labs (~2,50 €/h)

Ces GPU s’adressent à des cas spécifiques : fine-tuning d’un modèle fondation sur un corpus industriel volumineux, ou déploiement d’un service d’IA partagé entre plusieurs sites.

Serveur d’inférence typique ETI — ~7 000 €

Configuration réaliste pour une ETI qui veut internaliser ses capacités IA : un serveur avec 2 cartes RTX 4090, 64 Go de RAM, un SSD NVMe rapide.

Fait tourner 3 à 4 modèles en parallèle (un pour la vision, un pour le texte, un pour la classification)
Fine-tuning, RAG local, inférence batch
Consommation : ~200 à 400 €/an d’électricité selon l’usage
Nécessite un local technique avec climatisation adaptée

Tableau récapitulatif hardware

Hardware	Prix	Modèle max supporté	Tok/s (70B q4)	Conso	Usage type
Mac Mini M4 Pro (36 Go)	1 800 €	Llama 70B q4	~10	50 W	Assistant interne, prototypage
Mac Studio M4 Ultra (192 Go)	7 000 €	Llama 405B q4	~15	150 W	Inférence multi-modèles, R&D
RTX 4090 (station)	3 500 €	Llama 70B q4	~40	450 W	Fine-tuning, inférence rapide
2x RTX 4090 (serveur)	7 000 €	Llama 70B (2 instances)	~80 total	900 W	Production multi-modèles
A100 80 Go (cloud)	2 €/h	Llama 405B	~60	N/A	Fine-tuning grands modèles
H100 (cloud)	3,50 €/h	Llama 405B+	~120	N/A	Scale, entraînement

Cloud vs on-premise : l’arbre de décision

Le choix entre cloud et on-premise n’est pas idéologique. C’est un calcul. Voici les critères qui tranchent dans la grande majorité des cas.

Volume quotidien de tokens

Moins de 10 000 tokens/jour : cloud, sans hésiter. L’investissement en hardware ne sera jamais amorti. On parle de quelques centimes par jour.
Entre 10 000 et 1 000 000 tokens/jour : zone de calcul. Le break-even (point d’équilibre) entre cloud et on-premise se situe généralement autour de 6 mois d’utilisation continue. Il faut poser les chiffres pour le cas précis.
Plus de 1 000 000 tokens/jour : le on-premise est quasi systématiquement plus rentable, sauf si le cas d’usage nécessite un modèle frontier (Opus, GPT-4o) sans équivalent local.

Sensibilité des données

Données de production standard (rapports, documentation) : cloud acceptable avec un contrat DPA (Data Processing Agreement) adapté.
Données clients, plans, recettes de fabrication, secrets industriels : on-premise ou cloud souverain (OVH, Scaleway, Outscale). Ne pas envoyer de propriété intellectuelle critique chez un fournisseur américain sans analyse juridique.
Données réglementées (défense, santé, nucléaire) : on-premise obligatoire dans la majorité des cas.

Besoin de fine-tuning

Si le modèle doit être spécialisé sur un vocabulaire métier, des procédures internes ou un type de défaut spécifique : le on-premise est presque toujours nécessaire, au moins pour la phase d’entraînement.
Si un modèle généraliste avec un bon prompt et du RAG suffit : le cloud est plus simple.

Budget disponible

Moins de 5 000 € de budget IA : cloud uniquement. On peut faire des choses utiles avec 200 €/mois de tokens.
5 000 à 15 000 € : un premier serveur local devient envisageable, avec du cloud en complément.
Plus de 15 000 € : on-premise comme backbone, cloud pour les modèles frontier ponctuels.

TCO sur 3 ans : comparaison honnête

Prenons un scénario concret et chiffrons-le sur 36 mois. Le cas : un assistant qualité interne qui répond aux questions des techniciens sur la documentation technique, consommant 50 000 tokens par jour, 250 jours ouvrés par an.

Les quatre options

Option A — Cloud Claude Haiku 3.5

Le modèle rapide et économique d’Anthropic. Bonne qualité pour de la recherche documentaire.

Coût mensuel : ~50 000 tokens/jour x 250/30 jours x (0,74 € input + 3,68 € output) / 1M = environ 370 €/mois
TCO 36 mois : 13 300 €
Avantages : zéro maintenance, mise à jour automatique, qualité croissante dans le temps
Inconvénients : dépendance fournisseur, données transitent à l’extérieur

Option B — Mac Mini M4 Pro + Llama 3.1 8B

Le modèle open source de Meta sur du hardware Apple grand public.

Hardware : 1 800 €
Électricité : ~15 €/mois (50 W x 10h/jour)
Setup initial : ~20h ingénieur (estimé à 100 €/h = 2 000 €)
Maintenance : ~5h/trimestre = 2 000 € sur 3 ans
TCO 36 mois : 1 800 + 540 + 2 000 + 2 000 = 6 340 €
Avantages : données restent en interne, coût marginal quasi nul, indépendance
Inconvénients : qualité inférieure à Haiku sur les questions complexes, maintenance à charge

Option C — Cloud Claude Sonnet 4

Le modèle flagship d’Anthropic. Qualité supérieure, prix supérieur.

Coût mensuel : ~1 800 €/mois (même calcul, tarifs Sonnet)
TCO 36 mois : 64 800 €
Avantages : meilleure qualité de réponse, gestion du raisonnement complexe
Inconvénients : coût élevé, probablement surdimensionné pour de la recherche documentaire

Option D — Station RTX 4090 + Llama 3.1 70B

Le modèle 70B de Meta, plus puissant, sur du hardware GPU performant.

Hardware : 3 500 €
Électricité : ~40 €/mois (450 W x 10h/jour, tarif industriel)
Setup initial : ~30h ingénieur = 3 000 €
Maintenance : ~8h/trimestre = 3 200 € sur 3 ans
TCO 36 mois : 3 500 + 1 440 + 3 000 + 3 200 = 11 140 €
Avantages : qualité proche de Haiku/Sonnet, inférence rapide, fine-tuning possible
Inconvénients : bruit, chaleur, maintenance GPU, compétence requise

Tableau comparatif TCO

Option	Hardware	Cloud/mois	Ingénieur	Électricité	TCO 36 mois
A — Haiku cloud	0 €	370 €	0 €	0 €	13 300 €
B — Mac Mini + Llama 8B	1 800 €	0 €	4 000 €	540 €	6 340 €
C — Sonnet cloud	0 €	1 800 €	0 €	0 €	64 800 €
D — RTX 4090 + Llama 70B	3 500 €	0 €	6 200 €	1 440 €	11 140 €

Le coût caché le plus sous-estimé est le temps ingénieur. Installer un modèle local, configurer un pipeline RAG, maintenir les mises à jour, diagnostiquer les pannes : ce n’est pas gratuit. Une ETI qui n’a pas de compétence IA en interne devra soit former quelqu’un (compter 5 à 10 jours de formation, soit 3 000 à 6 000 euros), soit sous-traiter la maintenance.

Le cloud est simple mais cher à l’échelle. Le on-premise est économique mais demande du skill. Il n’y a pas de solution magique : il y a un choix d’investissement adapté au contexte de chaque site.

Abonnements max vs on-premise : le vrai benchmark

Avant les tokens, beaucoup d’ETI commencent par un abonnement. Regardons ce que ça donne en usage intensif.

Offre	Prix/mois	Ce qu’on obtient	Limite effective
Claude Pro	18 €	Opus/Sonnet, usage limité	~100-200 messages longs/jour
Claude Max (5×)	90 €	5× la capacité Pro	~500-1000 messages/jour
Claude Max (20×)	180 €	20× la capacité Pro	~2000-4000 messages/jour
ChatGPT Plus	20 €	GPT-4o, usage limité	~100 messages/jour
ChatGPT Pro	200 €	Illimité GPT-4o, o1	Illimité mais 1 utilisateur
API Claude Sonnet	Variable	Pay-per-token	50K tokens/jour ≈ 120 €/mois

Pour un utilisateur, l’abonnement est imbattable. Pour une équipe de 10 techniciens qualité, le calcul change radicalement : 10 x 180 euros = 1 800 euros/mois = 21 600 euros/an. Un Mac Mini M4 Pro + Llama 70B coûte 1 800 euros une fois et sert les 10 en parallèle.

Règle de décision : au-delà de 3 utilisateurs intensifs, poser les chiffres du on-premise. Au-delà de 10, c’est presque toujours gagnant.

La vraie question : les prix cloud vont-ils monter ?

Le récit dominant de l’industrie dit que les coûts des LLM baissent de 50 % par an. C’est vrai pour le prix unitaire du token. Mais c’est une demi-vérité. Elle masque un risque financier structurel que tout directeur industriel devrait connaître avant de bâtir sa stratégie IA sur du cloud.

Ce que disent les bilans

Les fournisseurs de LLM perdent de l’argent. Massivement.

Anthropic (Claude) : environ 2 milliards de dollars de pertes cumulées entre 2023 et 2025, pour un revenu estimé à 900 M $ARR fin 2025. Le ratio revenue/coûts est profondément négatif. <mark>Chaque token vendu est vendu en dessous de son coût réel d'inférence + R&D + infrastructure.</mark> La différence est comblée par des levées de fonds successives : 2 Md$ de Google, 4 Md$ d’Amazon, et des rounds successifs.

OpenAI : environ 5 milliards de dollars de pertes en 2024 pour un revenu de ~3,7 Md$. Le passage de non-profit à for-profit en 2025 reflète un impératif de rentabilisation. Les prix GPT-4o sont déjà en hausse sur certaines tranches (le tier gratuit a été réduit plusieurs fois).

Google (DeepMind/Gemini) : les coûts sont noyés dans le bilan Alphabet, mais les investissements IA dépassent 30 Md$/an. Les prix Gemini agressivement bas sont une stratégie d’acquisition de marché, pas un reflet du coût réel.

La mécanique de l’inversion de prix

Quand un fournisseur cloud brûle du cash pour acheter des parts de marché, il y a trois scénarios possibles :

Il atteint l’échelle et les économies d’échelle compensent les pertes → les prix restent bas. C’est le scénario optimiste, mais il suppose un volume de marché gigantesque.
Le financement se tarit (récession, rotation des investisseurs, fatigue du VC) → il doit devenir rentable → les prix montent de 50 à 200 %. C’est ce qui s’est passé avec les services cloud classiques (AWS, Azure) entre 2015 et 2020 : baisse agressive puis stabilisation/hausse.
Consolidation : les petits acteurs meurent, les survivants ont du pricing power → les prix montent. C’est le scénario oligopolistique classique.

Les scénarios 2 et 3 sont les plus probables à horizon 3-5 ans. Le scénario 1 suppose que le marché des LLM atteigne une taille comparable au cloud computing (~500 Md$/an), ce qui n’est pas acquis.

Extrapolation chiffrée : que se passe-t-il si les prix montent de 50 % ?

Reprenons notre scénario d’assistant qualité (50 000 tokens/jour, 250 jours/an).

	Prix actuel	Prix +50%	Prix +100%
Claude Haiku cloud/mois	370 €	555 €	740 €
Claude Sonnet cloud/mois	1 800 €	2 700 €	3 600 €
On-premise (Llama 70B)	310 €*	310 €	310 €

Coût mensuel amorti sur 3 ans (hardware + électricité + maintenance).

L’on-premise est insensible aux hausses de prix fournisseur. C’est un coût fixe. Le cloud est une variable indexée sur les décisions de pricing d’un tiers.

Break-even à 50 % de marge

La question stratégique pour un directeur industriel : à quel niveau de prix cloud le on-premise devient-il 50 % moins cher (c’est-à-dire procure une “marge” de 50 % sur le budget IA) ?

Pour notre scénario (assistant qualité, 50K tokens/jour) :

Coût on-premise amorti : 310 €/mois (Mac Mini + Llama 70B q4, tout compris)
Pour que le on-premise soit 50 % moins cher, il faut que le cloud coûte 310 / 0.5 = 620 €/mois
Claude Haiku est aujourd’hui à 370 €/mois → une hausse de 68 % suffit pour franchir le seuil
Claude Sonnet est déjà à 1 800 €/mois → le on-premise est déjà 83 % moins cher

Pour les modèles flagship, le break-even à 50 % est déjà franchi. Pour les modèles économiques, il suffit d’une hausse de prix inférieure à 70 % — un événement tout à fait plausible si le financement VC ralentit.

Ce que ça veut dire pour une ETI

Ne pas bâtir 100 % de sa stratégie IA sur du cloud. C’est un risque financier comparable à une dépendance à un fournisseur unique de matière première.
Construire une architecture hybride dès le départ : cloud pour la flexibilité et les modèles frontier, on-premise pour les volumes et la résilience.
Privilégier les modèles open source (Llama, Mistral, Qwen) qui tournent en local. Si le fournisseur cloud double ses prix demain, l’ETI qui a un serveur d’inférence local continue à produire. L’ETI 100 % cloud subit.
L’agnosticisme technique n’est pas un luxe : c’est une couverture de risque.

La règle de résilience

Le hardware on-premise ne baisse pas de prix aussi vite que les tokens. Mais il ne remonte pas non plus quand un VC décide qu'il est temps de rentabiliser son investissement.

Liens et ressources techniques

Documentation fournisseurs

Benchmarks hardware et modèles

Outils de calcul

LLM Price Comparison (llmprices.dev)

Pour aller plus loin

Break-even cloud vs on-premise — le croisement des courbes de coût cumulé.