Optimiser un LLM pour l'industrie : prompt engineering, RAG, fine-tuning et déploiement souverain

Pourquoi optimiser un LLM (et pourquoi pas juste utiliser ChatGPT)

Il y a un scénario qui se répète dans à peu près toutes les ETI industrielles françaises en 2026. Un responsable qualité ou un technicien méthodes a découvert ChatGPT, s’en sert pour rédiger des rapports, reformuler des procédures, ou analyser des données copiées-collées dans la fenêtre de conversation. Ça fonctionne. Parfois même remarquablement bien.

Et puis rien ne se passe ensuite. L’usage reste individuel, informel, non tracé. Il n’y a pas de stratégie IA. Il y a un abonnement à 20 euros par mois et un collaborateur qui gagne du temps dans son coin.

Le problème n’est pas que ChatGPT ne marche pas. Le problème est que le copier-coller dans une interface web n’est pas un déploiement. Les données de production transitent par des serveurs américains. Les réponses ne sont pas reproductibles. Il n’y a pas d’intégration avec l’ERP, la GMAO ou le système qualité. Et quand le collaborateur change de poste, le savoir-faire part avec lui.

L’optimisation d’un modèle de langage commence exactement à ce point de bascule : quand on passe de l’usage individuel au déploiement process. Ce passage mobilise trois enjeux qui structurent tout le reste de cet article.

Le coût. Un modèle de langage premium (Claude Opus, GPT-4o) consommé sans optimisation sur un cas d’usage à volume coûte entre 1 000 et 5 000 euros par mois. Le même résultat, avec le bon modèle, le bon prompting et une architecture de routing, descend entre 100 et 500 euros. Un facteur 10 qui se joue entièrement dans l’ingénierie, pas dans le choix du fournisseur.

La qualité. Un LLM généraliste répond à tout, mais ne répond bien à rien de spécifique. Un rapport de non-conformité en plasturgie ne se rédige pas comme un résumé de réunion. Le vocabulaire métier, les normes applicables, les formats internes — tout cela doit être injecté dans le système. Sans optimisation, le modèle produit du texte plausible mais imprécis. Avec optimisation, il produit du texte exploitable.

La souveraineté des données. En industrie, les données de production, les gammes de fabrication, les plans clients et les historiques qualité sont des actifs stratégiques. Les envoyer à un fournisseur cloud américain pose un problème de confidentialité, de conformité RGPD, et de dépendance. L’optimisation permet de réduire, voire d’éliminer, la quantité de données sensibles qui sort du périmètre de l’entreprise.

Ces trois enjeux — coût, qualité, souveraineté — définissent cinq niveaux d’optimisation, du plus simple au plus engagé. Chaque niveau a un coût d’entrée, un gain mesurable, et un domaine d’application. L’objectif de cet article est de donner à un directeur industriel ou un DSI les éléments pour choisir le bon niveau pour son contexte.

Niveau 1 : prompt engineering — 0 euro, impact immédiat

Le prompt engineering est l’optimisation qui ne coûte rien et qui rapporte le plus. Il consiste à structurer la manière dont on parle au modèle de langage pour obtenir des réponses plus précises, plus cohérentes et plus exploitables. C’est l’équivalent IA du réglage machine : les paramètres sont là, il suffit de les ajuster.

Le system prompt : le cahier des charges du modèle

Chaque appel à un LLM peut inclure un system prompt — un bloc d’instructions qui définit le rôle, le périmètre et le format de sortie du modèle. La différence entre un system prompt vide et un system prompt structuré est comparable à la différence entre demander à un intérimaire de “faire un truc qualité” et lui remettre une fiche de poste détaillée.

Un system prompt efficace pour un cas industriel contient quatre éléments :

le rôle (“Tu es un ingénieur qualité spécialisé en injection plastique”)
le périmètre (“Tu analyses uniquement les données de contrôle dimensionnel”)
le format de sortie (“Tu produis un tableau avec les cotes hors tolérance, l’écart en mm, et la cause probable”)
les contraintes (“Tu ne fais pas de supposition sur les causes si les données sont insuffisantes”)

Le few-shot : montrer avant de demander

Le few-shot consiste à fournir au modèle deux ou trois exemples de paires question-réponse avant de poser la vraie question. Le modèle apprend le format et le niveau de détail attendus à partir des exemples. C’est l’équivalent du compagnonnage : on montre comment faire, puis on laisse faire.

Pour la classification de non-conformités, trois exemples bien choisis — un défaut d’aspect, un hors tolérance dimensionnel, un défaut matière — suffisent généralement pour que le modèle classifie correctement les cas suivants avec le bon vocabulaire et les bonnes catégories.

Le chain-of-thought : forcer le raisonnement

Le chain-of-thought est une technique qui demande au modèle de détailler son raisonnement étape par étape avant de donner sa conclusion. L’instruction “raisonne étape par étape” augmente significativement la qualité des réponses sur les problèmes qui demandent du calcul, de la comparaison ou de la déduction. Sur une analyse de causes racines, la différence est notable : sans chain-of-thought, le modèle saute à une conclusion. Avec, il structure son analyse comme le ferait un ingénieur.

Le formatage de sortie : imposer la structure

Un LLM génère du texte libre par défaut. En contexte industriel, le texte libre est rarement ce qu’on veut. On veut un tableau, un JSON structuré, une liste numérotée, un formulaire rempli. L’instruction de format (“Réponds sous forme d’un tableau à 4 colonnes : référence pièce, cote mesurée, tolérance, verdict”) transforme une réponse exploitable à 60 % en une réponse exploitable à 95 %.

Exemples industriels concrets

Rapport qualité automatisé. Le system prompt définit le format du rapport (en-tête, tableau des mesures, synthèse, actions correctives). Les données brutes du contrôle sont envoyées en input. Le modèle produit un rapport formaté en 3 secondes au lieu de 20 minutes de rédaction manuelle.
Classification de non-conformités. Trois exemples few-shot couvrent les catégories principales. Le modèle classifie chaque nouvelle fiche de non-conformité dans la bonne catégorie, avec le bon code défaut, dans le bon format pour import dans le système qualité.
Résumé de documentation technique. Un system prompt qui impose un résumé en 5 points (objet, périmètre, points critiques, paramètres clés, date de dernière révision) transforme un document de 40 pages en une fiche de synthèse exploitable par un technicien en 30 secondes.

Le gain typique du prompt engineering bien fait est de +30 à 50 % de qualité sur les réponses, sans changer de modèle, sans investir un euro, et avec un effort de mise en place de quelques heures. C’est le premier levier à activer, systématiquement.

Niveau 2 : RAG — le modèle qui cherche dans vos documents (1 à 5 K euros)

Le principe

Le RAG (Retrieval-Augmented Generation) résout un problème fondamental des modèles de langage : ils ne connaissent pas les documents internes de l’entreprise. Un LLM sait ce qu’est une procédure de maintenance, mais il ne connaît pas la procédure de maintenance de la pompe P-3200 installée dans l’atelier B.

Le RAG comble ce fossé : avant de répondre à une question, le système cherche dans la base documentaire de l’entreprise les passages les plus pertinents, puis les injecte dans le contexte du modèle. Le LLM répond alors en s’appuyant sur les documents réels, pas sur ses connaissances génériques.

Le pipeline technique

Le pipeline RAG se décompose en cinq étapes, chacune avec ses choix techniques.

Découpage (chunking). Les documents sont découpés en fragments de 300 à 800 tokens. Trop gros, le contexte est dilué et le modèle perd le fil. Trop petit, le fragment perd son sens et le modèle manque de contexte pour répondre. Le bon calibrage dépend du type de document : une procédure structurée se découpe par section, un rapport technique par paragraphe.
Vectorisation (embedding). Chaque fragment est transformé en un vecteur numérique de 384 à 1024 dimensions par un modèle d’embedding. Ce vecteur capture le sens sémantique du texte : deux fragments qui parlent du même sujet avec des mots différents auront des vecteurs proches.
Stockage vectoriel. Les vecteurs sont stockés dans une base de données vectorielle. Les options principales sont Qdrant, Chroma, pgvector (extension PostgreSQL), Milvus. Le choix dépend du volume et de l’infrastructure existante. Pour une ETI avec quelques milliers de documents, pgvector suffit et s’intègre dans le PostgreSQL déjà en place. Pour des volumes plus importants, Qdrant ou Milvus offrent de meilleures performances de recherche.
Recherche (retrieval). Quand un utilisateur pose une question, celle-ci est vectorisée avec le même modèle d’embedding, puis comparée aux vecteurs stockés. Les 3 à 10 fragments les plus proches sont récupérés.
Génération. Les fragments récupérés sont injectés dans le prompt du LLM avec la question de l’utilisateur. Le modèle répond en s’appuyant sur ces documents, en citant les sources.

Quand utiliser le RAG

Le RAG est pertinent dès qu’il existe un corpus documentaire structuré que les utilisateurs doivent consulter régulièrement : documentation technique, procédures qualité, gammes de fabrication, fiches de données de sécurité, normes internes, plans de maintenance. Plus le corpus est volumineux et plus les utilisateurs sont nombreux, plus le gain est significatif.

L’avantage souverain

Dans une architecture RAG bien conçue, les données ne quittent pas le périmètre de l’entreprise. La base vectorielle tourne sur un serveur interne. Seule la question de l’utilisateur (enrichie des fragments pertinents) est envoyée au LLM via API — et cette question ne contient que des extraits de documents, pas l’intégralité du corpus. Mieux encore : avec un LLM local (voir niveau 5), absolument rien ne sort de l’usine.

Le piège du chunking

Le piège le plus fréquent dans un projet RAG industriel est le mauvais découpage des documents. Un chunk trop gros (2 000 tokens) contient trop d’informations : quand le modèle le reçoit, il ne sait pas quelle partie est pertinente pour la question posée. Un chunk trop petit (50 tokens) perd son contexte : “Appliquer le couple de serrage spécifié” sans savoir quel organe, quel couple, quelle procédure.

Le piège du chunking

Le calibrage du chunking est le paramètre qui a le plus d'impact sur la qualité d'un système RAG — et c'est souvent celui auquel on consacre le moins de temps.

Exemple concret

Une ETI de 200 salariés dans la maintenance industrielle déploie un assistant documentation pour ses 50 techniciens itinérants. Le corpus : 2 000 fiches techniques de machines, 500 procédures de maintenance, 300 fiches de données de sécurité.

Sans le RAG, chaque technicien passe en moyenne 25 minutes par jour à chercher la bonne fiche sur le réseau partagé ou dans le classeur papier. Avec le RAG, il pose la question en langage naturel (“Quelle est la périodicité de graissage du roulement côté accouplement du moteur P-3200 ?”) et obtient la réponse en 5 secondes, avec le lien vers la fiche source.

Le gain est de 20 minutes par technicien par jour, soit 1 600 heures par an pour l’équipe. Au coût horaire chargé d’un technicien de maintenance, le ROI du projet se mesure en semaines.

Budget d’implémentation : entre 1 000 et 5 000 euros pour la mise en place initiale (ingestion documentaire, configuration du pipeline, intégration avec l’interface utilisateur), plus 100 à 500 euros par mois en coûts de fonctionnement (API LLM + hébergement base vectorielle).

Niveau 3 : fine-tuning LoRA/QLoRA (500 à 2 000 euros)

Quand le RAG ne suffit pas

Le RAG injecte du contexte documentaire. Mais il ne change pas le comportement du modèle. Le prompt engineering et le RAG atteignent leurs limites quand :

le vocabulaire métier est très spécifique (terminologie plasturgie, codes défauts internes, nomenclature maison)
le style de réponse doit suivre un format très précis (rapport normé EN 9100, fiche de non-conformité interne)
le modèle doit acquérir un raisonnement spécialisé (diagnostic de panne à partir de symptômes vibratoires)

Dans ces cas, il faut modifier le modèle lui-même.

LoRA : adapter 0,1 % du modèle, pas 100 %

Le fine-tuning classique — réentraîner tous les paramètres d’un modèle de 8 milliards de paramètres — coûte cher en calcul et nécessite du matériel haut de gamme. LoRA (Low-Rank Adaptation) contourne le problème en ne modifiant qu’une fraction infime des paramètres : entre 0,1 % et 1 %. Des matrices de faible rang sont ajoutées aux couches du modèle, et seules ces matrices sont entraînées. Le résultat est un “adaptateur” de quelques dizaines de mégaoctets qui se greffe sur le modèle de base.

QLoRA pousse l’optimisation plus loin en quantifiant le modèle de base en 4-bit pendant le fine-tuning. Un modèle de 8 milliards de paramètres qui nécessiterait normalement 32 Go de VRAM en fine-tuning classique tient dans 6 Go avec QLoRA. Concrètement, cela signifie qu’un fine-tuning est réalisable sur une RTX 4090 (24 Go VRAM) pour les modèles jusqu’à 13 milliards de paramètres, et sur du matériel cloud accessible pour les modèles plus gros.

Les données nécessaires

Un fine-tuning LoRA exploitable en production nécessite entre 500 et 5 000 paires (instruction, réponse attendue). Ce n’est pas énorme, mais la qualité des paires est décisive. Chaque paire doit être un exemple réel, validé par un expert métier, représentatif du cas d’usage cible. Cinq cents paires de haute qualité valent mieux que cinq mille paires bruitées.

En ETI industrielle, ces données existent souvent sous une forme qu’il faut transformer : historiques de rapports qualité, logs de diagnostic de panne, fiches de non-conformité renseignées, échanges techniques documentés. Le travail de préparation du dataset est généralement le poste le plus chronophage du projet.

Modèles recommandés pour le fine-tuning

Les modèles open source les plus adaptés au fine-tuning industriel en 2026 sont :

Llama 3.1 8B — le meilleur compromis performance/coût. Fine-tunable sur une RTX 4090 en QLoRA. Suffisant pour la classification, la rédaction structurée, le diagnostic assisté.
Llama 3.1 70B — performances proches des modèles propriétaires frontier. Nécessite du compute cloud (2 à 4 GPU A100).
Mistral 7B / Mixtral 8x7B — bonne alternative, architecture MoE efficiente pour Mixtral.

Coût compute

Le fine-tuning LoRA/QLoRA d’un modèle 8B sur 2 000 paires prend environ 2 à 4 heures sur une RTX 4090 ou un GPU A100 cloud. Le coût cloud (RunPod, Lambda Labs) se situe autour de 100 à 200 euros. Pour un modèle 70B, compter 4 à 8 heures sur 4 GPU A100, soit 800 à 1 500 euros. À cela s’ajoute le temps de préparation du dataset et d’évaluation, qui représente l’essentiel du coût humain du projet.

Exemple concret

Une ETI en plasturgie fine-tune un Llama 3.1 8B pour la classification automatique des défauts qualité. Le dataset : 1 200 fiches de non-conformité historiques, chacune décrivant un défaut (retassure, bavure, brûlure, ligne de soudure, déformation) avec le vocabulaire technique maison (noms de moules, références matière, codes machine). Après fine-tuning, le modèle classifie les nouveaux défauts avec le bon code, dans le bon vocabulaire, au bon format — là où un modèle généraliste produisait des descriptions approximatives avec un vocabulaire générique. La précision de classification passe de 72 % (modèle de base + prompt engineering) à 94 % (modèle fine-tuné).

Niveau 4 : quantization et déploiement on-premise (3 à 7 K euros hardware)

La quantization : diviser la mémoire par quatre

Un modèle de langage stocke ses paramètres en précision 16-bit (FP16). La quantization consiste à réduire cette précision à 8-bit, 4-bit, voire 2-bit. L’impact est direct : un modèle de 8 milliards de paramètres passe de 16 Go en FP16 à 4 Go en 4-bit. Un modèle de 70 milliards passe de 140 Go à 35 Go — ce qui le rend exploitable sur du matériel grand public.

Les trois formats dominants en 2026 sont :

GGUF — format optimisé pour llama.cpp. Supporte CPU et GPU. Le plus portable, tourne sur tout, du Mac Mini au serveur Linux.
GPTQ — quantization post-training optimisée GPU. Meilleure performance que GGUF sur GPU dédié.
AWQ — activation-aware quantization. Préserve mieux la qualité que GPTQ à même taille, au prix d’un temps de quantization plus long.

L’impact sur la qualité est modéré : une quantization 4-bit bien calibrée réduit les performances du modèle d’environ 5 % sur les benchmarks standards. En pratique, sur un cas d’usage industriel ciblé (classification, rédaction structurée, résumé), la différence est rarement perceptible. En contrepartie, la vitesse d’inférence augmente d’un facteur 2 à 3.

Le stack d’inférence locale

Trois options principales pour faire tourner un LLM en local :

Stack	Type	Forces	Cas d’usage
llama.cpp / Ollama	CPU + GPU	Simple, tourne partout, GGUF natif	Prototypage, petit volume, poste individuel
vLLM	GPU	Batching, PagedAttention, haute performance	Production, multi-utilisateurs, API interne
TGI (Text Generation Inference)	GPU	Conteneurisé, intégration HuggingFace	Production, infrastructure Docker existante

Ollama mérite une mention particulière pour sa simplicité : une commande pour télécharger un modèle, une commande pour le lancer. Un technicien IT peut mettre en service un LLM local en une demi-heure. C’est le point d’entrée le plus accessible pour une ETI qui veut tester le on-premise sans investissement lourd.

Dimensionnement hardware

Hardware	Prix	Modèle max (4-bit)	Tokens/seconde	Usage
Mac Mini M4 Pro (48 Go)	2 300 €	30B	15-25 t/s	Bureau, usage individuel
RTX 4090 (24 Go VRAM)	2 000 €	13B (GPU) / 70B (offload)	40-80 t/s (13B)	Production, multi-utilisateurs
2x RTX 4090	4 500 €	70B natif	30-50 t/s	Production, charge soutenue
RTX 6000 Ada (48 Go)	7 000 €	70B natif	40-60 t/s	Production, modèle unique large

Les performances dépendent du modèle exact, du format de quantization et de la longueur de contexte. Ces chiffres sont des ordres de grandeur.

La souveraineté complète

Le déploiement on-premise avec un modèle open source quantifié atteint le niveau maximal de souveraineté : zéro donnée qui sort de l’usine. Aucune requête API vers un fournisseur cloud. Aucune dépendance à une connexion internet. Aucun risque de changement tarifaire ou de modification unilatérale des conditions d’utilisation. Le modèle tourne sur un serveur dans l’armoire informatique de l’usine, au même titre que le serveur ERP ou le serveur de fichiers.

Pour une ETI qui traite des données soumises au secret industriel (plans clients, gammes propriétaires, compositions de mélanges), c’est souvent un prérequis non négociable avant même de parler de performance ou de coût.

Niveau 5 : routing intelligent et orchestration

Pas un modèle, un routing

L’erreur la plus coûteuse dans un déploiement LLM est d’utiliser le même modèle pour tout. Envoyer une question simple (“Quel est le couple de serrage du boulon M8 ?”) à un modèle premium (Claude Opus, GPT-4) revient à envoyer un ingénieur R&D serrer un boulon : le résultat est correct, mais le coût est absurde.

Le routing intelligent consiste à aiguiller chaque requête vers le modèle le plus adapté :

Question factuelle simple → modèle rapide et économique (Haiku, GPT-4o mini, Llama 8B local)
Analyse complexe, raisonnement multi-étapes → modèle frontier (Sonnet, GPT-4o)
Tâche critique, audit ou décision → modèle premium (Opus, o1) avec vérification humaine

Le routing réduit les coûts d’un facteur 3 à 5 en moyenne, sans dégradation perceptible de la qualité, parce que 80 % des requêtes en contexte industriel sont des questions simples qui n’ont pas besoin d’un modèle à 70 euros le million de tokens.

L’orchestration MCP : brancher le LLM sur les outils métier

Un modèle de langage qui ne fait que répondre à des questions est un moteur de recherche amélioré. La valeur se démultiplie quand le modèle peut agir : lire un enregistrement dans l’ERP, écrire un rapport dans la GMAO, déclencher une alerte dans le système qualité, interroger une base de données de mesures.

Le Model Context Protocol (MCP) est un standard ouvert qui permet de connecter un LLM à des outils externes de manière structurée. Chaque outil expose une interface que le modèle peut appeler. Le LLM n’accède pas directement aux systèmes — il passe par une couche d’abstraction qui contrôle les permissions, journalise les actions, et impose des garde-fous.

Concrètement, un technicien de maintenance demande : “Quelles sont les interventions en retard sur les machines de l’atelier B ?” Le LLM interroge la GMAO via MCP, récupère la liste, la met en forme, et propose un ordre de priorité basé sur la criticité des machines. Pas de copier-coller entre deux logiciels. Pas de formation à une interface de plus. L’interaction se fait en langage naturel.

Les agents : le LLM qui exécute

L’agent est un LLM qui ne se contente pas de répondre : il planifie une séquence d’actions, les exécute, vérifie les résultats, et ajuste sa stratégie. Un agent de diagnostic qualité peut : (1) lire les dernières mesures SPC, (2) identifier une dérive, (3) chercher dans l’historique des cas similaires, (4) proposer des actions correctives, (5) pré-remplir la fiche de non-conformité dans le système qualité. Chaque étape est une action réelle, pas juste du texte.

Le concept d’agent est la frontière actuelle de l’optimisation LLM. Son déploiement en production industrielle nécessite des garde-fous solides : permissions granulaires, validation humaine sur les actions critiques, journalisation complète. Mais le potentiel d’automatisation est considérable.

L’arbre de décision LLM pour une ETI

Le choix du bon niveau d’optimisation dépend de trois variables : le budget, la sensibilité des données, et le volume de traitement. Voici un arbre de décision simplifié.

Budget inférieur à 500 euros par mois → Prompt engineering structuré + API cloud avec un modèle économique (Haiku, GPT-4o mini, Gemini Flash). Le ROI est immédiat et le risque nul. C’est par là qu’il faut commencer dans tous les cas.

Budget entre 500 et 2 000 euros par mois → RAG sur la base documentaire interne + API cloud. Le modèle répond en s’appuyant sur les documents de l’entreprise. La qualité fait un bond significatif par rapport au prompt engineering seul.

Budget supérieur à 2 000 euros par mois, ou données sensibles → Déploiement on-premise avec un modèle open source (Llama, Mistral) sur du hardware dédié (RTX 4090 ou Mac Mini M4). Les données ne sortent plus du périmètre. Le coût marginal par requête tombe à zéro après l’investissement initial.

Vocabulaire très métier, format de réponse spécifique → Fine-tuning LoRA sur un modèle open source, avec 500 à 5 000 paires d’entraînement issues des données historiques de l’entreprise. Se combine avec le RAG et le déploiement on-premise.

Volume supérieur à 1 million de tokens par jour → Routing intelligent (modèle économique pour les requêtes simples, modèle puissant pour les requêtes complexes) + batching des requêtes + cache sémantique pour les questions récurrentes. La combinaison de ces trois techniques réduit le coût unitaire d’un facteur 5 à 10.

Ces niveaux ne sont pas exclusifs. La configuration la plus efficace pour une ETI mature combine généralement le prompt engineering (toujours), le RAG (sur le corpus documentaire), le routing (pour optimiser les coûts), et soit le cloud soit le on-premise selon la politique de données.

Pourquoi l’agnosticisme est la seule stratégie durable

Le marché des modèles de langage est le plus instable de l’histoire de l’informatique d’entreprise. Les prix changent tous les trimestres. Les modèles sont remplacés tous les six mois. Le leader de janvier n’est plus le leader de juillet. GPT-4 dominait en 2023, Claude Sonnet a pris l’avantage sur de nombreux benchmarks en 2024, Gemini et les modèles open source comblent l’écart en 2025-2026. Mistral, DeepSeek, Qwen ajoutent de la pression concurrentielle chaque mois.

Dans ce contexte, se lier à un fournisseur unique est un risque stratégique majeur. C’est l’équivalent numérique de la dépendance à un fournisseur unique de matière première : tant que tout va bien, on ne voit pas le problème. Le jour où les prix augmentent de 50 %, où le modèle est déprécié sans préavis, ou où les conditions d’utilisation changent, il est trop tard pour changer.

Changer de modèle — passer de Claude à GPT, de GPT à Llama, du cloud au local — doit être une opération de configuration, pas un projet de développement. Si le remplacement du modèle prend plus d’une journée, l’architecture est couplée et le risque de lock-in est réel.

Les trois niveaux d'agnosticisme

L'agnosticisme s'applique au choix du modèle (pouvoir en changer), au choix du fournisseur cloud (pouvoir en changer), et au choix du mode de déploiement (pouvoir passer du cloud au local et inversement). Une ETI qui maîtrise ces trois degrés de liberté est en position de force.

Ce que BCUB3 fait concrètement

BCUB3 est un intégrateur IA français, agnostique, spécialisé dans l’accompagnement des ETI industrielles. Agnostique signifie qu’aucun fournisseur n’est recommandé par défaut : le choix du modèle, de l’infrastructure et de l’architecture découle de l’analyse du besoin, pas d’un partenariat commercial.

Audit maturité IA. Un diagnostic de 2 à 5 jours qui évalue où en est l’ETI dans son adoption de l’IA, identifie les cas d’usage à plus fort impact, et chiffre les quick wins. Le livrable est une feuille de route priorisée avec un ROI estimé par cas d’usage.

POC en 4 semaines. Un cas d’usage concret — par exemple un assistant qualité avec RAG sur la documentation technique — est mis en production en quatre semaines. Le livrable n’est pas un prototype de démonstration : c’est un outil fonctionnel, testé par les utilisateurs finaux, avec des métriques de performance mesurées.

Transfert de compétences. L’objectif est que les équipes du client maintiennent et fassent évoluer le système après l’intervention. L’intégrateur part, le système reste. C’est la différence entre un prestataire qui crée de la dépendance et un intégrateur qui crée de l’autonomie.

Pour aller plus loin

Ressources techniques

Contact

Pour un audit maturité IA ou un POC sur un cas d’usage concret : contact BCUB3.

5 niveaux d’optimisation LLM — du prompt engineering au routing intelligent.

Pourquoi optimiser un LLM (et pourquoi pas juste utiliser ChatGPT)

Niveau 1 : prompt engineering — 0 euro, impact immédiat

Le system prompt : le cahier des charges du modèle

Le few-shot : montrer avant de demander

Le chain-of-thought : forcer le raisonnement

Le formatage de sortie : imposer la structure

Exemples industriels concrets

Niveau 2 : RAG — le modèle qui cherche dans vos documents (1 à 5 K euros)

Le principe

Le pipeline technique

Quand utiliser le RAG

L’avantage souverain

Le piège du chunking

Exemple concret

Niveau 3 : fine-tuning LoRA/QLoRA (500 à 2 000 euros)

Quand le RAG ne suffit pas

LoRA : adapter 0,1 % du modèle, pas 100 %

Les données nécessaires

Modèles recommandés pour le fine-tuning

Coût compute

Exemple concret

Niveau 4 : quantization et déploiement on-premise (3 à 7 K euros hardware)

La quantization : diviser la mémoire par quatre

Le stack d’inférence locale

Dimensionnement hardware

La souveraineté complète

Niveau 5 : routing intelligent et orchestration

Pas un modèle, un routing

L’orchestration MCP : brancher le LLM sur les outils métier

Les agents : le LLM qui exécute

L’arbre de décision LLM pour une ETI

Pourquoi l’agnosticisme est la seule stratégie durable

Ce que BCUB3 fait concrètement

Pour aller plus loin

Articles liés

Ressources techniques

Contact