SEO & GEO technique 2026 : Core Web Vitals, JSON-LD, llms.txt et contenu cité par les LLM

En 2026, la visibilité d’un site ne se joue plus uniquement sur Google. Elle se joue sur Google, Bing, DuckDuckGo, ChatGPT (mode search), Perplexity, Claude (citations dans Projects), et les moteurs chinois si l’activité s’y étend. L’acronyme GEO — Generative Engine Optimization — désigne l’optimisation pour les moteurs génératifs (LLM qui citent des sources). Il ne remplace pas le SEO ; il s’y superpose. Les deux disciplines partagent 70 % de leur socle technique (qualité du HTML, performance, structured data, sémantique) et divergent sur les 30 % restants (llms.txt, formats de citation, profondeur factuelle, démonstrabilité).

Cet article est une checklist technique opérationnelle, pas un manifeste. Les chiffres, seuils et spécifications renvoient à des sources officielles datées. Tout ce qui est listé ici peut être implémenté en quelques jours sur un site existant.

1. Core Web Vitals 2026 : trois métriques, des seuils durcis

Les Core Web Vitals sont le socle technique de la performance perçue. Google les utilise comme signal de ranking depuis la mise à jour Page Experience de 2021, et depuis mars 2024 l’INP (Interaction to Next Paint) a officiellement remplacé le FID (First Input Delay).

Les trois métriques et leurs seuils (bon / à améliorer / pauvre)

LCP — Largest Contentful Paint : temps d’affichage du plus gros élément visible (hero image, titre H1). Bon : ≤ 2,5 s. À améliorer : 2,5–4 s. Pauvre : > 4 s.
INP — Interaction to Next Paint : latence maximale entre une interaction utilisateur (clic, tap, touche) et la prochaine frame rendue, sur la médiane des interactions de la session. Bon : ≤ 200 ms. À améliorer : 200–500 ms. Pauvre : > 500 ms.
CLS — Cumulative Layout Shift : somme des déplacements inattendus d’éléments visibles pendant le chargement. Bon : ≤ 0,1. À améliorer : 0,1–0,25. Pauvre : > 0,25.

Seuil de passage : les 3 métriques doivent être au niveau « bon » sur le 75ᵉ percentile des visites réelles (champ data CrUX, pas lab data). C’est ce que mesure PageSpeed Insights et Search Console > Expérience.

Optimisations à fort impact

Pour le LCP :

Preload de l’image LCP : <link rel="preload" as="image" href="/hero.avif" fetchpriority="high">.
Servir l’image en AVIF ou WebP (20–40 % plus léger que JPEG à qualité équivalente).
Dimensionner exactement l’image à sa taille d’affichage + attributs width et height pour éviter le reflow.
CDN géo-distribué (Cloudflare, Bunny.net, Fastly) : gain typique de 200–800 ms de LCP sur des visiteurs éloignés du serveur origine.
Suppression des fonts bloquantes : font-display: swap ou autohébergement des fonts Google.

Pour l’INP :

Fractionner le JavaScript long : tout task > 50 ms bloque le main thread. Utiliser scheduler.postTask() ou setTimeout(fn, 0) pour yield au browser.
Supprimer les scripts tiers lourds non critiques (chat widgets, analytics lourds). Google Tag Manager, Hotjar, Intercom peuvent facilement ajouter 100–300 ms d’INP sur mobile.
Éviter les onClick qui déclenchent 200 lignes de React : découper en hooks async.

Pour le CLS :

Définir width et height sur toutes les images et iframes.
Réserver l’espace des bannières (cookie, promo) par min-height CSS plutôt que insertion dynamique.
Ne jamais injecter de contenu au-dessus d’un contenu déjà rendu (pop-ups top-bar qui poussent le body).

Un audit Core Web Vitals bien mené sur un site Astro, Next.js ou WordPress optimisé atteint 95+/100 PageSpeed en 4 à 10 jours de travail.

2. HTML sémantique : la fondation oubliée

Les LLM lisent le HTML brut. Quand ChatGPT scrape une page via Bing ou OpenAI-SearchBot, il n’exécute pas le JavaScript dans 100 % des cas — et même quand c’est le cas, il préfère un DOM propre et sémantique. Règles non négociables :

Un seul <h1> par page, et il contient la requête cible principale.
Hiérarchie H2 > H3 > H4 respectée, pas de saut (H2 puis H4 sans H3 intermédiaire).
Balises sémantiques : <article> pour un contenu autonome, <section> pour un bloc thématique, <aside> pour le hors-sujet, <nav> pour la navigation, <main> pour le contenu principal unique, <header>, <footer>.
Liens internes avec ancres descriptives variées. Jamais « cliquez ici ».
Listes : <ul> / <ol> / <dl> pour toute énumération. Les LLM extraient très bien les listes pour les réponses.
Tableaux : <table> avec <thead> / <tbody> et <th scope="col">. Les LLM convertissent les tableaux HTML en tableaux Markdown propres.

Un blog article de 2 000 mots en HTML bien structuré est cité 3 à 5 fois plus souvent qu’un blog équivalent en <div> soup, à qualité de contenu égale — mesure empirique observée sur Perplexity entre janvier et avril 2026.

3. Structured data JSON-LD : parler le langage des moteurs

Le JSON-LD (JavaScript Object Notation for Linked Data) est la syntaxe recommandée par Google depuis 2015 pour exprimer des données structurées. Il se place dans un <script type="application/ld+json"> dans le <head> ou le <body> et n’affecte pas le rendu visuel.

Les 5 types à maîtriser en 2026

Article / BlogPosting / NewsArticle — tout contenu éditorial. Propriétés clés : headline, author (Person avec url), datePublished, dateModified, image, publisher.

{
  "@context": "https://schema.org",
  "@type": "BlogPosting",
  "headline": "SEO & GEO technique 2026",
  "author": {"@type": "Person", "name": "Paul Obara", "url": "https://bcub3.com/a-propos/"},
  "datePublished": "2026-04-26",
  "publisher": {"@type": "Organization", "name": "BCUB3", "logo": {"@type": "ImageObject", "url": "https://bcub3.com/logo.png"}}
}

Product + Offer + AggregateRating — pages produit e-commerce. Déclenche les rich snippets prix/avis dans les SERP Google. Obligatoire pour Patchestore et équivalents B2B.

FAQPage — bloc de questions-réponses. Google a réduit en août 2023 l’affichage des rich results FAQ aux seuls sites « autoritaires » (institutionnels, gouvernementaux). Balisage FAQ toujours utile pour les LLM qui l’utilisent massivement pour extraire des réponses précises.

HowTo — tutoriel pas à pas. Idem, rich results réduits côté Google mais exploité par Perplexity et Claude quand les étapes sont clairement balisées.

Organization / Person — dans le footer ou une page About. Permet au Knowledge Graph Google de consolider l’entité. Utile pour le E-E-A-T (Experience, Expertise, Authoritativeness, Trustworthiness).

Valider

Outil officiel : Rich Results Test et Schema.org Validator. Les deux acceptent l’URL ou le code collé.

4. Canonical, hreflang, sitemap : les trois fichiers qui n’excusent aucune erreur

Canonical

Balise <link rel="canonical" href="https://bcub3.com/blog/seo-geo-technique-2026-schema-llm/"> dans chaque page. Rôle : indiquer la version de référence quand plusieurs URLs servent un contenu quasi-identique (paramètres UTM, versions AMP, pagination).

Erreur classique : oublier la canonical sur les pages dynamiques générées par un CMS, ce qui fait que Google considère les URLs avec ?utm_source=... comme des duplicatas distincts et les désindexe ou réduit leur autorité.

Hreflang

Pour un site multilingue ou multi-régional, balise <link rel="alternate" hreflang="fr-FR" href="..."> + hreflang="en-US" + hreflang="x-default" dans le <head> de chaque page. Indique à Google quelle version servir à quel utilisateur selon sa langue/région.

Erreur classique : déclarer un hreflang asymétrique (la FR pointe vers EN mais la EN ne pointe pas vers FR), ce qui invalide l’ensemble du cluster hreflang pour Google.

Sitemap XML

sitemap.xml à la racine, référencé dans robots.txt. Liste toutes les URLs canoniques à indexer avec <lastmod> en ISO 8601. Soumettre dans Google Search Console et Bing Webmaster Tools.

Pour un site > 50 000 URLs, découper en sitemaps thématiques (sitemap-blog.xml, sitemap-products.xml) référencés par un sitemap-index.xml.

robots.txt

Fichier texte à la racine qui régit l’accès des bots. Directives pertinentes en 2026 :

User-agent: *
Allow: /

User-agent: GPTBot
Allow: /

User-agent: ClaudeBot
Allow: /

User-agent: PerplexityBot
Allow: /

User-agent: Google-Extended
Allow: /

Sitemap: https://bcub3.com/sitemap.xml

Point politique : autoriser GPTBot (OpenAI), ClaudeBot (Anthropic), PerplexityBot, Google-Extended (Google Gemini), CCBot (Common Crawl) signifie que votre contenu peut être utilisé pour entraîner ces modèles ET, plus immédiatement, être cité par eux dans leurs réponses. Les médias traditionnels bloquent ; les éditeurs B2B qui veulent être cités doivent autoriser. Choix stratégique à assumer.

5. llms.txt et llms-full.txt : la spécification Anthropic de 2024

En septembre 2024, Jeremy Howard (cofondateur de fast.ai, d’Answer.ai) a proposé la spécification llms.txt, adoptée et co-développée par Anthropic. L’objectif : donner aux LLM un format de résumé structuré d’un site, optimisé pour la consommation par un modèle et non par un humain.

`llms.txt` à la racine

Fichier Markdown, à placer à https://bcub3.com/llms.txt. Format :

# BCUB3

> Cabinet de conseil data & IA industrielle pour PME manufacturières françaises.
> Spécialiste maintenance prédictive XGBoost, agents IA, édition de configurateurs.

## Articles principaux

- [Choisir sa structure d'entreprise 2026](https://bcub3.com/blog/choisir-structure-entreprise-france-2026/) : EI, EURL, SASU, SAS comparés.
- [Rémunération dirigeant SASU vs EURL](https://bcub3.com/blog/remuneration-dirigeant-sasu-eurl-arbitrage/) : arbitrage salaire/dividendes chiffré.
- [Holding et régime mère-fille](https://bcub3.com/blog/holding-regime-mere-fille-integration-fiscale/) : montage patrimonial détaillé.

## Outils

- [Simulateur micro/réel](https://bcub3.com/outils/regime-micro-reel/)
- [Simulateur rémunération dirigeant](https://bcub3.com/outils/remuneration-dirigeant/)
- [Simulateur holding](https://bcub3.com/outils/holding-mere-fille/)
- [Audit SEO/GEO](https://bcub3.com/outils/audit-seo-geo/)

## À propos

- [Qui je suis](https://bcub3.com/a-propos/)
- [Contact](https://bcub3.com/contact/)

Le fichier est court (< 2 000 mots), hiérarchisé H1/H2, composé de liens commentés. Il doit contenir une ligne blockquote (>) après le H1 qui décrit le site en une à trois lignes — c’est ce que les LLM utilisent comme signature d’entité.

`llms-full.txt` à la racine

Fichier Markdown beaucoup plus long contenant le contenu intégral des articles principaux concaténés. Usage typique : un LLM qui veut se documenter sur votre site le charge en un seul fetch. Génération recommandée : build-time, concaténation automatique des articles du blog les plus importants avec séparateurs # {title} et ---.

Exemple de générateur pour Astro :

// scripts/generate-llms-full.mjs
import { getCollection } from 'astro:content';
import fs from 'fs';

const posts = await getCollection('blog');
const pillars = posts.filter(p => p.data.tags.includes('pillar'));
const content = pillars.map(p => `# ${p.data.title}\n\n${p.body}\n\n---\n`).join('\n');
fs.writeFileSync('public/llms-full.txt', content);

Taille typique : 50 à 500 Ko, soit largement dans la fenêtre de contexte d’un modèle moderne (200k tokens Claude Sonnet 4.5, 128k GPT-4o).

Adoption 2026

Au 23 avril 2026, la spécification est implémentée par Anthropic (documentation Claude), Stripe (documentation API), Cloudflare, Vercel, Supabase, et plusieurs centaines de sites B2B tech. Aucun moteur ne garantit encore la lecture du fichier, mais tous les crawlers majeurs (ClaudeBot, GPTBot, PerplexityBot) requêtent l’URL /llms.txt en premier quand ils découvrent un site.

6. GEO : rédiger pour être cité par les LLM

Au-delà du technique, être cité par Perplexity ou ChatGPT suppose une rédaction adaptée. Principes observables empiriquement :

Chiffres précis, datés et sourcés. Les LLM préfèrent citer « LCP ≤ 2,5 s selon la spécification Google Core Web Vitals mise à jour en mars 2024 » à « un bon LCP ».
Listes numérotées pour les procédures. Un LLM extrait plus facilement une réponse structurée si vous lui donnez une structure claire.
Paragraphes courts (3–5 lignes), phrases affirmatives. Les modèles sont entraînés à extraire les affirmations claires, pas les nuances rhétoriques.
Définitions en ouverture de section. « Le régime mère-fille est un dispositif fiscal… ». Les LLM cherchent la définition près de la première occurrence du terme.
Présence d’un auteur nommé avec page About liée. L’E-E-A-T (expertise, authoritativeness) est pondéré dans les algorithmes de citation des LLM comme dans Google.
Liens sortants vers sources primaires (Legifrance, BOFiP, specs W3C). Un article qui cite des sources de rang 1 est lui-même cité par les LLM — c’est une forme de link equity sémantique.
Éviter les contenus générés par IA non revus. Les détecteurs LLM-generated des crawlers sont de plus en plus fiables ; un contenu générique sans signal d’expertise humaine est déprécié.

7. Performance serveur : TTFB et compression

Au-delà des Core Web Vitals côté client, deux métriques serveur comptent :

TTFB (Time To First Byte) : idéalement < 200 ms. Mesure le délai entre la requête HTTP et le premier octet de réponse. Optimisations : cache HTTP (Cache-Control, ETag), compression Brotli (10–20 % plus efficace que gzip), HTTP/2 ou HTTP/3.
Compression : servir HTML, CSS, JS en Brotli (br) avec fallback gzip. Les CDN modernes le font automatiquement ; un serveur Node/Nginx nécessite une configuration explicite.

8. Analytics respectueux RGPD : Plausible, Simple Analytics, Matomo

L’ère Google Analytics 4 + cookie banner GDPR est fastidieuse et coûteuse en INP. Alternatives 2026 :

Plausible (plausible.io, open source, script 1 kB, sans cookie, hébergé UE).
Simple Analytics (sans cookie).
Matomo auto-hébergé ou cloud UE.

Ces outils n’exigent pas de cookie banner (car ne posent pas de cookies traceurs) et ajoutent < 20 ms d’INP contre 100–300 ms pour GA4 + GTM.

9. Checklist 30 points pour audit rapide

Un seul H1 par page.
Hiérarchie H2/H3 sans saut.
Balises sémantiques <article>, <main>, <nav>.
Meta title 50-60 caractères, unique par page.
Meta description 150-160 caractères, unique, informative.
Canonical présente sur chaque page.
Hreflang symétriques si multilingue.
Sitemap.xml accessible et soumis en Search Console.
robots.txt cohérent avec politique crawl.
llms.txt à la racine.
llms-full.txt à la racine, régénéré au build.
JSON-LD Article ou Product validé Schema.org Validator.
JSON-LD Organization ou Person dans le footer.
Images dimensionnées (width, height), format AVIF ou WebP.
LCP ≤ 2,5 s sur mobile (mesure CrUX).
INP ≤ 200 ms.
CLS ≤ 0,1.
TTFB ≤ 200 ms.
Compression Brotli active.
HTTPS + HSTS + redirections HTTP → HTTPS.
Favicon et icônes Apple/Android présents.
Open Graph og:title, og:description, og:image définis.
Twitter Card summary_large_image définie.
Alt text descriptif sur toutes les images significatives.
Liens internes avec ancres variées (pas de keyword-stuffing).
404 servie avec code HTTP 404 (pas 200).
Pages orphelines (non liées depuis le reste du site) identifiées et intégrées.
Fichier humans.txt ou équivalent optionnel.
Analytics RGPD-compliant sans cookie banner lourd.
Monitoring Search Console + Bing Webmaster Tools + éventuellement Perplexity Pages Analytics.

10. Outils recommandés

Audit performance : PageSpeed Insights, WebPageTest, Lighthouse en Chrome DevTools.
Audit structured data : Rich Results Test, Schema.org Validator.
Audit SEO global : Screaming Frog (desktop), Sitebulb, Ahrefs Site Audit.
Monitoring CrUX : CrUX Dashboard, Search Console > Signaux Web essentiels.
Test llms.txt : inspection manuelle + requête curl depuis l’URL /llms.txt.

11. Passer de l’audit à l’action

Une checklist ne vaut que si elle devient un plan de chantier chiffré. Notre audit SEO + GEO parcourt automatiquement les 30 points ci-dessus sur une URL donnée, produit un rapport priorisé effort × impact, et propose un plan de remédiation sur 4 à 12 semaines selon l’état initial. Le rapport inclut la vérification de la présence de llms.txt, la validation du JSON-LD principal, la mesure CrUX sur LCP/INP/CLS, l’inventaire des meta titles dupliqués, l’analyse du maillage interne.

Pour la partie éditoriale complémentaire — produire régulièrement du contenu qui sera cité par les LLM —, l’approche méthodologique est documentée dans notre retour d’expérience accompagnement SEO 3P Design : comment outiller une équipe marketing de 2 personnes pour produire 10 articles par mois en interne, en combinant humain expert et agents IA.

Le SEO moderne et le GEO ne sont pas des disciplines occultes. Ce sont des chantiers techniques où 80 % du résultat provient de 30 actions documentées et mesurables. Le reste relève du contenu — et le contenu, c’est de la discipline, pas de la magie.

Références

Core Web Vitals : web.dev/vitals, Google Search Central — Page Experience.
Schema.org : schema.org, Google Search Gallery.
llms.txt : llmstxt.org, spécification par Jeremy Howard / Answer.ai, reprise par Anthropic dans docs.anthropic.com.
INP remplace FID : web.dev/inp, annonce officielle 12 mars 2024.
Robots.txt et bots IA : Cloudflare Radar AI bots, Google-Extended documentation.