Chain of Thought (CoT) : faire raisonner l'IA étape par étape

En janvier 2022, une équipe de chercheurs de Google publie un papier qui va modifier durablement la pratique du prompt engineering. Jason Wei et ses co-auteurs démontrent qu’en demandant aux grands modèles de langage de raisonner étape par étape avant de répondre, leur performance sur les problèmes complexes explose. Le Chain-of-Thought prompting est né, et avec lui une famille de techniques qui structurent aujourd’hui les usages avancés de ChatGPT, Claude, Gemini et Mistral. Ce guide explique l’origine scientifique de CoT, donne des exemples concrets de la technique, présente sa variante zero-shot signée Kojima (« Let’s think step by step ») et arbitre quand utiliser CoT en 2026.

Cet article fait partie de notre cluster prompt engineering. Pour les bases d’in-context learning, voir notre guide zero-shot, one-shot, few-shot. Pour les architectures multi-chain qui prolongent CoT, voir notre guide Tree-of-Thought, Self-Consistency, Self-Ask.

En bref
Chain-of-Thought (CoT) consiste à demander à l’IA de produire un raisonnement étape par étape avant de donner sa réponse finale.
Origine scientifique : Wei et al. 2022 « Chain-of-Thought Prompting Elicits Reasoning in Large Language Models », NeurIPS 2022.
Sur GSM8K (problèmes de mathématiques), PaLM 540B avec 8 exemples CoT atteint un nouvel état de l’art, dépassant même un GPT-3 fine-tuné avec vérificateur.
Variante zero-shot : Kojima et al. 2022 montrent qu’ajouter « Let’s think step by step » fait passer MultiArith de 17,7 % à 78,7 % de bonnes réponses sur GPT-3.
Limite documentée : CoT n’émerge qu’à partir d’une certaine taille de modèle (typiquement 100 milliards de paramètres ou plus). Sur les petits modèles, CoT n’aide pas ou dégrade les performances.
Pour structurer la montée en compétence de vos équipes sur ces techniques, découvrez notre formation à la pratique avancée du prompt engineering.

L’idée centrale : montrer le raisonnement, pas seulement la réponse

L’intuition de Wei et al. est simple. Quand un être humain résout un problème de mathématiques, il décompose le problème en étapes, calcule intermédiaire par intermédiaire, et arrive à la réponse finale. Les grands modèles de langage, eux, ont tendance à produire directement la réponse sans expliciter le raisonnement. Cette stratégie marche pour les problèmes faciles mais échoue sur les problèmes qui demandent plusieurs étapes de raisonnement.

L’astuce du Chain-of-Thought : reformuler les exemples du prompt few-shot pour qu’ils incluent à la fois la bonne réponse et le raisonnement complet qui y mène. Le modèle apprend en contexte que la sortie attendue est une chaîne de raisonnement suivie de la réponse, et il applique le même format à la question posée.

Comparaison directe : few-shot standard vs few-shot CoT

Few-shot standard (sans CoT) :

Q : Roger a 5 balles de tennis. Il achète 2 paquets de 3 balles. Combien a-t-il de balles ? R : 11
Q : La cantine avait 23 pommes. Elle en a utilisé 20 pour préparer le déjeuner et en a racheté 6. Combien a-t-elle de pommes maintenant ? R :

Le modèle répond directement « 9 ». Sur un problème simple, cela marche. Sur un problème plus complexe, le taux d’erreur explose.

Few-shot CoT (avec raisonnement) :

Q : Roger a 5 balles de tennis. Il achète 2 paquets de 3 balles. Combien a-t-il de balles ? R : Roger commence avec 5 balles. 2 paquets de 3 balles font 6 balles supplémentaires. 5 + 6 = 11. La réponse est 11.
Q : La cantine avait 23 pommes. Elle en a utilisé 20 pour préparer le déjeuner et en a racheté 6. Combien a-t-elle de pommes maintenant ? R :

Cette fois, le modèle produit un raisonnement complet : « La cantine commence avec 23 pommes. Elle en utilise 20, il en reste 23 – 20 = 3. Elle rachète 6 pommes. 3 + 6 = 9. La réponse est 9. »

La différence semble cosmétique sur cet exemple simple. Sur les benchmarks de raisonnement complexe, elle est spectaculaire.

Les gains documentés : ce que dit la recherche

Le papier de Wei et al. publié à NeurIPS 2022 mesure les gains de CoT sur trois familles de tâches.

Raisonnement arithmétique

Sur GSM8K, benchmark de problèmes de mathématiques de niveau école primaire, PaLM 540B passe d’une performance médiocre en few-shot standard à un nouvel état de l’art en few-shot CoT, dépassant même un GPT-3 fine-tuné avec un vérificateur de bonnes réponses. La performance double quasiment sur les modèles les plus grands. Sur SVAMP et MAWPS, deux autres benchmarks de problèmes mathématiques, les gains sont également significatifs.

Plus parlant encore pour mesurer l’apport : sur GSM8K, PaLM-62B avec CoT obtient de meilleurs résultats qu’un PaLM-540B sans CoT. Autrement dit, ajouter le raisonnement étape par étape vaut un facteur 9 d’augmentation de la taille du modèle. Pour un coût de calcul d’inférence largement inférieur.

Raisonnement de sens commun

Sur les benchmarks de raisonnement de sens commun (CSQA, StrategyQA), les gains sont moins marqués mais réels. CoT aide particulièrement sur les questions qui impliquent plusieurs étapes d’inférence (par exemple : « Si je laisse tomber un verre de l’étage, où finit-il ? Réponse : par terre, brisé. »).

Raisonnement symbolique

Sur les tâches symboliques (concaténer les dernières lettres d’une liste de mots, simuler des lancers de pièces de monnaie successifs), CoT permet de passer d’un taux d’erreur élevé à des performances presque parfaites. Ces tâches sont triviales pour un humain qui prend le temps de poser le problème, et impossibles pour un modèle qui répond directement.

La grande condition : la taille du modèle

Wei et al. font une observation contre-intuitive : CoT n’aide que sur les grands modèles. Sur les modèles de moins de 60 milliards de paramètres, ajouter un raisonnement étape par étape dans les exemples ne change pas la performance, et peut même la dégrader. Le phénomène est qualifié d’émergent : la capacité à utiliser un raisonnement chaîné apparaît brusquement à partir d’une certaine taille de modèle, sans signe avant-coureur.

Cette observation a deux implications pratiques en 2026 :

Sur les modèles courants utilisés en entreprise (GPT-4, Claude 3 et au-delà, Gemini 1.5 et au-delà, Mistral Large), CoT fonctionne très bien.
Sur les petits modèles open source que vous pourriez déployer en local pour des raisons de coût ou de confidentialité (modèles de 7B ou 13B paramètres), CoT n’apporte pas les mêmes gains. Pour ces modèles, restez sur du few-shot classique sans raisonnement explicite.

Zero-shot CoT : la phrase magique de Kojima

Quelques mois après Wei et al., une autre équipe de chercheurs (Takeshi Kojima et collègues, papier NeurIPS 2022) découvre quelque chose de surprenant : on n’a même pas besoin d’exemples de raisonnement dans le prompt pour activer le Chain-of-Thought. Il suffit d’ajouter une phrase courte avant la réponse : « Let’s think step by step. » (« Pensons étape par étape. »).

Cette technique, appelée Zero-shot CoT, transforme un prompt zero-shot ordinaire en prompt avec raisonnement chaîné sans aucun exemple. Le gain mesuré par Kojima et al. est spectaculaire :

Sur MultiArith (problèmes mathématiques), GPT-3 text-davinci-002 passe de 17,7 % à 78,7 % de bonnes réponses
Sur GSM8K, le même modèle passe de 10,4 % à 40,7 %

Pour le coût d’une seule phrase ajoutée au prompt, vous gagnez des dizaines de points de performance sur les tâches de raisonnement. En 2026, cette technique est massivement intégrée dans les wrappers commerciaux des modèles (OpenAI, Anthropic, Google injectent souvent des variantes de cette consigne dans leurs prompts système), mais ajouter explicitement la consigne reste utile dans vos propres prompts utilisateur.

Variantes efficaces de la phrase magique

Kojima et al. ont testé plusieurs variantes, et certaines fonctionnent aussi bien ou mieux que la formule originale selon le contexte :

« Let’s think step by step. »
« Let’s think about this logically. »
« First, let’s understand the problem and then solve it step by step. »
En français, des variantes équivalentes : « Réfléchissons étape par étape. » ou « Procédons par étapes. » ou « Avant de répondre, décomposez votre raisonnement. »

La règle pratique : choisissez une formulation explicite qui demande la décomposition, sans surcharger le prompt.

Comment écrire un bon prompt CoT en 2026

La pratique du Chain-of-Thought s’est affinée depuis 2022. Voici les règles opérationnelles qui ressortent de l’usage industriel.

Règle 1 : démarrez en zero-shot CoT

Pour la plupart des problèmes de raisonnement courants en entreprise (calcul, comparaison, analyse de causalité, diagnostic), commencez par ajouter « Réfléchissez étape par étape avant de répondre » à votre prompt zero-shot. Si la qualité est satisfaisante, restez en zero-shot CoT. Vous gagnez un temps significatif en évitant de construire des exemples.

Règle 2 : passez en few-shot CoT si le format de raisonnement compte

Quand la structure du raisonnement attendu est précise (par exemple un diagnostic médical structuré, une analyse comptable selon une grille définie, une décision juridique selon un raisonnement bien typé), le few-shot CoT avec 2 à 4 exemples de raisonnement complet stabilise la sortie. Cette technique sert aussi de garde-fou pédagogique : elle force le modèle à raisonner selon votre méthode, pas la sienne.

Règle 3 : explicitez chaque étape, même les évidentes

L’erreur typique en few-shot CoT est de sauter les étapes que vous jugez évidentes. Or le modèle ne sait pas ce qui est évident pour vous. Ce qui semble une étape triviale (« il faut convertir l’unité ») devient un manqué récurrent si vous ne l’explicitez pas dans vos exemples.

Règle 4 : terminez par une mention claire de la réponse finale

Toutes les expérimentations scientifiques font ressortir l’importance d’une convention claire pour identifier la réponse finale après le raisonnement. La formule « La réponse est X » à la fin de chaque exemple permet ensuite d’extraire la sortie de manière fiable. Sans cette convention, vous récupérez du texte mêlé où la réponse n’est pas identifiable de manière déterministe.

Règle 5 : adaptez la longueur du raisonnement à la complexité

Sur les problèmes simples, un raisonnement de 2 à 3 lignes suffit. Sur les problèmes complexes, le raisonnement attendu peut atteindre 10 à 20 lignes. Wei et al. notent dans leur papier que les chaînes de raisonnement efficaces sont jusqu’à dix fois plus longues que la réponse elle-même. C’est le coût en tokens à accepter pour gagner en précision.

Cas d’usage métier concrets

Cas 1 : analyse de cas client en service après-vente

Pour qu’un agent IA produise une analyse cohérente d’un cas client, le few-shot CoT avec 3 exemples montrant la décomposition (1. identification du problème, 2. catégorisation, 3. recherche dans la base de connaissances, 4. proposition de résolution) stabilise les réponses et permet un audit pas à pas en cas de désaccord. Cette technique est précieuse en environnement réglementé où la traçabilité du raisonnement est exigée.

Cas 2 : diagnostic différentiel en formation médicale

Pour les modules de formation médicale assistée par IA, le few-shot CoT permet de produire des diagnostics différentiels structurés (1. hypothèses initiales, 2. examens à privilégier, 3. hypothèses à éliminer, 4. diagnostic le plus probable, 5. plan d’action). Le raisonnement explicite sert aussi à former les apprenants par exposition au raisonnement attendu.

Cas 3 : analyse juridique de conformité

Pour une analyse rapide de conformité (RGPD, AI Act, droit du travail), le zero-shot CoT avec consigne « Identifiez d’abord les éléments factuels utiles, puis les règles juridiques applicables, puis appliquez les règles aux faits, puis concluez » produit une analyse exploitable par un juriste pour validation finale. Cette technique réduit le risque d’omission systématique d’une étape.

Cas 4 : évaluation pédagogique d’une production d’apprenant

Pour évaluer une production écrite d’apprenant selon une grille de compétences, le few-shot CoT avec 2 ou 3 exemples d’évaluation détaillée (1. ce qui est attendu, 2. ce qui est présent, 3. ce qui manque, 4. note et justification) produit des évaluations homogènes et auditables. Cette technique combine bien avec notre méthode d’évaluation des apprenants avec l’IA.

Limites et pièges du Chain-of-Thought

CoT n’est pas une baguette magique. Trois limites méritent d’être documentées pour éviter les déceptions.

Limite 1 : CoT n’invente pas de connaissance manquante. Si le modèle ne connaît pas un fait, le raisonnement étape par étape ne va pas le faire apparaître. CoT améliore l’usage de connaissances présentes, il ne crée pas de connaissance. Sur les questions purement factuelles (« quelle est la capitale du Bhoutan ? »), CoT n’apporte rien.

Limite 2 : CoT peut produire des raisonnements plausibles mais faux. Le modèle peut générer une chaîne de raisonnement qui semble cohérente mais contient une erreur logique cachée, et conclure sur une mauvaise réponse. C’est particulièrement vrai sur les problèmes longs où une erreur intermédiaire passe inaperçue. Pour s’en prémunir, la technique de Self-Consistency (échantillonner plusieurs chaînes de raisonnement et garder la réponse majoritaire) apporte une garantie supplémentaire. Voir notre guide Tree-of-Thought, Self-Consistency, Self-Ask.

Limite 3 : CoT coûte en tokens de sortie. Un raisonnement complet peut faire 5 à 10 fois la longueur d’une simple réponse. Sur des usages en volume, cette inflation a un impact économique réel. Sur les usages ponctuels, l’impact est négligeable.

CoT et l’évolution des modèles « raisonnants »

Depuis 2024-2025, OpenAI (modèles o1, o3), Anthropic (Claude 3.7 et au-delà avec mode extended thinking) et DeepSeek (R1) ont commencé à intégrer le Chain-of-Thought directement dans l’entraînement et l’inférence des modèles. Ces modèles dits « raisonnants » produisent une chaîne de raisonnement interne avant de répondre, sans qu’on ait besoin de l’expliciter dans le prompt.

Pour l’utilisateur, cela ne supprime pas l’intérêt de maîtriser CoT. Deux raisons :

Sur les modèles non raisonnants (modèles standard, modèles open source, modèles utilisés en local), l’écriture explicite de prompts CoT reste indispensable.
Sur les modèles raisonnants, savoir guider le raisonnement (en lui imposant des étapes spécifiques, une grille de raisonnement métier, ou un point d’attention particulier) reste un levier de qualité majeur.

La compétence prompt engineering évolue donc plutôt qu’elle ne disparaît. Notre guide zero-shot, one-shot, few-shot couvre les régimes en amont du raisonnement chaîné, et le guide des techniques multi-chain avancées prolonge le présent article sur l’état de l’art post-CoT.

Ce que cela change pour vos équipes

Pour les professionnels qui travaillent avec des IA génératives, maîtriser CoT change la nature des tâches qu’on peut leur confier. Sans CoT, l’IA est utile sur les tâches à raisonnement court (reformuler, résumer, traduire). Avec CoT bien maîtrisé, l’IA devient un partenaire de raisonnement structuré sur les tâches d’analyse, de diagnostic, de comparaison et de décision.

Chez Proactive Academy, nos parcours de formation prompt engineering intègrent une pratique guidée du Chain-of-Thought sur des cas métier réels apportés par les participants. La compétence s’acquiert par la répétition et l’analyse des écarts entre la sortie attendue et la sortie obtenue, pas par la simple lecture d’un guide. Pour structurer cette montée en compétence dans vos équipes, découvrez notre parcours de prompt engineering avancé en entreprise.

FAQ : Chain of Thought prompting

Le Chain-of-Thought fonctionne-t-il sur tous les modèles en 2026 ?

Sur les grands modèles modernes (GPT-4, Claude 3 et au-delà, Gemini 1.5 et au-delà, Mistral Large, Llama 3 70B), oui. Sur les petits modèles (moins de 10 milliards de paramètres), les gains sont limités voire négatifs. La capacité de raisonnement chaîné est un phénomène émergent qui apparaît avec la taille du modèle.

Quelle est la différence entre CoT et un modèle « raisonnant » ?

CoT est une technique de prompt : c’est vous, utilisateur, qui demandez au modèle de raisonner étape par étape. Un modèle raisonnant (o1, o3, Claude extended thinking, DeepSeek R1) a été entraîné pour raisonner par défaut, sans qu’on le lui demande explicitement. Le résultat se rapproche, le mécanisme diffère, et la pratique du prompt engineering reste utile dans les deux cas pour orienter le raisonnement.

Le zero-shot CoT suffit-il toujours, ou faut-il du few-shot CoT ?

Pour la plupart des tâches courantes en entreprise, le zero-shot CoT (« réfléchissez étape par étape avant de répondre ») suffit. Le few-shot CoT devient utile quand vous voulez imposer une structure de raisonnement précise (une grille d’analyse métier, un format de diagnostic, une méthode propriétaire) que le modèle ne déduit pas spontanément.

Pourquoi mon CoT produit-il parfois des raisonnements faux ?

Trois causes principales : (1) le modèle ne connaît pas un fait nécessaire au raisonnement (CoT ne crée pas de connaissance), (2) le raisonnement contient une erreur intermédiaire que le modèle n’a pas détectée, (3) le prompt CoT est mal structuré et le modèle invente des étapes plutôt que d’appliquer une méthode claire. La technique de Self-Consistency aide à filtrer les erreurs ; voir notre guide des techniques avancées.

CoT augmente-t-il le coût d’inférence ?

Oui, CoT augmente le nombre de tokens de sortie (le raisonnement complet précède la réponse). Sur un usage ponctuel l’impact est négligeable. Sur un usage en volume avec un coût d’inférence à l’usage, comptez 2 à 5× plus de tokens de sortie qu’une réponse directe.

Peut-on combiner CoT avec le rôle prompting ?

Oui, et ça fonctionne très bien. Donner un rôle au modèle (« vous êtes un consultant en stratégie ») puis lui demander de raisonner étape par étape combine deux leviers complémentaires : le rôle oriente le registre et la méthodologie, le CoT oriente la structure du raisonnement. Notre guide du role prompting détaille cette combinaison.

Le CoT améliore-t-il aussi la créativité ?

Pas vraiment. CoT est conçu pour le raisonnement structuré, pas pour la créativité libre. Sur les tâches créatives (rédaction publicitaire, idéation, narration), l’usage de CoT bride parfois la sortie en la rendant trop méthodique. Pour la créativité, restez sur du zero-shot ou one-shot, avec des consignes de style explicites.

Comment savoir si mon prompt CoT fonctionne ?

Test pratique : exécutez votre prompt 5 fois sur le même problème. Si les 5 sorties produisent la même réponse finale avec des raisonnements cohérents entre eux, CoT fonctionne. Si vous observez des réponses divergentes, c’est le signal qu’il faut soit retravailler le prompt, soit passer à du Self-Consistency (échantillonnage multiple avec vote majoritaire).

Existe-t-il des cas où il vaut mieux éviter CoT ?

Oui, sur les tâches courtes et purement factuelles (« quelle heure est-il à Tokyo ? », « quelle est la formule chimique de l’eau ? »), CoT n’apporte rien et alourdit le prompt sans bénéfice. Sur les tâches purement créatives, CoT peut brider la qualité de la sortie. Réservez CoT aux tâches de raisonnement structuré qui en bénéficient réellement.

Le Chain-of-Thought reste l’avancée la plus marquante du prompt engineering depuis l’invention de l’in-context learning en 2020. Maîtriser cette technique transforme la manière dont vous utilisez les grands modèles de langage : d’un outil de génération de réponses à un partenaire de raisonnement structuré sur les sujets complexes. Pour aller plus loin, notre guide des techniques avancées Tree-of-Thought, Self-Consistency et Self-Ask couvre l’état de l’art post-CoT publié entre 2022 et 2023. Pour installer ces compétences dans vos équipes, découvrez notre parcours de prompt engineering avancé en entreprise.

Chain of Thought (CoT) : faire raisonner l’IA étape par étape