Écrit par



En janvier 2022, une équipe de chercheurs de Google publie un papier qui va modifier durablement la pratique du prompt engineering. Jason Wei et ses co-auteurs démontrent qu’en demandant aux grands modèles de langage de raisonner étape par étape avant de répondre, leur performance sur les problèmes complexes explose. Le Chain-of-Thought prompting est né, et avec lui une famille de techniques qui structurent aujourd’hui les usages avancés de ChatGPT, Claude, Gemini et Mistral. Ce guide explique l’origine scientifique de CoT, donne des exemples concrets de la technique, présente sa variante zero-shot signée Kojima (« Let’s think step by step ») et arbitre quand utiliser CoT en 2026.
Cet article fait partie de notre cluster prompt engineering. Pour les bases d’in-context learning, voir notre guide zero-shot, one-shot, few-shot. Pour les architectures multi-chain qui prolongent CoT, voir notre guide Tree-of-Thought, Self-Consistency, Self-Ask.
En bref
- Chain-of-Thought (CoT) consiste à demander à l’IA de produire un raisonnement étape par étape avant de donner sa réponse finale.
- Origine scientifique : Wei et al. 2022 « Chain-of-Thought Prompting Elicits Reasoning in Large Language Models », NeurIPS 2022.
- Sur GSM8K (problèmes de mathématiques), PaLM 540B avec 8 exemples CoT atteint un nouvel état de l’art, dépassant même un GPT-3 fine-tuné avec vérificateur.
- Variante zero-shot : Kojima et al. 2022 montrent qu’ajouter « Let’s think step by step » fait passer MultiArith de 17,7 % à 78,7 % de bonnes réponses sur GPT-3.
- Limite documentée : CoT n’émerge qu’à partir d’une certaine taille de modèle (typiquement 100 milliards de paramètres ou plus). Sur les petits modèles, CoT n’aide pas ou dégrade les performances.
- Pour structurer la montée en compétence de vos équipes sur ces techniques, découvrez notre formation à la pratique avancée du prompt engineering.
L’intuition de Wei et al. est simple. Quand un être humain résout un problème de mathématiques, il décompose le problème en étapes, calcule intermédiaire par intermédiaire, et arrive à la réponse finale. Les grands modèles de langage, eux, ont tendance à produire directement la réponse sans expliciter le raisonnement. Cette stratégie marche pour les problèmes faciles mais échoue sur les problèmes qui demandent plusieurs étapes de raisonnement.
L’astuce du Chain-of-Thought : reformuler les exemples du prompt few-shot pour qu’ils incluent à la fois la bonne réponse et le raisonnement complet qui y mène. Le modèle apprend en contexte que la sortie attendue est une chaîne de raisonnement suivie de la réponse, et il applique le même format à la question posée.
Few-shot standard (sans CoT) :
Q : Roger a 5 balles de tennis. Il achète 2 paquets de 3 balles. Combien a-t-il de balles ? R : 11
Q : La cantine avait 23 pommes. Elle en a utilisé 20 pour préparer le déjeuner et en a racheté 6. Combien a-t-elle de pommes maintenant ? R :
Le modèle répond directement « 9 ». Sur un problème simple, cela marche. Sur un problème plus complexe, le taux d’erreur explose.
Few-shot CoT (avec raisonnement) :
Q : Roger a 5 balles de tennis. Il achète 2 paquets de 3 balles. Combien a-t-il de balles ? R : Roger commence avec 5 balles. 2 paquets de 3 balles font 6 balles supplémentaires. 5 + 6 = 11. La réponse est 11.
Q : La cantine avait 23 pommes. Elle en a utilisé 20 pour préparer le déjeuner et en a racheté 6. Combien a-t-elle de pommes maintenant ? R :
Cette fois, le modèle produit un raisonnement complet : « La cantine commence avec 23 pommes. Elle en utilise 20, il en reste 23 – 20 = 3. Elle rachète 6 pommes. 3 + 6 = 9. La réponse est 9. »
La différence semble cosmétique sur cet exemple simple. Sur les benchmarks de raisonnement complexe, elle est spectaculaire.
Le papier de Wei et al. publié à NeurIPS 2022 mesure les gains de CoT sur trois familles de tâches.
Sur GSM8K, benchmark de problèmes de mathématiques de niveau école primaire, PaLM 540B passe d’une performance médiocre en few-shot standard à un nouvel état de l’art en few-shot CoT, dépassant même un GPT-3 fine-tuné avec un vérificateur de bonnes réponses. La performance double quasiment sur les modèles les plus grands. Sur SVAMP et MAWPS, deux autres benchmarks de problèmes mathématiques, les gains sont également significatifs.
Plus parlant encore pour mesurer l’apport : sur GSM8K, PaLM-62B avec CoT obtient de meilleurs résultats qu’un PaLM-540B sans CoT. Autrement dit, ajouter le raisonnement étape par étape vaut un facteur 9 d’augmentation de la taille du modèle. Pour un coût de calcul d’inférence largement inférieur.
Sur les benchmarks de raisonnement de sens commun (CSQA, StrategyQA), les gains sont moins marqués mais réels. CoT aide particulièrement sur les questions qui impliquent plusieurs étapes d’inférence (par exemple : « Si je laisse tomber un verre de l’étage, où finit-il ? Réponse : par terre, brisé. »).
Sur les tâches symboliques (concaténer les dernières lettres d’une liste de mots, simuler des lancers de pièces de monnaie successifs), CoT permet de passer d’un taux d’erreur élevé à des performances presque parfaites. Ces tâches sont triviales pour un humain qui prend le temps de poser le problème, et impossibles pour un modèle qui répond directement.
Wei et al. font une observation contre-intuitive : CoT n’aide que sur les grands modèles. Sur les modèles de moins de 60 milliards de paramètres, ajouter un raisonnement étape par étape dans les exemples ne change pas la performance, et peut même la dégrader. Le phénomène est qualifié d’émergent : la capacité à utiliser un raisonnement chaîné apparaît brusquement à partir d’une certaine taille de modèle, sans signe avant-coureur.
Cette observation a deux implications pratiques en 2026 :
Quelques mois après Wei et al., une autre équipe de chercheurs (Takeshi Kojima et collègues, papier NeurIPS 2022) découvre quelque chose de surprenant : on n’a même pas besoin d’exemples de raisonnement dans le prompt pour activer le Chain-of-Thought. Il suffit d’ajouter une phrase courte avant la réponse : « Let’s think step by step. » (« Pensons étape par étape. »).
Cette technique, appelée Zero-shot CoT, transforme un prompt zero-shot ordinaire en prompt avec raisonnement chaîné sans aucun exemple. Le gain mesuré par Kojima et al. est spectaculaire :
Pour le coût d’une seule phrase ajoutée au prompt, vous gagnez des dizaines de points de performance sur les tâches de raisonnement. En 2026, cette technique est massivement intégrée dans les wrappers commerciaux des modèles (OpenAI, Anthropic, Google injectent souvent des variantes de cette consigne dans leurs prompts système), mais ajouter explicitement la consigne reste utile dans vos propres prompts utilisateur.
Kojima et al. ont testé plusieurs variantes, et certaines fonctionnent aussi bien ou mieux que la formule originale selon le contexte :
La règle pratique : choisissez une formulation explicite qui demande la décomposition, sans surcharger le prompt.
La pratique du Chain-of-Thought s’est affinée depuis 2022. Voici les règles opérationnelles qui ressortent de l’usage industriel.
Pour la plupart des problèmes de raisonnement courants en entreprise (calcul, comparaison, analyse de causalité, diagnostic), commencez par ajouter « Réfléchissez étape par étape avant de répondre » à votre prompt zero-shot. Si la qualité est satisfaisante, restez en zero-shot CoT. Vous gagnez un temps significatif en évitant de construire des exemples.
Quand la structure du raisonnement attendu est précise (par exemple un diagnostic médical structuré, une analyse comptable selon une grille définie, une décision juridique selon un raisonnement bien typé), le few-shot CoT avec 2 à 4 exemples de raisonnement complet stabilise la sortie. Cette technique sert aussi de garde-fou pédagogique : elle force le modèle à raisonner selon votre méthode, pas la sienne.
L’erreur typique en few-shot CoT est de sauter les étapes que vous jugez évidentes. Or le modèle ne sait pas ce qui est évident pour vous. Ce qui semble une étape triviale (« il faut convertir l’unité ») devient un manqué récurrent si vous ne l’explicitez pas dans vos exemples.
Toutes les expérimentations scientifiques font ressortir l’importance d’une convention claire pour identifier la réponse finale après le raisonnement. La formule « La réponse est X » à la fin de chaque exemple permet ensuite d’extraire la sortie de manière fiable. Sans cette convention, vous récupérez du texte mêlé où la réponse n’est pas identifiable de manière déterministe.
Sur les problèmes simples, un raisonnement de 2 à 3 lignes suffit. Sur les problèmes complexes, le raisonnement attendu peut atteindre 10 à 20 lignes. Wei et al. notent dans leur papier que les chaînes de raisonnement efficaces sont jusqu’à dix fois plus longues que la réponse elle-même. C’est le coût en tokens à accepter pour gagner en précision.
Pour qu’un agent IA produise une analyse cohérente d’un cas client, le few-shot CoT avec 3 exemples montrant la décomposition (1. identification du problème, 2. catégorisation, 3. recherche dans la base de connaissances, 4. proposition de résolution) stabilise les réponses et permet un audit pas à pas en cas de désaccord. Cette technique est précieuse en environnement réglementé où la traçabilité du raisonnement est exigée.
Pour les modules de formation médicale assistée par IA, le few-shot CoT permet de produire des diagnostics différentiels structurés (1. hypothèses initiales, 2. examens à privilégier, 3. hypothèses à éliminer, 4. diagnostic le plus probable, 5. plan d’action). Le raisonnement explicite sert aussi à former les apprenants par exposition au raisonnement attendu.
Pour une analyse rapide de conformité (RGPD, AI Act, droit du travail), le zero-shot CoT avec consigne « Identifiez d’abord les éléments factuels utiles, puis les règles juridiques applicables, puis appliquez les règles aux faits, puis concluez » produit une analyse exploitable par un juriste pour validation finale. Cette technique réduit le risque d’omission systématique d’une étape.
Pour évaluer une production écrite d’apprenant selon une grille de compétences, le few-shot CoT avec 2 ou 3 exemples d’évaluation détaillée (1. ce qui est attendu, 2. ce qui est présent, 3. ce qui manque, 4. note et justification) produit des évaluations homogènes et auditables. Cette technique combine bien avec notre méthode d’évaluation des apprenants avec l’IA.
CoT n’est pas une baguette magique. Trois limites méritent d’être documentées pour éviter les déceptions.
Limite 1 : CoT n’invente pas de connaissance manquante. Si le modèle ne connaît pas un fait, le raisonnement étape par étape ne va pas le faire apparaître. CoT améliore l’usage de connaissances présentes, il ne crée pas de connaissance. Sur les questions purement factuelles (« quelle est la capitale du Bhoutan ? »), CoT n’apporte rien.
Limite 2 : CoT peut produire des raisonnements plausibles mais faux. Le modèle peut générer une chaîne de raisonnement qui semble cohérente mais contient une erreur logique cachée, et conclure sur une mauvaise réponse. C’est particulièrement vrai sur les problèmes longs où une erreur intermédiaire passe inaperçue. Pour s’en prémunir, la technique de Self-Consistency (échantillonner plusieurs chaînes de raisonnement et garder la réponse majoritaire) apporte une garantie supplémentaire. Voir notre guide Tree-of-Thought, Self-Consistency, Self-Ask.
Limite 3 : CoT coûte en tokens de sortie. Un raisonnement complet peut faire 5 à 10 fois la longueur d’une simple réponse. Sur des usages en volume, cette inflation a un impact économique réel. Sur les usages ponctuels, l’impact est négligeable.
Depuis 2024-2025, OpenAI (modèles o1, o3), Anthropic (Claude 3.7 et au-delà avec mode extended thinking) et DeepSeek (R1) ont commencé à intégrer le Chain-of-Thought directement dans l’entraînement et l’inférence des modèles. Ces modèles dits « raisonnants » produisent une chaîne de raisonnement interne avant de répondre, sans qu’on ait besoin de l’expliciter dans le prompt.
Pour l’utilisateur, cela ne supprime pas l’intérêt de maîtriser CoT. Deux raisons :
La compétence prompt engineering évolue donc plutôt qu’elle ne disparaît. Notre guide zero-shot, one-shot, few-shot couvre les régimes en amont du raisonnement chaîné, et le guide des techniques multi-chain avancées prolonge le présent article sur l’état de l’art post-CoT.
Pour les professionnels qui travaillent avec des IA génératives, maîtriser CoT change la nature des tâches qu’on peut leur confier. Sans CoT, l’IA est utile sur les tâches à raisonnement court (reformuler, résumer, traduire). Avec CoT bien maîtrisé, l’IA devient un partenaire de raisonnement structuré sur les tâches d’analyse, de diagnostic, de comparaison et de décision.
Chez Proactive Academy, nos parcours de formation prompt engineering intègrent une pratique guidée du Chain-of-Thought sur des cas métier réels apportés par les participants. La compétence s’acquiert par la répétition et l’analyse des écarts entre la sortie attendue et la sortie obtenue, pas par la simple lecture d’un guide. Pour structurer cette montée en compétence dans vos équipes, découvrez notre parcours de prompt engineering avancé en entreprise.
Sur les grands modèles modernes (GPT-4, Claude 3 et au-delà, Gemini 1.5 et au-delà, Mistral Large, Llama 3 70B), oui. Sur les petits modèles (moins de 10 milliards de paramètres), les gains sont limités voire négatifs. La capacité de raisonnement chaîné est un phénomène émergent qui apparaît avec la taille du modèle.
CoT est une technique de prompt : c’est vous, utilisateur, qui demandez au modèle de raisonner étape par étape. Un modèle raisonnant (o1, o3, Claude extended thinking, DeepSeek R1) a été entraîné pour raisonner par défaut, sans qu’on le lui demande explicitement. Le résultat se rapproche, le mécanisme diffère, et la pratique du prompt engineering reste utile dans les deux cas pour orienter le raisonnement.
Pour la plupart des tâches courantes en entreprise, le zero-shot CoT (« réfléchissez étape par étape avant de répondre ») suffit. Le few-shot CoT devient utile quand vous voulez imposer une structure de raisonnement précise (une grille d’analyse métier, un format de diagnostic, une méthode propriétaire) que le modèle ne déduit pas spontanément.
Trois causes principales : (1) le modèle ne connaît pas un fait nécessaire au raisonnement (CoT ne crée pas de connaissance), (2) le raisonnement contient une erreur intermédiaire que le modèle n’a pas détectée, (3) le prompt CoT est mal structuré et le modèle invente des étapes plutôt que d’appliquer une méthode claire. La technique de Self-Consistency aide à filtrer les erreurs ; voir notre guide des techniques avancées.
Oui, CoT augmente le nombre de tokens de sortie (le raisonnement complet précède la réponse). Sur un usage ponctuel l’impact est négligeable. Sur un usage en volume avec un coût d’inférence à l’usage, comptez 2 à 5× plus de tokens de sortie qu’une réponse directe.
Oui, et ça fonctionne très bien. Donner un rôle au modèle (« vous êtes un consultant en stratégie ») puis lui demander de raisonner étape par étape combine deux leviers complémentaires : le rôle oriente le registre et la méthodologie, le CoT oriente la structure du raisonnement. Notre guide du role prompting détaille cette combinaison.
Pas vraiment. CoT est conçu pour le raisonnement structuré, pas pour la créativité libre. Sur les tâches créatives (rédaction publicitaire, idéation, narration), l’usage de CoT bride parfois la sortie en la rendant trop méthodique. Pour la créativité, restez sur du zero-shot ou one-shot, avec des consignes de style explicites.
Test pratique : exécutez votre prompt 5 fois sur le même problème. Si les 5 sorties produisent la même réponse finale avec des raisonnements cohérents entre eux, CoT fonctionne. Si vous observez des réponses divergentes, c’est le signal qu’il faut soit retravailler le prompt, soit passer à du Self-Consistency (échantillonnage multiple avec vote majoritaire).
Oui, sur les tâches courtes et purement factuelles (« quelle heure est-il à Tokyo ? », « quelle est la formule chimique de l’eau ? »), CoT n’apporte rien et alourdit le prompt sans bénéfice. Sur les tâches purement créatives, CoT peut brider la qualité de la sortie. Réservez CoT aux tâches de raisonnement structuré qui en bénéficient réellement.
Le Chain-of-Thought reste l’avancée la plus marquante du prompt engineering depuis l’invention de l’in-context learning en 2020. Maîtriser cette technique transforme la manière dont vous utilisez les grands modèles de langage : d’un outil de génération de réponses à un partenaire de raisonnement structuré sur les sujets complexes. Pour aller plus loin, notre guide des techniques avancées Tree-of-Thought, Self-Consistency et Self-Ask couvre l’état de l’art post-CoT publié entre 2022 et 2023. Pour installer ces compétences dans vos équipes, découvrez notre parcours de prompt engineering avancé en entreprise.

16 juin 2026
Intelligence Artificielle – IA


16 juin 2026
Intelligence Artificielle – IA


16 juin 2026
Intelligence Artificielle – IA

Laisser un commentaire