Écrit par



Quand un zero-shot, même bien construit, ne suffit pas à stabiliser la sortie d’une IA, le passage au few-shot débloque des résultats spectaculaires. La technique consiste à donner deux à huit exemples (entrée + sortie attendue) avant la vraie question. Sur les tâches structurées (classification, extraction, transformation de format), trois à cinq exemples bien choisis battent souvent des heures de retravail de prompt. Ce guide explique comment construire un bon few-shot, comment choisir et ordonner les exemples, comment A/B tester vos prompts, et arbitre les cas où le few-shot fait toute la différence par rapport au zero-shot.
Cet article est l’approfondissement few-shot du cluster prompt engineering. Pour la vue d’ensemble comparée des trois régimes, voir notre hub zero-shot/one-shot/few-shot. Pour le pendant zero-shot en profondeur, voir Zero-shot prompting : le guide complet.
En bref
- Le few-shot consiste à donner 2 à 8 exemples avant votre vraie question. C’est la technique scientifiquement la plus étudiée depuis Brown et al. 2020 (GPT-3, NeurIPS).
- Le one-shot (1 exemple) est un cas particulier du few-shot, utile quand le format de sortie est précis ou le ton spécifique.
- Les expérimentations Brown et al. montrent que les gains principaux se réalisent entre 1 et 8 exemples, puis s’aplatissent. Au-delà de 8, vous payez le coût en tokens sans gain proportionnel.
- Trois leviers font la différence entre un few-shot médiocre et un few-shot solide : le choix des exemples (diversité, frontières), leur ordre (le dernier pèse plus), et la cohérence du format entre les exemples.
- Sur les tâches structurées (classification, extraction, transformation), le few-shot atteint des taux de réussite que le zero-shot n’égale pas, même avec une instruction parfaite.
- Pour structurer la maîtrise du few-shot dans vos équipes, découvrez notre parcours avancé de prompt engineering en entreprise.
Le zero-shot s’appuie sur une instruction et la connaissance générale du modèle. Le few-shot ajoute une chose qui change tout : des exemples démonstratifs qui montrent à l’IA exactement la sortie attendue. Cette démonstration sert deux fonctions simultanément :
Cette transmission par l’exemple est ce que Brown et al. 2020 ont théorisé sous le nom d’In-Context Learning : le modèle « apprend » à exécuter la tâche directement à partir des exemples placés dans le prompt, sans aucune mise à jour de ses poids. Pour la vue d’ensemble historique et théorique de cette découverte, voir notre hub comparatif zero-shot/one-shot/few-shot.
Tentative zero-shot :
Classe chaque retour client en {satisfait, neutre, insatisfait} et extrais le sujet principal. Retour : « Le produit est de qualité mais l’emballage abîmé à la réception, dommage »
Le modèle peut répondre de mille manières : une phrase explicative, un tableau, un JSON, deux catégories à la fois. Le résultat n’est pas stable d’une exécution à l’autre.
Few-shot avec 3 exemples :
Classe chaque retour client en {satisfait, neutre, insatisfait} et extrais le sujet principal.
Exemple 1 : Entrée : « La livraison était rapide mais le produit ne correspond pas à la description sur le site » Sortie : {classification: insatisfait, sujet: description_produit}
Exemple 2 : Entrée : « Service correct, rien à signaler, je rachèterai probablement » Sortie : {classification: neutre, sujet: experience_generale}
Exemple 3 : Entrée : « Excellent suivi par le conseiller, qui a répondu à toutes mes questions en moins de 2 heures » Sortie : {classification: satisfait, sujet: service_client}
À traiter : Entrée : « Le produit est de qualité mais l’emballage abîmé à la réception, dommage »
Le format est fixé, les catégories sont illustrées, le modèle applique la grille à la nouvelle entrée. La sortie est stable, parsable, exploitable directement par un script.
Le secret d’un bon few-shot n’est pas le nombre d’exemples, c’est leur choix. Trois à cinq exemples bien sélectionnés battent dix exemples pris au hasard. Voici les cinq règles qui distinguent une bibliothèque d’exemples solide d’une collection bricolée.
Vos exemples doivent couvrir les différents cas que la tâche réelle va rencontrer. Pour une classification en trois catégories, donnez au moins un exemple par catégorie. Pour une extraction d’entités, donnez au moins un exemple avec entité présente et un exemple sans entité (cas vide).
Erreur classique : trois exemples qui appartiennent tous à la même catégorie. Le modèle généralise « tout est de cette catégorie » et plante sur les autres.
Au-delà des cas centraux, donner un exemple qui illustre la frontière entre catégories aide énormément. Pour une classification {satisfait, neutre, insatisfait}, un retour mixte (qualité positive, service négatif) montré explicitement avec sa classification permet au modèle d’apprendre comment trancher dans les cas ambigus.
Tous les exemples doivent avoir exactement la même structure : même format d’entrée, même format de sortie, même nommage des champs, même conventions de ponctuation. Une incohérence formelle (un exemple en JSON, un autre en bullet, un autre en prose) confond le modèle et il choisit le format de l’un des trois sans logique apparente.
Si tous vos exemples partagent une caractéristique non pertinente (toujours des hommes, toujours des entreprises tech, toujours des phrases courtes, toujours des problèmes urgents), le modèle généralise ces traits comme s’ils faisaient partie de la tâche. Vérifiez que vos exemples sont diversifiés sur les dimensions accessoires qui ne sont pas le sujet de la tâche.
Les exemples inventés fonctionnent à condition d’être réalistes. Évitez les exemples caricaturaux qui sortent de la distribution réelle de vos cas. Si vos retours clients réels font 2 à 5 phrases, ne mettez pas un exemple de 12 phrases qui détaillerait toute une histoire : le modèle pourrait apprendre à produire des sorties très longues qui ne correspondent pas à votre besoin.
L’ordre des exemples dans le prompt a un impact mesurable sur la sortie. Deux règles ressortent de la pratique et de la littérature.
Les modèles modernes ont un biais de récence : le dernier exemple a tendance à influencer plus fortement la sortie que les premiers. Placez votre exemple le plus représentatif en dernière position. Si vous avez 3 exemples dont un cas frontière, mettez le cas central en premier, le cas extrême en deuxième, et le cas frontière en dernier (parce que c’est lui qui contient le plus d’information sur la frontière de décision).
Pour les tâches de classification, alterner les classes (exemple A, exemple B, exemple C, exemple A, exemple B…) aide le modèle à apprendre la frontière entre classes plutôt qu’une séquence de classes. Si vous groupez (AAA, BBB, CCC), le modèle peut interpréter la dernière classe comme prioritaire.
Brown et al. 2020 ont mesuré l’effet du nombre d’exemples sur la performance, et la courbe est claire : les gains principaux se réalisent entre 1 et 8 exemples, puis s’aplatissent significativement. Sur GPT-3, la saturation arrive entre 16 et 32 exemples ; sur les modèles modernes plus grands, elle arrive plus tôt encore.
Règle pratique 2026 :
Une fois que vous avez plusieurs versions d’un few-shot prompt qui pourraient marcher, comment choisir la meilleure ? L’A/B test de prompt suit une méthodologie simple.
Étape 1 : préparer un jeu de test de référence. Sélectionnez 20 à 50 cas réels représentatifs de votre usage. Pour chaque cas, notez la sortie attendue (ce qu’un humain expert ferait).
Étape 2 : exécuter chaque version du prompt sur le jeu de test. Notez la sortie obtenue pour chaque cas.
Étape 3 : comparer les sorties. Pour les tâches structurées (classification, extraction), comparez avec un score d’exactitude. Pour les tâches ouvertes (rédaction, reformulation), demandez à un humain expert de noter chaque sortie sur une grille (qualité du fond, format, ton, longueur).
Étape 4 : choisir la version qui maximise le score sur le jeu de test. Vérifiez aussi la variance : une version avec 80 % de bonnes réponses régulières est préférable à une version avec 85 % de moyenne mais 50 % au pire des cas.
Étape 5 : maintenir le jeu de test à jour. Les modèles évoluent, vos cas d’usage aussi. Refaites le test trimestriellement pour vérifier que votre prompt vieillit bien.
Pour les usages industriels, des outils dédiés (LangSmith, PromptLayer, Helicone) automatisent cette méthodologie et permettent de versionner les prompts comme du code.
Quand votre tâche demande à la fois un format précis et un raisonnement chaîné, vous pouvez combiner le few-shot et le Chain-of-Thought en un seul prompt : c’est le Few-shot CoT introduit par Wei et al. 2022. Vos exemples montrent à la fois la bonne réponse et le raisonnement étape par étape qui y mène.
Exemple Few-shot CoT : Q : Roger a 5 balles de tennis. Il achète 2 paquets de 3 balles. Combien a-t-il de balles ? R : Roger commence avec 5 balles. 2 paquets de 3 balles font 6 balles supplémentaires. 5 + 6 = 11. La réponse est 11.
Q : La cantine avait 23 pommes. Elle en a utilisé 20 et en a racheté 6. Combien lui en reste-t-il ? R : [le modèle produira un raisonnement chaîné similaire avant la réponse]
Cette technique combine la fiabilité de format du few-shot et la fiabilité de raisonnement du CoT. Elle est précieuse pour les usages où vous voulez à la fois auditer la chaîne de raisonnement et garantir un format structuré pour la post-exploitation. Pour le détail complet du Chain-of-Thought, ses gains documentés et ses cas d’usage, voir notre guide Chain-of-Thought (CoT).
Pour automatiser le tri de centaines d’emails commerciaux entrants, un few-shot avec 3 exemples couvrant les cas typiques (demande de devis, demande SAV, prospection entrante) et leur extraction structurée (intention, urgence, montant, contact) permet de traiter 90 à 95 % des emails standards de manière fiable. L’investissement de 10 à 20 minutes pour rédiger le prompt initial se rentabilise dès la première heure d’utilisation en production.
Pour classer automatiquement les tickets support entrants par priorité, par catégorie et par équipe destinataire, un few-shot avec 4 à 6 exemples couvrant les principales combinaisons fournit une grille fiable. Cette technique évite de re-décrire textuellement la grille de catégorisation à chaque évolution : il suffit d’ajouter ou de modifier un exemple.
Pour adapter systématiquement des contenus au ton et au vocabulaire de votre organisation, un one-shot bien choisi (un texte source long + sa version réécrite en voix de marque) suffit souvent à transmettre les règles implicites de longueur de phrase, registre, vocabulaire à privilégier et expressions à éviter. Plus précis qu’un guide de style textuel de 500 mots, plus rapide à déployer.
Pour produire des banques de questions stylistiquement homogènes, donner deux ou trois QCM modèles (formulation, niveau de difficulté, typologie de distracteurs) permet au modèle de produire des QCM cohérents avec votre style maison. Cette technique combine bien avec les méthodologies de notre guide pour évaluer les apprenants avec l’IA.
Piège 1 : trop d’exemples noient le signal. Au-delà de 8 exemples, vous payez le coût sans gain. Sur des prompts très longs, certains modèles « oublient » les premiers exemples. Plafonnez et privilégiez la qualité du choix sur la quantité.
Piège 2 : exemples redondants. Trois exemples qui illustrent exactement la même catégorie ou la même structure ne valent qu’un. Vérifiez que chacun de vos exemples apporte une information distincte (catégorie, frontière, format).
Piège 3 : conflit entre exemples et instruction. Si vos exemples montrent un format A et que votre instruction décrit un format B, le modèle suit les exemples plutôt que les consignes. En cas de conflit, modifiez les exemples ou supprimez l’instruction contradictoire.
Piège 4 : exemples consommant trop de contexte. Chaque exemple consomme des tokens d’entrée. Sur un prompt déjà chargé (long document à traiter), les exemples occupent une part significative de la fenêtre de contexte disponible. Si votre tâche est sur de longues entrées, simplifiez les exemples au strict nécessaire.
Piège 5 : exemples qui datent. Un prompt few-shot construit il y a 18 mois sur un modèle de génération précédente peut sous-performer aujourd’hui. Réaudit ez vos prompts trimestriellement ou à chaque montée de version majeure du modèle utilisé.
Le few-shot couvre l’essentiel des tâches structurées. Trois situations restantes appellent des techniques plus avancées :
Raisonnement multi-étapes complexe : quand la tâche demande plusieurs étapes de calcul, d’inférence ou de causalité, basculez vers le few-shot CoT (voir ci-dessus) ou vers les techniques multi-chain. Voir notre guide Tree-of-Thought, Self-Consistency, Self-Ask.
Fiabilité critique : quand vous ne pouvez pas vous permettre une erreur sur la sortie, complétez le few-shot par du Self-Consistency (échantillonnage multiple avec vote majoritaire). Voir le même guide Tree-of-Thought, Self-Consistency, Self-Ask.
Volume très massif et coût d’inférence dominant : quand vous traitez des centaines de milliers de requêtes par mois sur la même tâche, le fine-tuning d’un modèle plus petit peut devenir économiquement plus intéressant que le few-shot répété. Le few-shot reste cependant la voie d’entrée naturelle : on commence en few-shot pour valider l’usage, on fine-tune ensuite si le volume le justifie.
La maîtrise du few-shot transforme la nature des tâches qu’on peut confier à l’IA en entreprise. Sans few-shot, l’IA reste un outil de réponse ad hoc. Avec un few-shot bien construit, on configure de véritables assistants spécialisés qui traitent des centaines de cas dans la cohérence d’une grille définie en amont.
Chez Proactive Academy, nos parcours de prompt engineering avancé consacrent une journée entière à la pratique du few-shot avec construction de bibliothèques d’exemples sur des cas métier réels apportés par les participants. Cette pratique guidée distingue les utilisateurs qui posent des questions à ChatGPT des utilisateurs qui industrialisent une tâche. Pour structurer cette montée en compétence avancée dans vos équipes, découvrez notre parcours avancé de prompt engineering en entreprise.
Règle de base : 3 à 5 dans 70 % des cas. Commencez à 3, ajoutez-en jusqu’à 8 si la sortie n’est pas stable, plafonnez à 8. Au-delà, vous payez le coût en tokens sans gain proportionnel et vous risquez l’oubli des premiers exemples sur des prompts longs.
Les deux fonctionnent, à condition que les exemples soient réalistes et cohérents avec la distribution de vos cas. Des exemples inventés représentatifs valent autant que des exemples extraits de vos vraies données. Évitez les exemples caricaturaux qui sortiraient de votre distribution réelle.
Pour 95 % des usages courants en entreprise, oui. Le few-shot coûte zéro euro en entraînement et se met à jour en quelques minutes. Le fine-tuning reste utile sur les usages à très gros volume où le coût d’inférence cumulé du few-shot dépasse celui d’un modèle fine-tuné, ou quand la régularité comportementale parfaite est critique.
Oui, modérément. Sur les modèles modernes, le dernier exemple pèse plus que les premiers. Placez votre exemple le plus représentatif en dernier. Pour les tâches de classification, alternez les classes plutôt que de les grouper.
Sur les grands modèles modernes (GPT-4 et au-delà, Claude 3 et au-delà, Gemini 1.5 et au-delà, Mistral Large), le few-shot fonctionne très bien. Sur les petits modèles open source en local (moins de 13 milliards de paramètres), les gains sont plus limités, et le fine-tuning peut être préférable.
Trois leviers : (1) diversifiez vos exemples sur les dimensions accessoires pour éviter la généralisation accidentelle ; (2) ajoutez une consigne explicite « Voici N exemples qui illustrent le format attendu. Produisez une réponse dans ce format pour le nouveau cas, sans réutiliser le contenu des exemples. » ; (3) testez votre prompt sur 20 cas réels pour vérifier que vous n’observez pas de fuites de contenu.
Oui, et c’est même le few-shot CoT formel : vos exemples incluent une réponse précédée d’un raisonnement étape par étape. Cette combinaison stabilise à la fois le format de sortie et la qualité du raisonnement. Voir notre guide Chain-of-Thought.
Oui. Pour les usages personnels et équipes, un simple document partagé suffit largement au début. Pour les usages industriels, les outils LangSmith, PromptLayer ou Helicone permettent de versionner, A/B tester et monitorer les prompts comme du code. Le bon moment pour passer à un outil dédié : quand vous gérez plus de 10 prompts en production avec plusieurs personnes qui les modifient.
Le few-shot prompting reste la technique la plus rentable du prompt engineering pour les tâches structurées. Trois à cinq exemples bien choisis, bien ordonnés et cohérents formellement transforment des sorties hasardeuses en sorties exploitables en production. Pour la vue comparative complète avec les autres régimes, voir notre hub zero-shot/one-shot/few-shot. Pour le pendant sans exemple, voir Zero-shot prompting : le guide complet. Pour structurer la maîtrise du few-shot dans vos équipes, découvrez notre parcours avancé de prompt engineering en entreprise.
Laisser un commentaire