IA et Apprentissage : Révolution Véritable ?

L’apprentissage personnalisé est la promesse la plus répétée de l’IA en éducation. Demandez à n’importe quel chatbot quel est le rôle de l’IA en formation : la personnalisation arrive en tête, immanquablement. Pourtant, entre cette promesse et les preuves, l’écart reste considérable. Depuis 2024, une série d’études contrôlées de grande ampleur a enfin permis de sortir des intuitions : certaines confirment des gains spectaculaires, d’autres documentent des dégâts bien réels. Cet article passe les preuves en revue, des deux côtés, et en tire les conditions concrètes qui séparent un dispositif qui fait apprendre d’un gadget qui fait illusion.

Cet article complète notre guide ChatGPT pour les enseignants et formateurs et notre méthode pour évaluer les apprenants avec l’IA.

En bref
L’étude PNAS 2025 (Wharton/Penn, près de 1 000 lycéens) montre que ChatGPT sans garde-fous améliore la performance de 48 % pendant la pratique, mais la dégrade de 17 % à l’examen une fois l’outil retiré.
La même étude montre que la version configurée en tuteur (indices conçus par l’enseignant) fait gagner 127 % pendant la pratique sans effet négatif ensuite : le design pédagogique change tout.
À Harvard, un tuteur IA conçu sur des principes de pédagogie active a fait progresser des étudiants en physique davantage qu’un cours en pédagogie active classique (essai randomisé, Scientific Reports 2025).
La Banque mondiale a mesuré au Nigeria des gains significatifs d’un tutorat par IA générative encadré par des enseignants, sur six semaines seulement.
Le risque documenté n’est pas l’inefficacité mais la « paresse métacognitive » : l’apprenant délègue la planification et l’auto-évaluation, le travail se fait, la compétence ne se construit pas.
Pour intégrer l’IA dans vos parcours sans tomber dans ces pièges, découvrez notre formation à l’usage raisonné de l’IA générative en pédagogie.

D’où vient le récit de la personnalisation

Avant de regarder les preuves, un détour utile : qui a construit ce récit ? Une analyse publiée par l’UNESCO en octobre 2025 pose la question frontalement. L’apprentissage personnalisé vise à adapter contenu, rythme et modalités à chaque apprenant. L’idée semble anodine, mais elle dissimule des questions rarement examinées : qui décide de ce qui est « personnel » ? Sur quelles données ? Avec quelle conception de l’apprentissage ?

Le récit dominant assimile personnalisation et ajustement algorithmique de la difficulté. Or la recherche en sciences de l’apprentissage rappelle qu’apprendre est aussi un processus social : la confrontation des idées, le regard du pair, la médiation de l’enseignant. Un dispositif qui isole chaque apprenant face à sa machine « personnalisée » peut donc optimiser le confort tout en appauvrissant l’apprentissage. Cette tension traverse toutes les études qui suivent.

Ce que montrent les études positives

Harvard : le tuteur IA bien conçu bat la pédagogie active

L’essai randomisé de Kestin et ses collègues, publié dans Scientific Reports en 2025, est l’un des résultats les plus solides en faveur du tutorat IA. Des étudiants en physique de Harvard ont été répartis entre un cours en pédagogie active (la référence en la matière) et un tuteur IA construit sur les mêmes principes : questionnement, indices progressifs, feedback immédiat. Le groupe IA a appris davantage, en moins de temps, avec un engagement déclaré supérieur.

Le détail qui compte : ce tuteur n’était pas ChatGPT brut. C’était un dispositif conçu par des pédagogues, avec des séquences calibrées et des garde-fous contre la réponse directe. La conclusion n’est donc pas « l’IA bat le professeur », mais « une ingénierie pédagogique solide, servie par l’IA, bat un cours classique ».

Nigeria : des gains mesurés en contexte de pénurie d’enseignants

L’évaluation de la Banque mondiale « From chalkboards to chatbots » a mesuré l’effet d’un programme de tutorat par IA générative au Nigeria : des sessions encadrées par des enseignants, après la classe, sur six semaines. Les gains d’apprentissage mesurés comptent parmi les plus élevés rapportés pour une intervention éducative de cette durée, avec un effet visible jusque dans les résultats scolaires de fin d’année.

Là encore, le dispositif associait IA et médiation humaine : l’enseignant restait présent, guidait les échanges et reprenait la main quand l’outil dérapait. Le contexte compte aussi : dans des systèmes éducatifs en forte tension de ressources, le coût d’opportunité d’un tuteur IA est très différent de celui d’un organisme de formation français.

Les systèmes adaptatifs ont un historique sérieux

Avant les IA génératives, les systèmes de tutorat intelligents (comme MATHia, déjà cité dans la première version de cet article) avaient accumulé des décennies de preuves d’efficacité dans les domaines bien structurés, mathématiques en tête. La nouveauté de 2024-2026 n’est pas l’idée du tutorat machine, c’est sa généralisation à coût marginal quasi nul et son extension aux domaines peu structurés via le langage naturel. Notre article sur l’apprentissage adaptatif retrace cette généalogie.

Ce que montrent les études négatives

L’étude PNAS : la béquille qui empêche de marcher

L’étude de Bastani et ses collègues, publiée dans PNAS en 2025, est devenue la référence du débat, et pour cause : c’est un essai de terrain à grande échelle, mené dans un lycée avec près d’un millier d’élèves en mathématiques, avec un protocole en deux temps qui change tout.

Trois groupes : un accès à une interface ChatGPT standard (« GPT Base »), un accès à une version configurée pour donner des indices conçus par les enseignants plutôt que des réponses (« GPT Tutor »), et un groupe témoin avec manuel et notes. Pendant les séances de pratique assistée, les deux groupes IA surperforment : +48 % pour GPT Base, +127 % pour GPT Tutor.

Puis les chercheurs retirent l’IA et font passer un examen classique. Résultat : les élèves du groupe GPT Base font 17 % de moins que le groupe témoin, qui n’avait jamais eu d’IA. L’explication des auteurs est sans détour : sans garde-fous, les élèves ont utilisé GPT-4 comme une béquille pendant la pratique, et la compétence ne s’est pas construite. Le groupe GPT Tutor, lui, ne montre pas de dégradation.

Une phrase résume l’enseignement : la performance avec l’IA n’est pas l’apprentissage sans l’IA. Toute évaluation d’un dispositif de formation assistée par IA qui mesure la première en croyant mesurer le second se trompe d’objet.

La paresse métacognitive : le mécanisme du dégât

Pourquoi la béquille empêche-t-elle d’apprendre ? Les travaux de Fan et ses collègues (2024) ont donné un nom au mécanisme : la paresse métacognitive. Quand l’IA est disponible, l’apprenant lui délègue les opérations qui rendent l’apprentissage durable : planifier sa démarche, surveiller sa compréhension, évaluer son propre travail. La tâche est accomplie, souvent mieux et plus vite. La capacité, elle, ne se développe pas.

Ce mécanisme explique aussi pourquoi les effets positifs mesurés juste après une intervention s’évaporent parfois : une étude de Corbett et Tangen (2026) a montré qu’un dialogue avec une IA surpassait un texte de réfutation pour faire évoluer les croyances d’étudiants immédiatement après l’intervention, mais qu’à deux mois, l’avantage avait entièrement disparu. La durabilité doit devenir un critère systématique de lecture des études.

Ce que les méta-analyses mesurent (et ne mesurent pas)

Les synthèses qui concluent que « ChatGPT améliore les résultats » agrègent majoritairement des mesures de performance prises pendant ou juste après l’usage de l’outil. Très peu incluent un test différé sans IA. Avant de citer une méta-analyse en comité de direction, une question suffit : la mesure a-t-elle été prise avec ou sans l’outil, et combien de temps après ? C’est exactement la logique de triangulation que nous recommandons dans notre méthode pour évaluer les apprenants avec l’IA.

Les 4 conditions qui séparent le gain du dégât

En croisant ces résultats, quatre conditions reviennent systématiquement du côté des dispositifs qui fonctionnent.

1. Des garde-fous contre la réponse directe. Le tuteur donne des indices, questionne, fait reformuler. Il ne résout pas à la place. C’est la différence entre les +127 % durables de GPT Tutor et les −17 % de GPT Base. Concrètement : prompts système conçus par les pédagogues, et consignes explicites données aux apprenants.

2. Une ingénierie pédagogique préalable. Le tuteur de Harvard gagnait parce qu’il encodait des décennies de recherche sur la pédagogie active. L’IA amplifie la qualité du design qu’on lui donne ; elle n’en crée pas.

3. Une médiation humaine maintenue. Nigeria, Harvard, GPT Tutor : dans tous les cas positifs, un enseignant ou un formateur reste dans la boucle, cadre l’usage et reprend la main. Les dispositifs en autonomie totale concentrent les résultats décevants.

4. Une évaluation sans l’outil, à distance dans le temps. Si votre indicateur de réussite est mesuré avec l’IA disponible, vous mesurez la performance de l’attelage humain-machine, pas la compétence acquise. Les deux sont légitimes, mais il faut savoir lequel on pilote.

Ce que cela change pour la formation professionnelle

Pour un responsable formation ou un ingénieur pédagogique, ces résultats se traduisent en décisions concrètes.

Distinguer deux objectifs qui s’opposent parfois. Former à produire avec l’IA (la compétence outillée, celle que vise une certification comme la RS6776) et former une compétence qui doit tenir sans l’IA (un raisonnement clinique, une négociation, un calcul de marge) ne se conçoivent pas de la même façon. Dans le premier cas, l’IA est l’objet de la formation. Dans le second, son usage non encadré pendant l’entraînement peut détruire ce qu’on cherche à construire.

Écrire les garde-fous dans le cahier des charges. Si vous achetez ou concevez un dispositif adaptatif, exigez de voir les prompts système, le comportement face à une demande de réponse directe, et les données d’évaluation différée. Un prestataire qui ne montre que des mesures de satisfaction et de performance immédiate ne prouve rien sur l’apprentissage.

Garder le formateur au centre. Toutes les preuves convergent : l’IA performe en second rôle, derrière une intention pédagogique humaine. Le budget de formation des formateurs n’est pas une ligne annexe du projet IA, c’en est la condition de réussite. C’est l’angle que nous développons dans notre guide pour tirer parti de l’IA en formation professionnelle.

Instrumenter la durabilité. Ajoutez aux évaluations à chaud une évaluation différée, sans IA, quelques semaines après la formation. C’est le seul moyen de distinguer un dispositif qui fait apprendre d’un dispositif qui fait bien travailler sur le moment.

Chez Proactive Academy, ces principes structurent nos parcours : nous formons des organisations et des équipes pédagogiques à l’IA générative en maintenant un encadrement humain expert à chaque étape, et nous concevons les évaluations pour mesurer la compétence acquise, pas la performance assistée.

Ce que la science n’a pas encore tranché

L’honnêteté oblige à cartographier aussi les zones d’ombre, car elles concernent directement la formation professionnelle.

Les effets à long terme restent inconnus. Les meilleures études mesurent à quelques semaines ou quelques mois. Personne ne sait encore ce que produit, sur une carrière, l’habitude d’apprendre systématiquement avec une IA disponible : montée en compétence accélérée par un feedback permanent, ou érosion progressive des capacités de raisonnement autonome. Les deux hypothèses ont des arguments, aucune n’a de données longitudinales.

Les effets différenciés selon les profils sont mal compris. Quelques signaux suggèrent que les apprenants les plus fragiles bénéficient le plus d’un tutorat IA bien conçu (l’effet mesuré au Nigeria était plus marqué chez les filles, initialement en retrait), mais aussi qu’ils sont les plus exposés à la délégation cognitive quand le dispositif est mal conçu. L’IA pourrait donc réduire ou creuser les écarts, selon le design. Pour un responsable formation, cela interdit de raisonner sur l’apprenant moyen.

Le transfert aux adultes en situation de travail est peu documenté. L’écrasante majorité des essais contrôlés porte sur des publics scolaires et universitaires, pour des raisons pratiques évidentes. La formation professionnelle ajoute des variables propres : motivation extrinsèque, temps contraint, enjeu de transfert immédiat au poste. Les études en entreprise mesurent presque toutes la productivité, pas l’apprentissage durable. Le champ est ouvert, et les organismes de formation qui instrumentent sérieusement leurs dispositifs détiennent des données que la recherche n’a pas.

Comment lire une étude « IA et apprentissage » en 5 questions

Les publications se multiplient et les chiffres spectaculaires circulent vite, souvent détachés de leur protocole. Avant d’intégrer un résultat dans une décision de formation, cinq questions suffisent à trier.

1. La mesure a-t-elle été prise avec ou sans l’outil ? C’est la question qui sépare performance et apprentissage. Un gain mesuré IA en main ne dit rien de la compétence acquise.

2. Combien de temps après l’intervention ? Un effet mesuré le jour même peut avoir disparu à deux mois. Cherchez le suivi différé ; son absence est une information en soi.

3. Y avait-il un groupe de comparaison crédible ? Comparer « formation avec IA » à « rien » gonfle mécaniquement l’effet. La comparaison honnête se fait contre la meilleure alternative disponible, comme l’a fait l’étude de Harvard contre la pédagogie active.

4. Qui a conçu le dispositif testé ? Un tuteur calibré par des chercheurs en pédagogie n’est pas généralisable à un déploiement de ChatGPT brut. L’écart entre l’objet testé et l’objet que vous comptez déployer est souvent l’angle mort des transpositions.

5. Qui finance et publie ? Les études d’éditeurs d’outils ne sont pas disqualifiées d’office, mais elles se lisent avec la même vigilance qu’une plaquette commerciale chiffrée. Privilégiez les revues à comité de lecture et les évaluations indépendantes.

Cette grille tient sur une page et s’enseigne en vingt minutes à un comité de pilotage formation. C’est probablement le meilleur investissement de littératie scientifique qu’une direction formation puisse faire en 2026.

FAQ : IA et apprentissage personnalisé

L’IA permet-elle vraiment de personnaliser l’apprentissage ?

Elle permet d’adapter le contenu, le rythme et le feedback à chaque apprenant, à un coût marginal très faible : c’est une réalité technique. Mais personnaliser n’est pas automatiquement faire mieux apprendre : les preuves montrent que le résultat dépend du design pédagogique, des garde-fous et du maintien d’une médiation humaine, pas du degré de personnalisation en lui-même.

Que dit exactement l’étude PNAS 2025 ?

Menée sur près de 1 000 lycéens en mathématiques, elle compare un ChatGPT standard, un ChatGPT configuré en tuteur à indices, et un groupe témoin. Pendant la pratique, les groupes IA gagnent respectivement 48 % et 127 %. À l’examen sans IA, le groupe ChatGPT standard chute de 17 % sous le niveau du groupe témoin ; le groupe tuteur ne montre pas d’effet négatif.

Le tutorat par IA peut-il dépasser un enseignant ?

Un essai randomisé à Harvard a montré qu’un tuteur IA conçu selon les principes de la pédagogie active faisait progresser des étudiants en physique davantage qu’un cours en pédagogie active. Mais ce tuteur encodait une ingénierie pédagogique experte : le résultat plaide pour l’alliance pédagogue + IA, pas pour le remplacement.

Qu’est-ce que la paresse métacognitive ?

Le mécanisme par lequel un apprenant délègue à l’IA la planification, le suivi de sa compréhension et l’auto-évaluation. Le travail est produit, parfois excellent, mais les opérations mentales qui construisent la compétence ne sont pas exercées. C’est le principal risque documenté de l’usage non encadré des IA génératives en apprentissage.

Les effets positifs de l’IA durent-ils dans le temps ?

Pas toujours. Plusieurs travaux montrent des gains immédiats qui disparaissent au suivi à quelques semaines ou quelques mois. D’où la règle : exiger des évaluations différées, sans l’outil, avant de conclure à l’efficacité d’un dispositif.

Comment intégrer l’IA dans un parcours sans dégrader l’apprentissage ?

Quatre conditions ressortent des études : configurer l’IA pour guider par indices plutôt que donner des réponses, partir d’une ingénierie pédagogique solide, maintenir un formateur dans la boucle, et évaluer la compétence sans l’outil à distance de la formation.

Ces résultats valent-ils pour la formation d’adultes ?

Les grandes études citées portent sur des lycéens et des étudiants, mais les mécanismes en jeu (délégation cognitive, rôle du feedback, durabilité) relèvent des sciences de l’apprentissage générales. La prudence s’impose sur les transpositions chiffrées ; les principes de conception, eux, se transposent directement.

L’apprentissage adaptatif d’avant ChatGPT est-il dépassé ?

Non. Les systèmes de tutorat intelligents classiques gardent un historique de preuves solide dans les domaines structurés. Les IA génératives étendent le principe aux domaines ouverts via le langage naturel, avec plus de souplesse mais aussi plus de risques (hallucinations, réponses directes non contrôlées).

Révolution ou illusion ? La question de la première version de cet article a désormais une réponse étayée : ni l’une ni l’autre. L’IA en apprentissage personnalisé est un amplificateur, qui démultiplie la qualité pédagogique quand elle existe et accélère la délégation cognitive quand elle n’existe pas. La variable décisive n’est pas l’outil mais la compétence de ceux qui le configurent. Pour construire cette compétence dans vos équipes, découvrez notre accompagnement des équipes formation dans l’intégration de l’IA.

L’intelligence artificielle et l’apprentissage personnalisé : révolution ou illusion ?