Gemini Live : converser à l'oral avec l'IA de Google, caméra et écran partagés (2026)

Vous pointez votre téléphone sur une machine en panne dans un atelier, vous demandez à voix haute « qu’est-ce qui cloche ? », et Gemini répond pendant qu’il regarde. Vous partagez votre écran pendant un cours en distanciel, vous demandez « comment je simplifie cette diapositive ? », et Gemini propose une reformulation sans que vous ayez à copier-coller. C’est Gemini Live : le mode conversationnel temps réel de l’IA de Google, voix et image, désormais gratuit pour tous les utilisateurs Android. Et depuis le 26 mars 2026, propulsé par Gemini 3.1 Flash Live, un nouveau modèle audio qui réduit la latence, prolonge le contexte de conversation, et tient plus de 90 langues. Ce guide explique comment l’utiliser, ce qui change vraiment en 2026, et où sont les limites.

Cet article complète notre guide complet de Google Gemini (C3-pilier) et notre comparatif des plans Gemini (C3-1). Pour le verdict comparatif Gemini face à ChatGPT Voice Mode, voir notre verdict Gemini vs ChatGPT Workspace (C3-8).

En bref
Gemini Live est le mode conversationnel temps réel de l’app Gemini : voix continue, caméra et partage d’écran, interruption à la volée.
Gratuit pour tous les utilisateurs Android (10 ou plus, 2 Go RAM minimum) depuis 2026 : plus besoin d’un abonnement Gemini Advanced pour la voix de base.
Disponible sur Android, iOS et web (gemini.google.com). Le partage d’écran fonctionne sur Android et sur le web.
Propulsé par Gemini 3.1 Flash Live (lancé le 26 mars 2026) : latence réduite, suivi de conversation 2× plus long, plus de 90 langues, meilleur filtrage du bruit.
Origine Project Astra : l’agent multimodal teasé par Google à I/O 2024 est maintenant déployé via Gemini Live.
Trois modes : voix seule, caméra (avant ou arrière), partage d’écran. Vous pouvez basculer entre les trois en cours de session.
Pour structurer l’usage de la voix et de la caméra IA dans vos formations et missions terrain, voir notre parcours d’usage de la voix et de la caméra IA dans vos workflows.

Qu’est-ce que Gemini Live, et qu’est-ce qui a changé en 2026

Gemini Live est le mode conversationnel en temps réel de l’app Gemini. Vous parlez, l’IA répond à voix haute, vous pouvez l’interrompre, lui montrer ce que la caméra voit ou ce qui s’affiche à l’écran. Le tout sans taper. C’est l’équivalent fonctionnel de l’Advanced Voice Mode de ChatGPT, avec quelques nuances que nous verrons plus bas.

L’histoire courte. Google a teasé un agent multimodal temps réel sous le nom Project Astra à Google I/O en 2024. La fonction a été intégrée à Gemini Live début 2025 pour les abonnés payants, puis étendue à tous les utilisateurs Android gratuitement courant 2025-2026. En 2026, la voix de base et le partage caméra/écran sont accessibles sans abonnement.

L’évolution structurante de l’année 2026 est arrivée le 26 mars : Google a publié Gemini 3.1 Flash Live, son modèle audio le plus abouti à ce jour. Selon le blog Google officiel, ce modèle vise un dialogue temps réel plus naturel et plus fiable. Concrètement, 9to5Google détaille les améliorations :

D’abord, la latence : moins de pauses gênantes pendant que l’IA réfléchit. La conversation tient le rythme d’un échange humain.

Ensuite, le suivi de conversation : Gemini Live garde le fil deux fois plus longtemps qu’avant, ce qui change tout pour un brainstorm de quinze minutes ou un dépannage qui s’étire.

Puis, le multilingue : plus de 90 langues prises en charge pour les conversations multimodales, déployées dans plus de 200 pays. Le français est pris en charge.

Enfin, le filtrage du bruit : Gemini 3.1 Flash Live distingue mieux votre voix des bruits d’environnement (trafic, télévision, conversations voisines). Un atout sur le terrain.

Le modèle ajuste aussi dynamiquement la longueur et le ton de ses réponses au contexte de la conversation. Pour les développeurs, la Gemini Live API dans Google AI Studio permet de construire des agents vocaux personnalisés avec le même modèle.

Les trois modes Live et comment basculer

Gemini Live se décline en trois modes que vous pouvez activer ou désactiver en cours de session.

Mode voix seule. Le plus simple : vous appuyez sur l’icône Live (forme d’onde ou microphone) dans l’app Gemini, vous parlez, l’IA répond à voix haute. Vous pouvez interrompre Gemini en parlant par-dessus, ou en touchant l’écran si l’interruption par voix est désactivée. Sur Android, l’app affiche un overlay flottant qui reste visible quand vous passez sur une autre application, comme le détaille Fone.tips après test sur Pixel 9 Pro et Galaxy S24 en mai 2026.

Mode caméra. Vous appuyez sur l’icône caméra en bas à gauche de l’interface Live. Un viseur s’affiche au milieu de l’écran, montrant ce que Gemini voit. Par défaut, c’est la caméra arrière qui s’active ; un bouton permet de basculer sur la caméra avant. Vous pouvez ensuite poser des questions sur ce que la caméra montre : « qu’est-ce que c’est ? », « comment je dois m’y prendre ? », « lis-moi cette étiquette en français ». Gemini répond pendant qu’il regarde, et garde le fil si vous bougez la caméra.

Mode partage d’écran. Disponible sur Android et sur la version web. Vous partagez votre écran, Gemini voit ce qui s’affiche : un document, une feuille de calcul, un site web, une appli, n’importe quoi. Vous pouvez demander de l’aide contextuelle sans copier-coller. Sur iOS, le partage d’écran dépend de la version de l’app, selon MindStudio en mars 2026.

Vous pouvez basculer entre les trois modes en cours de session. Démarrer par la voix seule, ouvrir la caméra pour montrer quelque chose, basculer sur le partage d’écran pour consulter un document, puis revenir à la voix. La continuité du contexte est tenue par le modèle, pas par vous.

Tarif et disponibilité : ce qui est gratuit, ce qui ne l’est pas

C’est probablement le changement le plus important pour les utilisateurs en 2026. Selon Yahoo / Tom’s Guide, Gemini Live, qui était auparavant réservé aux abonnés Gemini Advanced, est désormais déployé gratuitement à tous les utilisateurs Android, sans abonnement requis pour la voix et le partage caméra/écran de base.

Conditions techniques pour la version mobile : Android 10 ou plus récent, au moins 2 Go de RAM. Le service est aussi disponible sur iOS via l’app Gemini, et sur le web à gemini.google.com. La version web est intéressante pour le partage d’écran depuis un ordinateur de bureau.

Ce qui reste réservé aux plans payants. Les fonctions avancées Personal Intelligence (personnalisation à partir du contexte du compte Google, Gmail, Photos) restent associées aux plans Google AI Pro et Ultra. Le détail des plans est traité dans notre comparatif Gemini gratuit, AI Pro et AI Ultra (C3-1). Pour intégrer Gemini Live dans une suite Workspace en entreprise, voir notre guide Gemini Google Workspace (C3-4).

Pas à pas : démarrer une session Live

Sur Android, ouvrez l’app Gemini (et non l’app Google). Le bouton Live en forme de pastille s’affiche en bas à droite de l’écran de chat. Touchez-le, accordez l’accès au micro à la première utilisation, et parlez. Pour ajouter la caméra ou l’écran, touchez les icônes correspondantes dans l’interface Live.

Sur iOS, le parcours est identique via l’app Gemini iOS. Le partage d’écran a été déployé progressivement sur iOS, à vérifier selon votre version d’app.

Sur le web (gemini.google.com), connectez-vous à votre compte Google, cherchez le bouton Live (icône d’onde ou microphone) dans l’interface. Le partage d’écran web demande une autorisation de capture d’écran lors de la première utilisation.

Astuce de privacy par défaut, signalée par Fone.tips : la caméra se coupe automatiquement si vous quittez l’app Gemini ou si l’écran se verrouille. C’est le comportement attendu, pas un bug. Quand vous revenez, vous devez réactiver manuellement la caméra. C’est une bonne hygiène par défaut pour éviter une captation involontaire.

Trois cas d’usage pour la formation et la communication

Cas 1 : dépannage sur le terrain en mode caméra. Un technicien sur site pointe son téléphone sur une machine, décrit le problème à voix haute. Gemini Live combine ce qu’il voit et ce qu’il entend pour proposer une piste de diagnostic. Pour un formateur en alternance, c’est aussi un outil pédagogique : l’apprenti peut interroger Gemini sur ce qu’il voit avant ou après l’intervention du tuteur.

Cas 2 : assistance pendant une démonstration en distanciel. Pendant un atelier sur Meet, vous partagez votre écran et utilisez Gemini Live en parallèle pour reformuler une diapositive, expliquer un schéma, ou simplifier un passage en direct. Le mode mains libres permet de continuer à animer le groupe pendant que Gemini propose des reformulations en arrière-plan.

Cas 3 : préparation et apprentissage de langue. Pour un formateur qui anime en plusieurs langues, le support multilingue de Gemini 3.1 Flash Live ouvre la possibilité de basculer en français, anglais ou espagnol en cours de session pour vérifier une formulation, traduire un terme technique, ou s’entraîner à présenter en langue étrangère. Plus de 90 langues prises en charge.

Limites pratiques et points de vigilance RGPD

Trois limites valent d’être nommées avant un usage professionnel intensif.

Connexion requise. Gemini Live traite la voix, la caméra et le partage d’écran sur les serveurs Google, comme le rappelle Fone.tips. Sans connexion Wi-Fi ou 4G/5G stable, la qualité de la voix chute ou la session se met en pause. Sur le terrain, en zone à faible couverture, prévoyez un fallback texte.

Précision contextuelle. Sur des objets très spécifiques (pièce industrielle rare, document technique métier), Gemini Live reste limité par les biais de son corpus généraliste. Vérifiez toujours une réponse à fort enjeu avant de la transformer en action. C’est encore plus vrai en consigne réglementée (sécurité, conformité).

RGPD et résidence des données. Comme pour le reste de Gemini, sur le plan gratuit (compte Gmail personnel), Google peut utiliser vos interactions pour améliorer ses services. Pour traiter de la donnée professionnelle, basculez sur un compte Workspace avec DPA signé et plan AI Pro ou Workspace Enterprise. Le détail RGPD complet est dans notre guide Gemini Google Workspace (C3-4) et dans notre verdict Gemini vs ChatGPT pour Workspace (C3-8) qui compare les approches Google, OpenAI et Microsoft sur la résidence des données.

Et un point déontologique évident : demandez l’accord des personnes filmées avant de pointer la caméra sur quelqu’un en mode Live, même brièvement. Cela vaut en formation, en clientèle, et en mission terrain.

Gemini Live et les agents IA : la frontière à clarifier

💡 À ne pas confondre avec un agent IA : Gemini Live est un assistant temps réel. Il répond, il voit, il écoute. Il n’exécute pas d’actions sur des outils tiers de façon autonome, ne planifie pas une chaîne de tâches sur plusieurs applications, ne réserve pas, n’envoie pas d’e-mails à votre place. La couche conversation vocale + vision sera intégrée à des agents IA autonomes dans la suite (Gemini Spark, Gemini Agent), mais Gemini Live seul reste un assistant. Pour comprendre la bascule vers les agents IA pleinement autonomes, voir notre cocon Agents IA et la formation associée.

FAQ Gemini live

Gemini Live est-il vraiment gratuit en 2026 ?

Oui pour la voix de base, le partage caméra et le partage d’écran sur Android (10+, 2 Go de RAM mini), iOS et web. C’est l’évolution majeure de 2026 : la fonction qui demandait un abonnement Gemini Advanced est désormais ouverte à tous. Les fonctions avancées (Personal Intelligence à partir du contexte de votre compte Google, certaines voix premium) restent associées aux plans payants AI Pro et Ultra.

Quelle différence avec ChatGPT Advanced Voice Mode ?

Les deux assistants proposent voix, caméra et partage d’écran temps réel. ChatGPT Advanced Voice Mode a ouvert le créneau en 2024. Gemini Live se différencie par son intégration native à l’écosystème Google (Search Live, Workspace), sa gratuité de base sur Android, et l’architecture Gemini 3.1 Flash Live qui gère 90+ langues sur 200+ pays. Pour le verdict comparatif global Gemini vs ChatGPT, voir notre comparatif des deux plateformes pour Workspace (C3-8).

Gemini Live fonctionne-t-il hors ligne ?

Non. Le traitement de la voix, de la caméra et de l’écran se fait sur les serveurs Google. Il faut une connexion Wi-Fi ou data active. En mode caméra, la consommation de données est plus élevée qu’en mode voix seule.

Sur quels appareils Gemini Live fonctionne-t-il ?

Tout smartphone Android 10 ou plus récent avec au moins 2 Go de RAM. Tous les iPhone récents avec l’app Gemini iOS. Sur ordinateur, l’app web gemini.google.com fonctionne dans Chrome, Edge, Safari et Firefox modernes. Le partage d’écran est disponible sur Android et sur le web ; sur iOS il dépend de la version courante de l’app.

Peut-on interrompre Gemini Live pendant qu’il parle ?

Oui, c’est l’une de ses signatures. Vous parlez par-dessus, et Gemini s’arrête pour vous écouter. Si l’interruption par voix est désactivée dans les paramètres, vous pouvez aussi toucher l’écran pour l’arrêter. La détection d’activité vocale (VAD) native distingue les pauses brèves d’une vraie fin de phrase.

Quelles langues sont prises en charge ?

Plus de 90 langues depuis l’arrivée de Gemini 3.1 Flash Live en mars 2026. Le français est pris en charge, avec une voix de qualité naturelle. Vous pouvez basculer de langue en cours de session, et demander à Gemini de répondre dans une autre langue que celle dans laquelle vous parlez.

Les données vocales et vidéo sont-elles stockées ?

Sur un compte Gmail gratuit, oui, selon les paramètres d’activité Gemini Apps. Sur un compte Workspace payant avec DPA signé, vos données ne servent pas à entraîner les modèles publics et la résidence européenne est garantie. Pour un usage professionnel avec données sensibles, basculez impérativement sur un compte Workspace ou ChatGPT Enterprise, jamais un compte personnel gratuit.

Gemini Live en 2026 a franchi deux seuils importants. D’abord, la gratuité : la voix de base et le partage caméra/écran sont accessibles à tous les utilisateurs Android sans abonnement, ce qui change radicalement la diffusion. Ensuite, Gemini 3.1 Flash Live (mars 2026) a réduit la latence, prolongé le suivi de conversation, élargi la couverture à plus de 90 langues sur plus de 200 pays, et amélioré le filtrage du bruit ambiant. Pour un formateur ou un communicant, c’est un outil qui se prête au terrain (mode caméra), au distanciel (partage d’écran), et au multilingue. Les limites restent classiques : connexion obligatoire, RGPD à cadrer pour la donnée professionnelle, et un consentement explicite à demander aux personnes filmées. C’est exactement le périmètre de notre accompagnement à l’intégration de la voix et de la caméra IA dans vos workflows hybrides terrain et bureau.