Gemini Omni accepte les images, les vidéos, l'audio et le texte au sein d'une même invite pour générer des vidéos.
Photo Credit: Google
Gemini 3.5 Flash a réussi à créer un système d'exploitation pleinement fonctionnel grâce à Antigravity de Google
La conférence Google I/O 2026 s'est tenue ce mercredi, offrant à tous un premier aperçu des nouvelles fonctionnalités et des produits que l'entreprise s'apprête à déployer auprès des utilisateurs et des entreprises. Sundar Pichai, PDG de Google, a ouvert la session plénière en annonçant de nouveaux outils d'intelligence artificielle (IA), tels que Docs Live. Toutefois, ce n'est que lorsque Demis Hassabis, PDG de DeepMind, est monté sur scène que l'entreprise a révélé son innovation la plus passionnante : Gemini Omni. Par ailleurs, l'entreprise a également présenté les modèles de la série Gemini 3.5 destinés au grand public.
Gemini 3.5 Series et Gemini Omni dévoilés
Au cours de l'événement en direct, l'entreprise a levé le voile sur la série Gemini 3.5. Successeurs de la série Gemini 3.1, ces tout derniers modèles apportent des améliorations significatives en termes de capacités agentiques et de performances de codage. Actuellement, Google déploie le modèle Gemini 3.5 Flash à l'échelle mondiale, le rendant accessible à tous via l'application Gemini ainsi que le « AI Mode » (mode IA) intégré à son moteur de recherche. Il est également mis à la disposition des développeurs via la plateforme Antigravity, ainsi que par le biais de l'interface de programmation d'application (API) Gemini via AI Studio et Android Studio.
Google affirme que Gemini 3.5 Flash offre des « performances de pointe, quatre fois plus rapides que celles de modèles de pointe comparables, pour un coût inférieur de moitié ». Sur la base d'évaluations internes, l'entreprise prétend que la version 3.5 Flash surpasse Claude Sonnet 4.6, Claude Opus 4.7 et GPT-5.5 dans plusieurs domaines : les benchmarks MCP Atlas et Toolathlon pour les performances agentiques ; Finance agent v2 pour l'analyse financière ; MMMU Pro pour la compréhension multimodale ; et MRCR v2 (1 million de points) pour le traitement d'informations dans des contextes longs.
Gemini 3.5 Flash serait également plus rapide que Claude Opus 4.7 et GPT-5.5, générant des résultats à un rythme de 289 tokens par seconde. « Gemini 3.5 Flash est à ce jour notre modèle le plus performant en matière de capacités agentiques et de codage ; il surpasse Gemini 3.1 Pro lors de benchmarks exigeants dans ces deux domaines », a déclaré l'entreprise.
Au-delà des chiffres, l'argument commercial unique (USP) le plus marquant de ce modèle semble résider dans ses performances agentiques. L'entreprise a souligné que le modèle avait pu accéder à la plateforme Antigravity pour générer un système d'exploitation entièrement fonctionnel en seulement 12 heures, en mobilisant 93 agents en parallèle et pour un coût d'API inférieur à 1 000 $ (soit environ 98 000 roupies).
Quant à Gemini Omni, il s'agit du premier modèle de génération vidéo de Google capable de combiner des entrées multimodales au sein d'une seule et même instruction. Concrètement, une seule requête peut intégrer des vidéos, de l'audio, du texte et des images pour créer n'importe quoi. Bien que nous ne sachions pas encore précisément ce que recouvre ce « n'importe quoi », le modèle Omni Flash est actuellement utilisé pour générer des vidéos. Il permet également aux utilisateurs de modifier des vidéos par le biais d'interactions conversationnelles. Le modèle est capable de modifier des éléments spécifiques, tels que les personnages, les objets, les arrière-plans et bien plus encore.
Gemini Omni Flash est actuellement en cours de déploiement à l'échelle mondiale pour les abonnés aux offres Google AI Plus, Pro et Ultra, via l'application Gemini et Google Flow. Il est également déployé, gratuitement et dès cette semaine, auprès des utilisateurs de YouTube Shorts ainsi que de l'application YouTube Create.
Publicité
Publicité
Lenovo Legion 5 15IAX11 With 15.3-Inch OLED Display, Up to Intel Core Ultra 9 CPU Listed Online