Mardi , lors de la Google I/O 2025 , Google a dévoilé plusieurs nouvelles fonctionnalités pour la famille de modèles d'IA Gemini 2.5. Tirant parti du modèle Gemini 2.5 Pro , le géant technologique de Mountain View a dévoilé Deep Think, un mode de raisonnement amélioré. Il a également introduit Native Audio Output , une toute nouvelle voix à consonance humaine, accessible via l' interface de programmation d' applications ( API ) Live.
Le géant technologique a décrit dans un article de blog toutes les fonctionnalités supplémentaires qu'il prévoit d' ajouter à la série de modèles d' IA Gemini 2.5 au cours des prochains mois . Une version améliorée du Gemini 2.5 Pro , dotée de capacités de codage améliorées , a été lancée par Google plus tôt ce mois-ci.
Avec le mode Deep Think , Google peaufine encore davantage son modèle d' IA . Gemini 2.5 Pro peut désormais évaluer plusieurs théories avant de réagir grâce au nouveau mode de raisonnement . Selon l' entreprise , sa méthodologie d' étude diffère de celle des versions Thinking des produits précédents .
L' entreprise technologique a publié des scores de référence pour le mode raisonnement sur de nombreux paramètres. Il est à noter que le Gemini 2.5 Pro Deep Think aurait obtenu un score de 49,4 % à l' UAMO 2025 , l'un des tests de référence les plus difficiles en mathématiques.
Google affirme procéder à des évaluations de sécurité et consulter des spécialistes de la sécurité lors des tests de Deep Think . Seuls les testeurs de confiance peuvent actuellement accéder au mode de raisonnement via l' API Gemini .
Par ailleurs, Google a annoncé que le modèle Flash Gemini 2.5 , sorti il y a seulement un mois , bénéficiera désormais de fonctionnalités supplémentaires . Selon l' entreprise , le modèle d'IA a renforcé ses principaux standards de raisonnement, de multimodalité, de codage et de contexte étendu .
Avec la série de modèles d'IA Gemini 2.5 , les développeurs utilisant l' API Live auront désormais accès à une nouvelle fonctionnalité . Google lance une version préliminaire de Native Audio Output, capable de reproduire des paroles plus expressives et plus humaines .
Le modèle d'IA peut identifier les émotions dans la voix de l'utilisateur et réagir de manière appropriée dans le premier scénario, appelé Dialogue Affectif . Le second , l'Audio Proactif , permet au modèle de réagir uniquement lorsqu'on lui parle et d' ignorer les conversations de fond .