Selon OpenAI, ChatGPT Images 2.0 offre plus de précision et de contrôle que le modèle précédent
Photo Credit: OpenAI
ChatGPT Images 2.0 est disponible dès aujourd’hui pour tous les utilisateurs sur ChatGPT et Codex
Mardi, OpenAI a lancé son modèle de génération d'images de nouvelle génération. Baptisé ChatGPT Images 2.0, il est censé fournir des images plus précises, plus utilisables et plus sensibles au contexte, sur la base des requêtes saisies par l'utilisateur. Le nouveau modèle apporte des améliorations en matière de suivi des instructions, de rendu multilingue et de composition. Le géant de l'intelligence artificielle (IA) basé à San Francisco affirme qu'il ajoute également des capacités de raisonnement pour des tâches plus complexes. ChatGPT Images 2.0 est en cours de déploiement sur ChatGPT, Codex et l'API.
Selon OpenAI, ChatGPT Images 2.0 est disponible à partir de mardi pour tous les utilisateurs de ChatGPT et de Codex. Les fonctionnalités avancées, notamment les fonctionnalités de réflexion fondées sur le raisonnement, sont accessibles aux abonnés ChatGPT Plus, Pro et Business.
Les développeurs peuvent accéder au modèle via l'API gpt-image-2. Cependant, la tarification variera en fonction de la qualité et de la résolution d'image choisies. L'entreprise affirme que son nouveau modèle prend en charge des sorties d'une résolution allant jusqu'à 2K, bien que les sorties à plus haute résolution soient encore en phase bêta.
Selon OpenAI, ChatGPT Images 2.0 offre une précision et un contrôle supérieurs à ceux du modèle de la génération précédente, ce qui permet aux utilisateurs de générer des visuels qui correspondent étroitement à des requêtes détaillées. Il serait conçu pour gérer des compositions complexes. Cela inclut les éléments d'interface utilisateur, les textes denses et les mises en page structurées, qui, selon l'entreprise d'IA, constituaient auparavant des défis pour les systèmes de génération d'images.
Une amélioration notable concerne la prise en charge multilingue. ChatGPT Images 2.0 peut rendre plus précisément des textes dans d'autres langues que l'anglais, notamment l'hindi, le bengali, le chinois, le japonais et le coréen. Par conséquent, les utilisateurs peuvent créer des visuels tels que des affiches, des diagrammes et des infographies dans les langues susmentionnées, pour lesquels la langue fait partie intégrante de la conception.
Selon l'entreprise, ChatGPT Images 2.0 offre également une meilleure cohérence entre les différents styles, notamment les images photoréalistes, les visuels cinématographiques, le pixel art et les mangas. Des améliorations ont également été apportées en matière d'éclairage, de texture et de composition. Le dernier modèle de génération d'images prend également en charge des formats d'image flexibles, des formats ultra larges (3:1) aux formats verticaux (1:3).
Avec ChatGPT Images 2.0, OpenAI a également introduit des capacités de raisonnement. Comme l'explique l'entreprise d'IA, cela permet au modèle d'effectuer des tâches de raisonnement plus avancées qu'auparavant. Il peut être associé à un modèle ChatGPT doté de capacités de raisonnement, ce qui lui permet de rechercher des informations en temps réel sur le Web, de vérifier les résultats et de générer des images, le tout à partir d'une seule requête. Son horizon de connaissances a été actualisé et se situe en décembre 2025.
OpenAI affirme que le modèle peut générer jusqu'à huit résultats cohérents simultanément, tout en maintenant la cohérence entre les personnages, les objets et les autres éléments. L'entreprise a positionné ChatGPT Images 2.0 pour un large éventail de cas d'utilisation. Il s'agit notamment du prototypage de conceptions, des créations marketing, des contenus éducatifs et du développement de produits. Il est censé être capable de synthétiser des informations, de structurer des visuels et de les présenter selon des mises en page claires.
Cependant, l'entreprise précise que, bien qu'Images 2.0 représente une amélioration significative, ce modèle n'est pas sans limites. Il peut rencontrer des difficultés pour des tâches nécessitant une compréhension physique très précise, telles que des puzzles complexes, des instructions d'origami ou des objets vus sous des angles inhabituels.
Il peut également rencontrer des difficultés en présence de détails visuels très denses ou répétitifs. En outre, dans certains cas, l'exactitude de résultats tels que des diagrammes ou des illustrations étiquetées peut nécessiter une vérification manuelle. Les résultats en haute résolution, au-delà de 2K, sont encore en version bêta et peuvent également ne pas toujours être cohérents.
Publicité
Publicité