OpenAI muscle la création d’images et vise désormais la mise en page complète

OpenAI franchit une nouvelle étape dans la génération d’images avec le lancement de ChatGPT Images 2. La nouveauté n’est pas seulement une meilleure qualité visuelle. L’entreprise affirme maintenant que son outil peut produire des compositions complexes, intégrer du texte de façon plus fiable et même servir à concevoir des magazines, des planches graphiques ou des visuels déclinés dans plusieurs formats.

C’est un changement important, parce que la faiblesse historique de ce type d’outil tenait justement à sa difficulté à écrire correctement dans une image. Pendant longtemps, les générateurs visuels étaient capables d’imiter un style, mais échouaient dès qu’il fallait produire un menu, une affiche ou une fausse interface crédible. Avec Images 2, OpenAI veut montrer que cette limite est en train de reculer.

L’outil repose sur un nouveau modèle, GPT Image 2, et se décline en deux modes, Instant et Thinking. Dans sa version avancée, le système peut aller chercher de l’information sur le web avant de générer une image, raisonner sur la structure visuelle demandée et produire jusqu’à huit images cohérentes à partir d’une seule consigne. OpenAI présente cela comme une façon de créer plus facilement une série de visuels publicitaires, des pages de manga, des guides illustrés ou l’aménagement visuel d’un espace entier.

Autre avancée mise de l’avant, la capacité à respecter davantage les détails demandés. OpenAI promet une meilleure fidélité aux consignes, une meilleure conservation des personnages et des objets d’une image à l’autre, ainsi qu’un rendu plus précis des petits éléments qui faisaient souvent dérailler les anciennes générations de modèles, notamment les icônes, les éléments d’interface et les compositions chargées.

La résolution monte aussi jusqu’à 2K, avec des formats beaucoup plus variés, du très large au très vertical. Sur le papier, cela élargit nettement les usages possibles, que ce soit pour les réseaux sociaux, l’édition, l’affichage ou les contenus mobiles. OpenAI affirme également avoir amélioré la génération de texte dans des langues non latines, comme le japonais, le coréen, le chinois, l’hindi ou le bengali.

Mais tout n’est pas encore réglé. Dans ses premiers essais, le modèle est convaincant en anglais, notamment pour produire des affiches ou des visuels contenant beaucoup de texte. Toutefois les résultats semblent moins fiables dans d’autres langues, avec des caractères parfois mal formés ou du faux texte qui imite l’apparence d’une langue sans en respecter réellement le sens.

Cette mise à jour s’inscrit aussi dans un contexte de concurrence de plus en plus vive. OpenAI ne cache pas qu’il veut reprendre l’initiative face aux avancées de Google et de Microsoft dans l’image générée par IA. En ajoutant la recherche web, la cohérence entre plusieurs images et une meilleure gestion du texte, l’entreprise cherche à transformer son outil en véritable atelier de production visuelle, et non plus seulement en générateur d’illustrations spectaculaires.

Reste maintenant à voir si cette promesse tiendra dans les usages professionnels. Car entre la démonstration technique et la production éditoriale réelle, il y a encore un écart. Une chose est sûre, OpenAI tente ici de déplacer la conversation. Il ne s’agit plus seulement de créer une belle image, mais de fabriquer un document visuel complet, structuré et prêt à servir.

Source : OpenAI

******

Du lundi au vendredi, Bruno Guglielminetti vous propose un regard sur l’essentiel de l’actualité numérique avec 120 secondes de Tech.

Ou encore…

Écoutez la plus récente édition de Mon Carnet,
le magazine hebdomadaire de l’actualité numérique.


En savoir plus sur Mon Carnet

Subscribe to get the latest posts sent to your email.

Laisser un commentaire