OpenAI a déployé un nouveau système de génération d'images directement intégré à GPT-4O. Ce système permet à l'IA d'accéder à sa base de connaissances et à son contexte de conversation lors de la création d'images.
Cette intégration permet de permettre des sorties visuelles plus pertinentes et précises plus contextuelles.
Openai annonce Lit:
«La génération d'images GPT – 4O excelle à la rendu avec précision du texte, à suivre précisément les invites et à tirer parti de la base de connaissances et du contexte de chat inhérent de 4O, y compris la transformation des images téléchargées ou les utiliser comme inspiration visuelle. Ces capacités facilitent la création de l'image que vous envisagez, vous aidant à communiquer plus efficacement à travers des visuels et à faire progresser la génération d'images dans un outil pratique avec la précision et la puissance.».
Voici tout ce que vous devez savoir.
Capacités techniques
OpenAI met en évidence les capacités suivantes de son nouveau système de génération d'images:
- Il rend avec précision le texte dans les images.
- Il permet aux utilisateurs d'affiner les images par la conversation tout en gardant un style cohérent.
- Il prend en charge des invites complexes avec jusqu'à 20 objets différents.
- Il peut générer des images basées sur des références téléchargées.
- Il crée des visuels à l'aide d'informations à partir des données de formation de GPT-4O.
Openai États dans son annonce:
« Parce que la génération d'images est désormais originaire de GPT – 4O, vous pouvez affiner des images par la conversation naturelle. GPT – 4O peut s'appuyer sur des images et du texte dans le contexte de chat, assurant la cohérence tout au long. Par exemple, si vous concevez un personnage de jeu vidéo, l'apparence du personnage reste cohérente à travers plusieurs itérations lorsque vous affinez et expérimentez. »
Exemples
Pour démontrer cohérence du caractèrevoici un exemple montrant un chat puis ce même chat avec un chapeau et un monocle.

Voici un exemple plus pratique pour les spécialistes du marketing, démontrant génération de texte: Un menu complet du restaurant généré avec une invite détaillée.

Il y a des dizaines supplémentaires dans le poste d'annonce d'OpenAI, dont beaucoup contiennent plusieurs invites et suivis.
Limites
Openai admet:
«Notre modèle n'est pas parfait. Nous sommes conscients de plusieurs limitations au moment où nous travaillerons pour résoudre les améliorations du modèle après le lancement initial.»
La société note les limites suivantes de son nouveau système de génération d'images:
- Croping: GPT-4O culte parfois de longues images, comme des affiches, trop étroitement en bas.
- Hallucinations: Ce modèle peut créer de fausses informations, en particulier avec des invites vagues.
- Problèmes de mélange élevés: Il a du mal à représenter avec précision plus de 10 à 20 concepts à la fois, comme un tableau périodique complet.
- Texte multilingue: Le modèle peut avoir des problèmes montrant des caractères non latins, conduisant à des erreurs.
- Édition: Les demandes de modification des pièces d'image spécifiques peuvent modifier d'autres domaines ou créer de nouvelles erreurs. Il a également du mal à garder les visages cohérents dans les images téléchargées.
- Densité d'information: Le modèle a du mal à montrer des informations détaillées à de petites tailles.
Rechercher des implications
Cette mise à jour modifie la génération d'images de l'IA, des utilisations principalement décoratives à des fonctions plus pratiques en matière commerciale et de communication.
Les sites Web peuvent utiliser des images générées par l'IA mais avec des considérations importantes.
Les directives de Google n'interdisent pas les visuels générés par l'IA, se concentrant plutôt sur la question de savoir si le contenu offre de la valeur, quelle que soit sa production.
Suivre ces meilleures pratiques est recommandé:
- En utilisant les métadonnées C2PA (que GPT-4O ajoute automatiquement) pour maintenir la transparence
- Ajout de texte Alt approprié pour l'accessibilité et l'indexation
- Assurer que les images servent l'intention des utilisateurs plutôt que de simplement remplir l'espace
- Création de visuels uniques plutôt que de modèles d'IA génériques
L'avocat de recherche Google John Mueller a exprimé Une opinion négative concernant les images générées par l'IA. Bien que ses préférences personnelles n'influencent pas les algorithmes de Google, ils peuvent indiquer ce que les autres pensent des images d'IA.

Notez que Google implémente mesures pour étiqueter les images générées par l'AI dans les résultats de la recherche.
Disponibilité
La fonctionnalité est désormais disponible pour les utilisateurs de ChatGpt avec plus, pro, équipe ou plans gratuits. L'accès pour les utilisateurs de l'entreprise et de l'EDU sera bientôt disponible.
Les développeurs peuvent s'attendre à l'accès aux API dans les semaines à venir. En raison des besoins de traitement plus élevés, la génération d'images prend environ une minute en moyenne.
Image en vedette: Patrickassale / Shutterstock