Openai déploie la création d'images GPT-4O à tout le monde

OpenAI a déployé un nouveau système de génération d'images directement intégré à GPT-4O. Ce système permet à l'IA d'accéder à sa base de connaissances et à son contexte de conversation lors de la création d'images.

Cette intégration permet de permettre des sorties visuelles plus pertinentes et précises plus contextuelles.

Openai annonce Lit:

«La génération d'images GPT – 4O excelle à la rendu avec précision du texte, à suivre précisément les invites et à tirer parti de la base de connaissances et du contexte de chat inhérent de 4O, y compris la transformation des images téléchargées ou les utiliser comme inspiration visuelle. Ces capacités facilitent la création de l'image que vous envisagez, vous aidant à communiquer plus efficacement à travers des visuels et à faire progresser la génération d'images dans un outil pratique avec la précision et la puissance.».

Voici tout ce que vous devez savoir.

Capacités techniques

OpenAI met en évidence les capacités suivantes de son nouveau système de génération d'images:

Il rend avec précision le texte dans les images.
Il permet aux utilisateurs d'affiner les images par la conversation tout en gardant un style cohérent.
Il prend en charge des invites complexes avec jusqu'à 20 objets différents.
Il peut générer des images basées sur des références téléchargées.
Il crée des visuels à l'aide d'informations à partir des données de formation de GPT-4O.

Openai États dans son annonce:

« Parce que la génération d'images est désormais originaire de GPT – 4O, vous pouvez affiner des images par la conversation naturelle. GPT – 4O peut s'appuyer sur des images et du texte dans le contexte de chat, assurant la cohérence tout au long. Par exemple, si vous concevez un personnage de jeu vidéo, l'apparence du personnage reste cohérente à travers plusieurs itérations lorsque vous affinez et expérimentez. »

Exemples

Pour démontrer cohérence du caractèrevoici un exemple montrant un chat puis ce même chat avec un chapeau et un monocle.

Capture d'écran de: openai.com/index/introducing-4o-image-generation/, mars 2025.

Voici un exemple plus pratique pour les spécialistes du marketing, démontrant génération de texte: Un menu complet du restaurant généré avec une invite détaillée.

Capture d'écran de: openai.com/index/introducing-4o-image-generation/, mars 2025.

Il y a des dizaines supplémentaires dans le poste d'annonce d'OpenAI, dont beaucoup contiennent plusieurs invites et suivis.

Limites

Openai admet:

«Notre modèle n'est pas parfait. Nous sommes conscients de plusieurs limitations au moment où nous travaillerons pour résoudre les améliorations du modèle après le lancement initial.»

La société note les limites suivantes de son nouveau système de génération d'images:

Croping: GPT-4O culte parfois de longues images, comme des affiches, trop étroitement en bas.
Hallucinations: Ce modèle peut créer de fausses informations, en particulier avec des invites vagues.
Problèmes de mélange élevés: Il a du mal à représenter avec précision plus de 10 à 20 concepts à la fois, comme un tableau périodique complet.
Texte multilingue: Le modèle peut avoir des problèmes montrant des caractères non latins, conduisant à des erreurs.
Édition: Les demandes de modification des pièces d'image spécifiques peuvent modifier d'autres domaines ou créer de nouvelles erreurs. Il a également du mal à garder les visages cohérents dans les images téléchargées.
Densité d'information: Le modèle a du mal à montrer des informations détaillées à de petites tailles.

Rechercher des implications

Cette mise à jour modifie la génération d'images de l'IA, des utilisations principalement décoratives à des fonctions plus pratiques en matière commerciale et de communication.

Les sites Web peuvent utiliser des images générées par l'IA mais avec des considérations importantes.

Les directives de Google n'interdisent pas les visuels générés par l'IA, se concentrant plutôt sur la question de savoir si le contenu offre de la valeur, quelle que soit sa production.

Suivre ces meilleures pratiques est recommandé:

En utilisant les métadonnées C2PA (que GPT-4O ajoute automatiquement) pour maintenir la transparence
Ajout de texte Alt approprié pour l'accessibilité et l'indexation
Assurer que les images servent l'intention des utilisateurs plutôt que de simplement remplir l'espace
Création de visuels uniques plutôt que de modèles d'IA génériques

L'avocat de recherche Google John Mueller a exprimé Une opinion négative concernant les images générées par l'IA. Bien que ses préférences personnelles n'influencent pas les algorithmes de Google, ils peuvent indiquer ce que les autres pensent des images d'IA.

Capture d'écran de: bsky.app/profile/johnmu.com, mars 2025.

Notez que Google implémente mesures pour étiqueter les images générées par l'AI dans les résultats de la recherche.

Disponibilité

La fonctionnalité est désormais disponible pour les utilisateurs de ChatGpt avec plus, pro, équipe ou plans gratuits. L'accès pour les utilisateurs de l'entreprise et de l'EDU sera bientôt disponible.

Les développeurs peuvent s'attendre à l'accès aux API dans les semaines à venir. En raison des besoins de traitement plus élevés, la génération d'images prend environ une minute en moyenne.

Image en vedette: Patrickassale / Shutterstock

By : manuboss