Qu'est-ce que DALL·E 2 ?

DALL·E 2 est un programme d'intelligence artificielle qui crée des images à partir de descriptions textuelles, révélé jeudi par OpenAI, une société de recherche.

Il utilise une version d'entraînement à 12 milliards de paramètres du modèle de transformateur GPT-3 pour interpréter les entrées en langage naturel et générer les images correspondantes. Par exemple, lorsqu'il est fourni avec la phrase 'une photo en noir et blanc d'un petit chien', il produit une image en noir et blanc correctement rendue d'un Chihuahua.

Le système n'est pas parfait, il produit parfois des images difficiles à interpréter ou complètement à côté de la plaque. Par exemple, lorsqu'on lui a demandé de générer une image d''une personne conduisant un monocycle sur une corde raide au-dessus d'un volcan', cela a produit une image (belle, à mon avis) mais complètement indépendante d'un coucher de soleil sur l'eau avec un petit personnage au premier plan .

Pourtant, les résultats sont impressionnants, et OpenAI affirme que DALL·E 2 'est le premier modèle d'IA à générer des images à partir de descriptions textuelles qui peuvent rivaliser avec la qualité des artistes humains professionnels'.

Le système a été formé sur un ensemble de données de paires texte-image, composé d'environ 1,3 million d'images et de légendes d'Internet qui ont été récupérées et organisées par OpenAI. Les données de formation ont ensuite été utilisées pour affiner le modèle GPT-3 afin qu'il puisse générer des images à partir de descriptions textuelles.

OpenAI affirme que le système peut générer des images de 'haute qualité' à partir d'un large éventail de descriptions textuelles, y compris celles qui sont abstraites, concrètes ou même poétiques.

En plus de l'exemple du Chihuahua, d'autres exemples d'images produites par DALL·E 2 incluent un portrait correctement rendu d'Adolf Hitler, une image d'un dragon faite de légumes et une image de la Joconde faite de pain grillé.

Le système est également capable de générer des images de choses qui n'existent pas, comme un « floof » (un animal inventé) ou un « tulpa » (une forme-pensée).

Dans l'ensemble, les résultats sont impressionnants et OpenAI affirme que le système 'ouvre de nouvelles possibilités pour générer des images à partir de descriptions textuelles'.

DEPUIS E 2 Ce Système CLIP convertit les informations textuelles en informations visuelles. Il s'agit d'un paradigme encodeur-décodeur, ce qui signifie que lorsque le texte d'entrée est fourni, il est d'abord converti en entrée machine, puis traité par le système et enfin transmis au décodeur, qui convertit les données codées en une image.

Qu'est-ce que DALL·E 2 ?

Il s'agit de la dernière génération de DALL·E, un modèle de langage génératif qui utilise des phrases pour créer des effets visuels complètement nouveaux. Le DALL E 2 est un énorme modèle 3,5 V, mais pas aussi massif que le GPT-3. Fait intéressant, il est également plus léger que son prédécesseur (12B). En termes d'alignement de description et de photoréalisme, DALL·E 2 est 70 % meilleur que DALL·E 2 malgré sa plus grande taille.

DALL.E 2- explication pour les débutants avec des exemples

Plus précisément, DALL·E 2 est un modèle de synthèse d'images textuelles conditionnelles hiérarchiques qui combine l'apprentissage en profondeur pour le traitement du langage naturel avec la vision par ordinateur pour la génération d'images. Son objectif est de former deux modèles, et l'ensemble de formation se compose d'images et de descriptions appariées. Le premier est un a priori qui, étant donné un titre écrit, peut être entraîné pour générer une image CLIP embarquée. Nous avons alors un décodeur qui, lors de l'intégration d'une image CLIP (et d'une légende, le cas échéant), peut générer une image entraînée.

DALLE 2 est formé à l'aide de centaines de millions de photos avec des légendes provenant d'Internet, et certaines de ces images sont supprimées et remaniées pour modifier ce que le modèle apprend. Il récupère plusieurs options d'image Pièces jointes CLIP puis l'utiliser décodeur passer par chacun d'eux. Il crée ensuite un mélange intéressant de toutes ces informations compte tenu de l'entrée de l'utilisateur.

Exemple DALL IS 2

Jouons à un petit jeu pour comprendre DALL·E. Décomposons-le en trois étapes suivantes.

Imaginez des arcs-en-ciel, des nuages et des licornes volant dans le ciel bleu. Imaginez à quoi pourrait ressembler une image dans votre imagination. Les gens sont ce que nous avons de plus proche de l'analogue parfait d'une image intégrée, et l'image qui vient de surgir dans votre tête en est un parfait exemple. Vous ne pouvez que deviner le produit final, mais vous avez une bonne idée de ce qui devrait être inclus. Le modèle a priori amène le lecteur des mots d'une phrase à une scène de son imagination.
Vous pouvez maintenant commencer à dessiner. UnCLIP convertit votre image mentale en une véritable esquisse. Vous pouvez maintenant recréer avec précision un autre personnage à partir de la même description, avec les mêmes statistiques de base, mais avec un tout nouveau style visuel. DALL·E 2 peut également générer des images uniques à partir d'une image existante intégrée de cette manière.
Faites attention au croquis que vous avez fait. C'est ce qui se passe lorsque vous esquissez la description d'une « licorne au milieu des nuages, et un arc-en-ciel se dresse contre le ciel ». Examinez maintenant l'image et le texte pour déterminer ce qui illustre le mieux l'autre (soleil, maison, arbre, etc.) et ce qui illustre le mieux le sujet, le style, les couleurs, etc. CLIP encode des caractéristiques. texte et images.

Maintenant que nous savons ce qu'est DALL-E, passons à la section suivante et comprenons ses fonctionnalités.

Conseil: Comment créer des images réalistes avec le service DALL-E-2 AI

Caractéristiques DALL E 2

Vous trouverez ci-dessous les spécifications de DALL·E 2.

Variantes
Coloration
Différences de texte

Parlons d'eux en détail.

como hacer tarjetas de visita en word 2010

1] Variantes

DALL·E 2 va au-delà de la simple traduction d'une phrase en image. OpenAI peut expérimenter le processus génératif, produisant des résultats différents pour une signature donnée grâce à des intégrations CLIP robustes. Ce que CLIP 'voit' dans son 'esprit' est ce qu'il considère comme important à partir de l'entrée (reste le même pour toutes les images) et ce qui peut être remplacé (ce qui change pour différentes images). Dans la mesure du possible, DALL·E 2 conservera à la fois « les informations significatives... et les aspects esthétiques ».

2] Coloration

DALL·E 2 peut modifier des photos existantes avec un remplissage automatique. Dans l'exemple suivant, l'image de gauche est l'image d'origine, et les photos du centre et de droite ont l'élément dessiné à des endroits différents. DALL·E 2 associe un élément supplémentaire au style d'image. Il met également à jour les textures et les réflexions pour refléter le nouvel élément.

Lire : Que pouvez-vous faire avec ChatGPT

3] Différences textuelles

DALL·E 2 convertit les images en utilisant les différences de texte. DALL·E 2 possède également des capacités d'interpolation avancées qui vous permettent de modifier des objets. Un utilisateur de Twitter a pu 'démordeniser' son iPhone. twitter.com pour le vérifier.

Si vous aimez ces fonctionnalités, tout ce que vous avez à faire est d'aller sur openai.com puis inscrivez-vous. Vous pouvez créer un nouveau compte ou utiliser vos comptes Microsoft ou Google existants pour vous inscrire. Une fois que vous aurez fait cela, vous obtiendrez des crédits gratuits, si vous en voulez plus, vous devrez payer pour cela.

Ce sont quelques-unes des fonctionnalités de DALL·E 2, il a de nombreux cas d'utilisation intéressants, mais il est toujours recommandé de ne pas trop compter sur les outils d'IA. Après tout, ce ne sont que des outils utilisés pour faire le travail, ils ne peuvent jamais remplacer l'intelligence émotionnelle d'une personne.

A lire aussi : Les meilleures applications, logiciels et sites Web Deepfake.