L’approche du modèle de diffusion résout le problème du rapport hauteur/largeur dans les images génératives d’IA

L’approche du modèle de diffusion résout le problème du rapport hauteur/largeur dans les images génératives d’IA

L’image de gauche a été générée par une méthode standard, tandis que celle de droite a été créée par ElasticDiffusion. L’invite pour les deux images était : « Photo d’un chat athlète expliquant son dernier scandale lors d’une conférence de presse aux journalistes. » (Image fournie par Moayed Haji Ali/Université Rice.)

Par John Bogna

L’intelligence artificielle générative (IA) a souvent du mal à créer des images cohérentes, se trompant sur des détails comme les doigts et la symétrie du visage. De plus, ces modèles peuvent échouer complètement lorsqu’ils sont invités à générer des images de différentes tailles et résolutions.

Les informaticiens de l’Université Rice ont développé une nouvelle méthode pour générer des images avec des modèles de diffusion pré-entraînés. Ces modèles d’IA génératifs « apprennent » en ajoutant couche après couche de bruit aléatoire aux images sur lesquelles ils sont formés, puis génèrent de nouvelles images en supprimant ce bruit supplémentaire. Cette méthode pourrait aider à corriger certains des problèmes rencontrés par les modèles actuels.

Moayed Haji Ali, doctorant en informatique à l’Université Rice, a décrit cette nouvelle approche, appelée ElasticDiffusion, dans un article évalué par des pairs. Le papier a été présenté à l’Institute of Electrical and Electronics Engineers (IEEE) Conférence 2024 sur la vision par ordinateur et la reconnaissance de formes (CVPR) à Seattle.

portrait L’approche du modèle de diffusion résout le problème du rapport hauteur/largeur dans les images génératives d’IA NEWS Moayed Haji Ali est doctorant en informatique à l’Université Rice. (Photo de Vicente Ordóñez-Román/Université Rice.)

« Les modèles de diffusion comme Stable Diffusion, Midjourney et DALL-E créent des résultats impressionnants, générant des images assez réalistes et photoréalistes », a déclaré Haji Ali. « Mais ils ont une faiblesse : ils ne peuvent générer que des images carrées. Ainsi, dans les cas où vous avez des formats d’image différents, comme sur un moniteur ou une montre intelligente… c’est là que ces modèles deviennent problématiques. »

Si vous demandez à un modèle tel que Stable Diffusion de créer une image non carrée, par exemple avec un rapport hauteur/largeur de 16:9, les éléments utilisés pour créer l’image générée deviennent répétitifs. Cette répétition se manifeste par d’étranges déformations dans l’image ou les sujets de l’image, comme des personnes à six doigts ou une voiture étrangement allongée.

La manière dont ces modèles sont formés contribue également au problème.

« Si vous entraînez le modèle uniquement sur des images d’une certaine résolution, il ne peut générer que des images avec cette résolution », a déclaré Vicente Ordóñez-Román, professeur agrégé d’informatique qui a conseillé Haji Ali dans son travail aux côtés de Guha Balakrishnan, professeur adjoint de génie électrique et informatique.

Ordóñez-Román a expliqué qu’il s’agit d’un problème endémique à l’IA connu sous le nom de surajustement, où un modèle d’IA devient excessivement efficace pour générer des données similaires à celles sur lesquelles il a été formé, mais ne peut pas s’écarter bien en dehors de ces paramètres.

« Vous pourriez résoudre ce problème en entraînant le modèle sur une plus grande variété d’images, mais cela coûte cher et nécessite d’énormes quantités de puissance de calcul – des centaines, voire des milliers d’unités de traitement graphique », a déclaré Ordóñez-Román.

poster L’approche du modèle de diffusion résout le problème du rapport hauteur/largeur dans les images génératives d’IA NEWS Moayed Haji Ali, doctorant en informatique à l’Université Rice, présente son travail et son affiche au CVPR. (Photo de Vicente Ordóñez-Román/Université Rice).

Selon Haji Ali, le bruit numérique utilisé par les modèles de diffusion peut être traduit en un signal avec deux types de données : locales et globales. Le signal local contient des informations détaillées au niveau des pixels, comme la forme d’un œil ou la texture de la fourrure d’un chien. Le signal global contient davantage un contour global de l’image.

« L’une des raisons pour lesquelles les modèles de diffusion ont besoin d’aide avec les formats d’image non carrés est qu’ils regroupent généralement des informations locales et globales », a déclaré Haji Ali, qui a travaillé sur la synthèse du mouvement dans des vidéos générées par l’IA avant de rejoindre l’équipe d’Ordóñez-Román. groupe de recherche à Rice pour son doctorat. études. « Lorsque le modèle tente de dupliquer ces données pour tenir compte de l’espace supplémentaire dans une image non carrée, cela entraîne des imperfections visuelles. »

La méthode ElasticDiffusion présentée dans l’article de Haji Ali adopte une approche différente pour créer une image. Au lieu de regrouper les deux signaux ensemble, ElasticDiffusion sépare les signaux locaux et globaux en chemins de génération conditionnels et inconditionnels. Il soustrait le modèle conditionnel du modèle inconditionnel, obtenant ainsi un score contenant des informations d’image globales.

Après cela, le chemin inconditionnel avec les détails locaux au niveau des pixels est appliqué à l’image par quadrants, en remplissant les détails un carré à la fois. Les informations globales ⎯ quel devrait être le rapport hauteur/largeur de l’image et ce qu’est l’image (un chien, une personne qui court, etc.) ⎯ restent séparées, il n’y a donc aucune chance que l’IA confonde les signaux et répète les données. Le résultat est une image plus nette quel que soit le rapport hauteur/largeur qui ne nécessite pas de formation supplémentaire.

owls L’approche du modèle de diffusion résout le problème du rapport hauteur/largeur dans les images génératives d’IA NEWS L’image de gauche a été générée par une méthode standard, tandis que celle de droite a été créée par ElasticDiffusion. L’invite pour les deux images était : « Imaginez le portrait d’un mignon hibou scientifique en tenue bleue et grise annonçant sa dernière découverte révolutionnaire. Ses yeux sont marron clair. Sa tenue est simple mais digne ». (Image fournie par Moayed Haji Ali/Université Rice.)

« Cette approche est une tentative réussie d’exploiter les représentations intermédiaires du modèle pour les étendre afin d’obtenir une cohérence globale », a déclaré Ordóñez-Román.

Le seul inconvénient d’ElasticDiffusion par rapport aux autres modèles de diffusion est le temps. Actuellement, la méthode de Haji Ali prend jusqu’à 6 à 9 fois plus de temps pour créer une image. L’objectif est de réduire cela au même temps d’inférence que d’autres modèles comme Stable Diffusion ou DALL-E.

« J’espère que cette recherche va définir… pourquoi les modèles de diffusion génèrent ces pièces plus répétitives et ne peuvent pas s’adapter à ces rapports d’aspect changeants et proposer un cadre qui peut s’adapter exactement à n’importe quel rapport d’aspect, quel que soit le rapport d’aspect de formation, en même temps d’inférence », a déclaré Haji Ali.

En savoir plus


RICE-150x150 L’approche du modèle de diffusion résout le problème du rapport hauteur/largeur dans les images génératives d’IA NEWS

Université du riz

Source