Tech

Cet article sur l’IA propose un modèle de diffusion latente pour la 3D (LDM3D) qui génère à la fois des données d’image et de carte de profondeur à partir d’un vecteur de texte donné.

Cunégonde Lestrange mai 21, 2023

0 29 3 minutes de lecture

Cet article sur l’IA propose un modèle de diffusion latente pour la 3D (LDM3D) qui génère à la fois des données d’image et de carte de profondeur à partir d’un vecteur de texte donné.

Dans le domaine de l’intelligence artificielle générative, la vision par ordinateur a fait d’énormes progrès ces dernières années. Stable Diffusion a transformé la production de contenu en création d’images en proposant un logiciel gratuit pour produire des images aléatoires RVB haute résolution à partir d’invites de texte. Cet article propose un modèle de diffusion latente 3D (LDM3D) basé sur la diffusion stable v1.4. Contrairement au modèle précédent, la figure 1 montre comment LDM3D peut produire des cartes de profondeur et des données d’image à partir d’une invite de texte donnée. Les utilisateurs peuvent créer des représentations RGBD complètes des invites de texte, leur donnant vie dans une perspective dynamique à 360 degrés. Leur modèle LDM3D a été optimisé sur un ensemble de données d’environ 4 millions d’ensembles comprenant une image RVB, une carte de profondeur et une description.

Une partie de l’ensemble de données LAION-400M, un grand ensemble de données de sous-titrage d’image de plus de 400 millions d’appariements de légendes d’image, a été utilisée pour créer cet ensemble de données. Le modèle d’estimation de profondeur DPT, qui fournit des estimations de profondeur relative très précises pour chaque pixel de l’image, a été utilisé pour générer les cartes de profondeur utilisées pour le réglage fin. L’utilisation des cartes de profondeur appropriées était essentielle pour créer des vues à 360 degrés réalistes, immersives et permettant aux utilisateurs de découvrir leurs invites de texte de manière très détaillée. Des chercheurs d’Intel Labs et de Blockade Labs ont créé DepthFusion, une application qui exploite des images brutes RVB 2D et des cartes de profondeur pour calculer une vue à 360 degrés à l’aide de TouchDesigner, démontrant ainsi les capacités de LDM3D.

**Figure 1**: Présentation de LDM3D : les cartes de profondeur en niveaux de gris 16 bits sont compressées en images de profondeur à 3 canaux de type RVB, qui sont ensuite conjuguées avec des images RVB le long de la dimension du canal, pour montrer le flux de travail de formation. Le KL-AE modifié est utilisé pour mapper l’entrée RGBD sérialisée à l’espace latent. La représentation latente reçoit du bruit avant d’être déformée à plusieurs reprises par le modèle U-Net. L’encodeur de texte figé CLIP est utilisé pour chiffrer le vecteur de texte, et l’intérêt mutuel est utilisé pour le mapper sur différentes couches U-Net. Le décodeur KL reçoit la sortie débruitée de l’espace latent et la remappe dans l’espace de pixels en tant que sortie RGBD à six canaux. Le résultat est ensuite divisé en une carte de profondeur en niveaux de gris 16 bits et une image RVB. Le chemin d’inférence du texte à l’image est affiché dans un cadre bleu.

DepthFusion a le potentiel de changer complètement la façon dont les gens interagissent avec les documents numériques. Le cadre flexible appelé TouchDesigner permet la création d’expériences multimédias interactives et immersives. Leur logiciel utilise les capacités créatives de touchdesigner pour produire de superbes panoramas à 360 degrés qui décrivent clairement les invites de texte. Avec l’aide de DepthFusion, les utilisateurs peuvent désormais découvrir leurs invites textuelles d’une manière auparavant inimaginable, qu’il s’agisse d’une description d’une forêt sereine, d’une ville animée ou d’un monde de science-fiction. Cette technologie pourrait révolutionner divers secteurs, notamment les jeux, le divertissement, le design et l’architecture.

🚀 Découvrez les outils d’intelligence artificielle de 100 dans notre club d’outils d’intelligence artificielle

Ils ont fait trois contributions différentes dans l’ensemble. (1) ils proposent LDM3D, un nouveau modèle de diffusion qui, en lumière guidée par le texte, génère des images RGBD (images RVB avec des cartes de profondeur correspondantes). (2) Ils ont construit DepthFusion, un logiciel qui utilise des images RGBD produites par LDM3D pour offrir des expériences visuelles immersives à 360 degrés. (3) Ils évaluent l’efficacité de leurs images RGBD produites et de leurs films immersifs à 360 degrés grâce à des études approfondies. L’étude présente LDM3D, un modèle de diffusion avancé qui produit des images RGBD à partir de signaux textuels. Ils ont également construit DepthFusion, un logiciel qui utilise l’imagerie RGBD produite à partir de TouchDesigner pour fournir des expériences de visualisation immersives et interactives à 360 degrés afin de démontrer davantage les capacités de LDM3D.

READ L'assistant vocal Amazon Alexa fait un voyage sur la lune

Les résultats de cette étude pourraient changer fondamentalement la façon dont les gens interagissent avec les matériaux numériques, transformant tout, du divertissement et des jeux à l’architecture et au design. Les contributions de ce travail ouvrent de nouvelles opportunités pour la recherche en IA générative multi-affichage et en vision par ordinateur. Ils s’intéressent à la manière dont ce domaine peut être développé davantage et souhaitent que la communauté bénéficie des travaux proposés.

scanner le papier. N’oubliez pas de rejoindre 21k + ML Sub RedditEt canal de discordeEt Et Courriel, où nous partageons les dernières nouvelles sur la recherche en IA, des projets d’IA sympas, et plus encore. Si vous avez des questions concernant l’article ci-dessus ou si nous avons oublié quelque chose, n’hésitez pas à nous envoyer un e-mail à [email protected]

🚀 Découvrez les outils d’IA de 100 dans le club d’outils d’IA

Anish Teeku est consultant stagiaire chez MarktechPost. Il poursuit actuellement ses études de premier cycle en science des données et en intelligence artificielle à l’Institut indien de technologie (IIT) de Bhilai. Il passe la plupart de son temps à travailler sur des projets visant à exploiter la puissance de l’apprentissage automatique. Ses intérêts de recherche portent sur le traitement d’images et il est passionné par la création de solutions autour de celui-ci. Aime communiquer avec les gens et collaborer sur des projets intéressants.

➡️ Découvrez Bright Data : la plateforme de données Web n° 1 au monde