Microsoft a démontré un réseau de neurones qui fait tout parler (vidéo) ᐉ Actualités de Fakti.bg – Technologies
Au cours des dernières années, les réseaux de neurones génératifs ont franchi une étape importante dans leur développement, devenant plus puissants et capables de générer non seulement des images, mais aussi des vidéos basées sur des descriptions textuelles. Le nouvel algorithme VASA-1 de Microsoft en surprendra probablement beaucoup car il ne nécessite aucune description pour fonctionner.
Il suffit de fournir une seule photo d'une personne et un enregistrement audio, sur la base desquels le réseau de neurones crée une vidéo d'une personne parlant avec un large éventail d'émotions et d'expressions faciales naturelles.
Le résultat VASA-1 semble très naturel et crédible. À partir d’une seule image faciale et d’un enregistrement audio, l’algorithme crée une vidéo photoréaliste dans laquelle la personne sur la photo « prend littéralement vie », et ses expressions faciales et ses mouvements de lèvres et de tête semblent complètement naturels.
Étant donné que les vidéos créées avec VASA-1 sont difficiles à distinguer instantanément des vidéos réelles, on craint déjà que l'algorithme ne soit utilisé pour créer de faux clips.
Quant au réseau de neurones lui-même, sa principale différence par rapport à d'autres algorithmes similaires est la présence d'un modèle holistique pour générer des expressions faciales et des mouvements de tête. Microsoft mène une enquête approfondie, notamment en évaluant un certain nombre de nouvelles mesures. En conséquence, il devient clair que le nouvel algorithme surpasse largement ses homologues présentés précédemment à bien des égards.
« Notre méthode génère non seulement des vidéos de haute qualité avec des expressions faciales et des mouvements de tête réalistes, mais prend également en charge la génération de vidéos en ligne de 512 x 512 pixels à 40 images par seconde avec une faible latence brute. » Cela ouvre la voie à des interactions en temps réel avec des avatars réalistes qui imitent le comportement conversationnel humain, a déclaré Microsoft dans un communiqué.
En d’autres termes, le réseau neuronal peut créer de fausses vidéos de haute qualité basées sur une seule image. Il n'est donc pas surprenant que Microsoft qualifie le VASA-1 d'« offre de recherche » et n'envisage pas de le commercialiser, du moins pas de si tôt. Voir plus.
Taux:
☆
☆
☆
☆
☆
appréciation 3.3 depuis 9 voix.