science

DeepMind présente Perception Testing, une nouvelle norme multimédia utilisant des vidéos du monde réel pour aider à évaluer les capacités perceptives d’un modèle d’apprentissage automatique

Les critères ont influencé l’intelligence artificielle (IA) dans la définition des objectifs de recherche et permettent aux chercheurs de suivre les progrès vers ces objectifs.

La perception est une composante importante de l’intelligence, qui est le processus d’expérience du monde à travers les sens. Elle prend de plus en plus d’importance dans des domaines tels que la robotique, les voitures autonomes, les assistants personnels et l’imagerie médicale, qui développent des agents dotés d’une compréhension perceptive du monde à l’échelle humaine.

Perceiver, Flamingo et BEiT-3 sont quelques exemples de modèles multimédias qui s’efforcent d’être des modèles de perception plus complets. Mais comme aucune référence spécifique n’était disponible, leurs évaluations étaient basées sur plusieurs ensembles de données spécialisées. Ces critères incluent Kinetics pour la reconnaissance d’action vidéo, une suite audio pour la notation des événements audio, un MOT pour le suivi d’objets et un VQA pour répondre aux questions d’image.

Plusieurs autres critères liés à la cognition sont actuellement utilisés dans la recherche en IA. Bien que ces normes aient permis des avancées étonnantes dans la conception et le développement d’architectures de modèles d’IA et de méthodologies de formation, chacune se concentre exclusivement sur un petit sous-ensemble de perception : les tâches visuelles de questions-réponses se concentrent généralement sur la compréhension du paysage sémantique de haut niveau. Les tâches de traçage d’objet capturent généralement l’apparence de niveau inférieur d’objets individuels, comme la couleur ou la texture. Les critères d’image n’incluent pas les aspects temporels. Il n’y a que quelques normes qui fournissent des affectations à travers les méthodes visuelles et audio.

La nouvelle recherche DeepMind a produit un ensemble de films d’événements du monde réel qui ont été spécialement créés et classés selon six types de missions différents pour résoudre bon nombre de ces problèmes. Elles sont:

  • piste chose: Une boîte est dessinée autour d’un objet au début du film, et le modèle doit renvoyer un chemin complet à travers le film.
  • Localisation des procédures temporelles : Le modèle doit compiler et traduire un ensemble prédéfini d’actions en temps opportun.
  • Localisation audio temporelle : Le modèle doit traduire et catégoriser une série de sons dans le temps.
  • Choix multiple pour répondre aux questions vidéo Il se compose de questions textuelles liées à la vidéo, chacune avec trois réponses possibles.
  • Répondez aux questions textuelles sur la vidéo L’utilisation d’un formulaire qui doit renvoyer le chemin d’un ou plusieurs objets est connue sous le nom de réponse à des questions vidéo ancrées.

Pour créer un ensemble de données équilibré, les chercheurs ont utilisé des ensembles de données tels que CATER et CLEVRER et ont créé 37 scénarios vidéo avec différentes permutations. Les vidéos présentent des jeux simples ou des tâches quotidiennes, leur permettant d’identifier les tâches qui nécessitent des connaissances en sémantique, une compréhension de la physique, un raisonnement ou une mémoire temporelle et des capacités d’abstraction.

Les développeurs de modèles peuvent utiliser l’ensemble de réglage fin (20 %) dans un test de perception pour expliquer la nature des tâches aux modèles. Les données restantes (80 %) consistaient en des tests intermittents où les performances ne peuvent être évaluées que par notre serveur d’évaluation et notre division de validation publique.

Les chercheurs testent leur travail à travers les six tâches informatiques, et les résultats de l’évaluation sont complets sur de nombreux aspects. Pour une étude plus complète, ils ont également posé des questions sur différents types de situations présentées dans les vidéos et différents types de réflexion nécessaires pour répondre aux questions liées aux activités visuelles de questions-réponses.

Lors de la création de la norme, il était essentiel de garantir la diversité des participants et des téléspectateurs dans les vidéos. Pour y parvenir, ils ont sélectionné des volontaires de plusieurs pays représentant différents groupes raciaux et ethniques et sexes pour représenter la diversité dans chaque type de scénario vidéo.

Les tests de perception sont destinés à stimuler et à guider les recherches futures sur les modèles cognitifs larges. À l’avenir, ils espèrent travailler avec la communauté de la recherche multimédia pour ajouter plus de métriques, de tâches, d’annotations ou même de langues à la norme.

This Article is written as a research summary article by Marktechpost Staff based on the research paper 'Perception Test: A Diagnostic Benchmark for Multimodal Models'. All Credit For This Research Goes To Researchers on This Project. Check out the paper, github link and reference article.

Please Don't Forget To Join Our ML Subreddit


Tanushree Shenwai est consultante stagiaire chez MarktechPost. Elle poursuit actuellement un baccalauréat en technologie de l’Indian Institute of Technology (IIT), Bhubaneswar. Elle est passionnée par la science des données et a un vif intérêt pour le champ d’application de l’intelligence artificielle dans divers domaines. Elle est passionnée par l’exploration des nouveaux développements technologiques et de leurs applications dans le monde réel.


Delphine Perrault

"Solutionneur de problèmes extrêmes. Chercheur avide de bacon. Écrivain maléfique. Geek du Web. Défenseur des zombies depuis toujours."

Articles similaires

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Bouton retour en haut de la page
Fermer
Fermer