Des chercheurs de l’UCLA proposent PhyCV : une bibliothèque Python de vision par ordinateur inspirée de la physique
L’intelligence artificielle fait des progrès notables dans le domaine de la vision par ordinateur. L’un des principaux domaines de développement est l’apprentissage en profondeur, dans lequel les réseaux de neurones sont entraînés sur d’énormes ensembles de données d’images pour reconnaître et classer des objets, des scènes et des événements. Cela a entraîné des améliorations significatives dans la reconnaissance d’images et la détection d’objets. La combinaison de la vision par ordinateur avec d’autres technologies ouvre diverses passerelles vers de nouvelles possibilités et de nouveaux horizons pour l’intelligence artificielle.
Dans la dernière innovation, Jalali-Lab @ UCLA a développé une nouvelle bibliothèque Python appelée PhyCV, qui est la première bibliothèque Python de vision par ordinateur basée sur la physique. Cette bibliothèque unique utilise des algorithmes basés sur les lois et les équations de la physique pour analyser les données d’imagerie. Ces algorithmes simulent la façon dont la lumière traverse de nombreux matériaux physiques et sont basés sur des équations mathématiques plutôt que sur une série de règles artisanales. Les algorithmes de PhyCV sont construits sur les principes d’une méthode d’acquisition de données rapide appelée Photonic Time Stretching.
Les trois algorithmes inclus dans PhyCV sont – l’algorithme de transformation d’étirement de phase (PST), l’algorithme d’extraction de gradient adaptatif de phase (PAGE), l’amélioration de la visibilité via l’algorithme de diffraction virtuelle et de détection cohérente (VEViD).
Algorithme de transformation d’étendue de phase (PST)
L’algorithme PST de la bibliothèque PhyCV identifie les contours et les textures des images. L’algorithme simule la façon dont la lumière se déplace à travers un appareil avec certaines caractéristiques de diffraction, puis détecte de manière cohérente l’image suivante. L’algorithme fonctionne mieux avec les images présentant des déficiences visuelles et a été utilisé dans diverses applications, notamment l’amélioration de la précision des examens IRM, l’identification des vaisseaux sanguins dans les images rétiniennes, etc.
Algorithme d’extracteur de champ de gradient adaptatif (PAGE)
L’algorithme PAGE détermine les bords et les orientations des images en utilisant les principes de la physique. Essentiellement, PAGE simule le processus de passage de la lumière à travers un appareil avec une structure de réfraction définie, ce qui entraîne la conversion d’une image en une fonction complexe. Les informations sur les arêtes sont stockées dans les composants réels et imaginaires du résultat. Les chercheurs mentionnent comment PAGE peut être utilisé comme méthode de prétraitement dans divers problèmes d’apprentissage automatique.
Amélioration de la visibilité via l’algorithme VEViD
L’algorithme VEViD améliore les images en basse lumière et en couleur en considérant un champ lumineux spatialement variable et en utilisant des processus physiques tels que la diffraction et la détection cohérente. Il le fait avec une latence minimale et peut donc augmenter la précision du modèle de vision par ordinateur dans des conditions de faible luminosité. Une approximation spécifique de VEViD, connue sous le nom de VEViD-lite, peut améliorer la vidéo 4K jusqu’à 200 images par seconde. L’équipe de recherche a comparé l’algorithme de VEViD avec des modèles de réseaux neuronaux populaires montrant comment VEViD affiche une qualité d’image exceptionnelle avec une vitesse de traitement supérieure à seulement un à deux ordres de grandeur.
PhyCV est disponible sur github Il peut être facilement installé via le point. Les algorithmes de PhyCV peuvent même être implémentés dans des dispositifs physiques réels pour un calcul plus efficace. PhyCV semble sans aucun doute intéressant et ressemble à un développement important dans le domaine de la vision par ordinateur. Ainsi, les progrès de l’intelligence artificielle et de la vision par ordinateur sont certainement à l’origine d’un large éventail d’applications avancées.
scanner le github Et Le projet. Tout le mérite de cette recherche revient aux chercheurs de ce projet. N’oubliez pas non plus de vous inscrire Notre page RedditEt canal de discordeEt Et Courrieloù nous partageons les dernières nouvelles sur la recherche en IA, des projets d’IA sympas, et plus encore.
Tania Malhotra est en dernière année à l’Université d’études pétrolières et énergétiques de Dehradun et poursuit un BTech en génie informatique avec une spécialisation en intelligence artificielle et en apprentissage automatique.
Elle est passionnée par la science des données et possède une bonne pensée analytique et critique, ainsi qu’un vif intérêt pour l’acquisition de nouvelles compétences, la direction de groupes et la gestion du travail de manière organisée.