Tech

Des chercheurs introduisent un algorithme basé sur l’apprentissage automatique pour approximer efficacement les multiples de matrice

La multiplication matricielle est l’une des opérations arithmétiques les plus importantes et les plus exigeantes en apprentissage automatique. En conséquence, de nombreuses recherches ont été effectuées sur les multiplications matricielles qui peuvent être bien approximées. Les chercheurs tentent de développer un système basé sur l’apprentissage qui fonctionne bien mieux que les méthodes actuelles de cette étude. Il s’exécute 100 fois plus vite que les produits matriciels réels et dix fois plus vite que les algorithmes d’approximation les plus populaires, selon des expériences utilisant des centaines de matrices de divers domaines. Cette approche présente également l’avantage intéressant de nécessiter des opérations à double somme nulle lorsqu’un seul tableau est déjà connu, ce qui est un scénario typique.

Ces résultats indiquent une base plus prometteuse pour l’apprentissage automatique à partir de produits matriciels clairsemés, factorisés et quantitatifs qui ont récemment été largement étudiés et investis dans le matériel : une combinaison de hachage, de médiation et de réarrangement d’octets. La principale difficulté est de réduire le temps de calcul nécessaire pour approximer les opérations linéaires avec un niveau de précision donné. Lorsque l’on obtient une matrice de données A dont les lignes sont des échantillons et que l’on veut appliquer un facteur linéaire B à ces échantillons, cette situation se produit naturellement en apprentissage automatique et en fouille de données. B peut être, entre autres, un classificateur linéaire, une pente linéaire ou une matrice d’imputation.

À titre d’illustration pratique, faites une approximation d’un classificateur softmax qui est formé pour prédire les étiquettes d’image à l’aide de motifs obtenus à partir d’un réseau de neurones. Ici, les colonnes B représentent les vecteurs de poids pour chaque catégorie, tandis que les lignes A représentent les motifs pour chaque image. En calculant le produit AB et en obtenant l’argmax dans chaque ligne de résultat, la classification est obtenue. Dans les ensembles de données CIFAR-10 et CIFAR-100, notre technologie a surpassé ses meilleurs concurrents. Les résultats sont présentés dans la figure ci-dessous.

Source : https://arxiv.org/pdf/2106.10860v1.pdf

Au lieu de cela, MADDNESS1 implémente une fonction de traitement non linéaire et simplifie le problème aux recherches de table. De plus, lorsque B est connu dès le début, par exemple lorsqu’un modèle linéaire entraîné est appliqué à de nouvelles données, MADDNESS ne nécessite aucune multiplication par addition. L’approche est étroitement liée aux méthodes de recherche de similarité vectorielle. Au lieu d’utiliser une fonction de quantification coûteuse avec des multiplications multiples, un ensemble de fonctions de quantification sans ajouts de multiplication a été introduit.

READ  Unified Broadcast permet aux fournisseurs de services OTT de diffuser directement du contenu VoD

Les contributions de l’article peuvent être résumées comme suit :

  1. Une famille rapide d’algorithmes de quantification vectorielle éducatifs capables d’encoder plus de 100 gigaoctets de données par seconde dans un seul thread CPU.
  2. Une technique de mise en commun correcte pour une faible bande passante évite les fluctuations soudaines, la saturation et l’inondation.
  3. Une méthode de multiplication matricielle approximative basée sur ces fonctions. Des expériences avec des centaines de matrices différentes montrent que notre approche dépasse largement les options actuelles. Il comprend également des garanties de qualité théoriques.

La conclusion empirique cruciale est que l’approche MADDNESS proposée fournit une accélération d’un ordre de grandeur par rapport aux méthodes AMM actuelles et une accélération jusqu’à deux ordres de grandeur par rapport à la ligne de base mobilisée. Les tableaux peuvent également être compressés jusqu’à trois fois leur taille. Ces résultats sont calculés sur le processeur et ne sont disponibles que lorsqu’il existe un seul ensemble d’apprentissage matriciel. Les chercheurs revendiquent des performances supérieures uniquement lorsqu’une matrice est plus grande que l’autre et que les deux matrices sont longues. C’est le système dans lequel la fonction de cryptage à grande vitesse (mais moins précise) est utile.

Lorsque la matrice la plus complète est connue à l’avance, l’approche perd de son utilité ; Cette hypothèse est fréquente dans la recherche de similarité et élimine le besoin d’une fonction d’encodeur rapide. Il est possible que la sommation d’entiers approximatifs et les recherches de table combinées soient utilisables même sans aucune de ces hypothèses, mais leur création est une tâche pour l’avenir. Le code source de MADDNESS est disponible gratuitement sur GitHub.

This Article is written as a summary article by Marktechpost Staff based on the paper 'Multiplying Matrices Without Multiplying'. All Credit For This Research Goes To Researchers on This Project. Checkout the paper, github.

Please Don't Forget To Join Our ML Subreddit

Cunégonde Lestrange

"Gourou de Twitter. Écrivain en herbe. Fauteur de troubles typique. Entrepreneur. Étudiant hipster."

Articles similaires

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Bouton retour en haut de la page
Fermer
Fermer