Tech

Google dit que les données publiques sont un jeu équitable pour former son IA • The Register

Google a mis à jour sa politique de confidentialité pour confirmer qu’il extrait les données publiques d’Internet pour former ses modèles et services d’IA, y compris le chatbot Bard et son moteur de recherche qui fournit désormais des réponses rapides aux requêtes.

le Bonne impression Actuellement en cours de recherche et développement sont les suivants : « Google utilise des informations pour améliorer nos services et développer de nouveaux produits, fonctionnalités et technologies qui profitent à nos utilisateurs et au public. Par exemple, nous utilisons des informations accessibles au public pour aider à former les modèles d’IA de Google et créer des produits et des fonctionnalités tels que Google Traduction, Bard et Cloud AI. »

Nous utilisons des informations accessibles au public pour aider à former les modèles d’IA de Google et à créer des produits et des fonctionnalités

De façon intéressante, reg Les employés en dehors des États-Unis ne pouvaient pas voir le texte cité sur le lien ci-dessus. mais Ceci est un PDF La version de la politique de Google stipule : « Nous pouvons collecter des informations accessibles au public en ligne ou provenant d’autres sources publiques pour aider à former des modèles d’IA de Google et à créer des produits et des fonctionnalités, telles que les capacités de Google Translate, Bard et Cloud AI. »

Les changements définissent la portée de Google pour la formation à l’IA. Auparavant, la politique ne faisait référence qu’aux « modèles linguistiques » et faisait référence à Google Traduction. Mais le libellé a été modifié pour inclure les « modèles d’intelligence artificielle » et inclure Bard et d’autres systèmes construits en tant qu’applications sur sa plate-forme cloud.

READ  Comment désactiver l'accès iCloud.com à vos données

Un porte-parole de Google a déclaré enregistrer Que la mise à jour n’a pas fondamentalement changé la façon dont elle entraîne ses modèles d’IA.

Notre politique de confidentialité indique depuis longtemps que Google utilise des informations accessibles au public sur le Web ouvert pour former des modèles linguistiques pour des services tels que Google Traduction. Cette dernière mise à jour indique simplement que des services plus récents tels que Bard sont également inclus. Nous intégrons des principes et des garanties de confidentialité dans le développement de nos propres technologies d’IA, conformément à nos principes d’IA », a déclaré le porte-parole dans un communiqué.

Les développeurs ont gratté Internet, des albums photo, des livres, des réseaux sociaux, du code source, de la musique, des articles, etc., pour collecter des données de formation pour les systèmes d’IA pendant des années. Ce processus est cependant controversé, étant donné qu’une partie du matériel est protégée par le droit d’auteur et a donné lieu à des poursuites judiciaires. Certaines personnes sont mécontentes que non seulement leur contenu soit utilisé pour créer des systèmes d’apprentissage automatique qui dupliquent leur travail, et donc potentiellement mettent en péril leurs moyens de subsistance, mais que la sortie des modèles soit très proche de la violation du droit d’auteur ou de la licence en régurgitant ces données de formation sans les modifier.

Ces développeurs pourraient faire valoir que leurs efforts relèvent de l’utilisation équitable, ou que la sortie des modèles est une nouvelle forme de travail et non une copie des données de formation d’origine, c’est un point vivement débattu.

READ  Microsoft fabrique la Xbox Series X | S est plus rapide dans la nouvelle mise à jour

Amnesty International, par exemple, a été poursuivie par Getty Images pour avoir récolté et utilisé à mauvais escient des millions d’images de son site Web d’images d’archives pour former des outils de conversion de texte en image. Pendant ce temps, OpenAI et son propriétaire Microsoft ont fait l’objet de multiples poursuites, l’accusant d’avoir récupéré de manière inappropriée « 300 milliards de mots sur Internet » et « des livres, des articles, des sites Web et des publications – y compris des informations personnelles obtenues sans consentement ». code source du référentiel public pour créer l’outil de programmation AI-pair GitHub Copilot.

Un représentant de Google a refusé de dire si le géant de la publicité et de la recherche supprimerait ou non les données publiques protégées par le droit d’auteur ou les publications sur les réseaux sociaux pour former ses systèmes.

Maintenant que les gens sont mieux informés sur la façon de former des modèles d’IA, certaines sociétés Internet ont commencé à facturer les développeurs pour l’accès à leurs données. pile de débordement, reddit, et Twitter, par exemple, ont introduit cette année de nouveaux frais ou règles pour accéder à leur contenu via des API. D’autres sites comme Shutterstock et Getty ont choisi de concéder sous licence leurs images à des créateurs de modèles d’IA et se sont associés à des sociétés comme méta Et nvidia. ®

Cunégonde Lestrange

"Gourou de Twitter. Écrivain en herbe. Fauteur de troubles typique. Entrepreneur. Étudiant hipster."

Articles similaires

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Bouton retour en haut de la page
Fermer
Fermer