
Depuis des années, les développeurs de systèmes d’intelligence artificielle s’appuient sur de vastes collections de textes, d’images et de vidéos extraites d’internet pour entraîner leurs modèles. Cependant, une nouvelle étude menée par la Data Provenance Initiative, affiliée au MIT, révèle une baisse significative des contenus accessibles pour l’entraînement de l’I.A.
Selon cette étude, qui a analysé 14 000 domaines web inclus dans trois ensembles de données d’entraînement couramment utilisés, 5 % des données totales et 25 % des sources de la plus haute qualité ont été restreintes. Ces restrictions se manifestent principalement via le Robots Exclusion Protocol, un fichier robots.txt permettant aux propriétaires de sites web d’empêcher les bots d’accéder à leurs pages.
Le phénomène résulte d’une méfiance croissante des créateurs de contenu envers l’utilisation de leurs données pour l’entraînement de l’I.A. Des plateformes comme Reddit et StackOverflow ont commencé à facturer l’accès à leurs données, et certains éditeurs, dont le New York Times, ont poursuivi en justice des entreprises comme OpenAI et Microsoft pour violation de droits d’auteur.
Cette situation complique l’accès aux données pour les petites entreprises d’I.A. et les chercheurs académiques qui dépendent des ensembles de données publics. Les grandes entreprises, telles qu’OpenAI et Google, continuent de chercher des moyens d’acquérir des données, parfois en contournant les politiques de données ou en signant des accords avec des éditeurs.
Le recul de l’accès aux données ne concerne pas uniquement les entreprises commerciales. Les chercheurs universitaires et les organisations à but non lucratif, qui jouent un rôle crucial dans l’innovation et la régulation de l’I.A., se trouvent également pénalisés. Ces entités, souvent limitées par des budgets restreints, ne peuvent rivaliser avec les géants technologiques pour l’accès aux données de qualité, ce qui pourrait freiner leurs recherches et innovations.
En réponse à cette crise, certains experts appellent à la création de nouvelles normes et outils pour permettre aux propriétaires de sites web de contrôler plus finement l’utilisation de leurs données. Par exemple, des solutions pourraient être développées pour distinguer l’utilisation des données à des fins commerciales et non commerciales, permettant ainsi une utilisation plus éthique et équilibrée des ressources en ligne.
Source : https://www.nytimes.com/2024/07/19/technology/ai-data-restrictions.html
En savoir plus sur Mon Carnet
Subscribe to get the latest posts sent to your email.


