Le web se remplit de textes générés par l’IA

L’intelligence artificielle générative n’est plus seulement un outil utilisé pour produire des textes, des images ou du code. Elle est en train de modifier la texture même du web. Une étude menée à partir de données de l’Internet Archive estime qu’environ le tiers des nouveaux sites créés depuis 2022 contiennent du texte généré ou assisté par l’IA. En mai 2025, cette proportion atteignait environ 35 %, selon les chercheurs associés notamment à Stanford, à l’Imperial College London et à l’Internet Archive.

L’étude, intitulée The Impact of AI-Generated Text on the Internet, s’inscrit dans un contexte de préoccupations croissantes autour de la qualité de l’information en ligne. Depuis l’arrivée publique de ChatGPT à la fin de 2022, les outils d’IA générative ont rendu la production massive de contenus beaucoup plus simple, rapide et peu coûteuse. Résultat : une partie grandissante du web serait désormais façonnée non plus directement par des humains, mais par des systèmes capables de produire automatiquement des textes crédibles, fluides et optimisés.

Pour mesurer ce phénomène, les chercheurs ont analysé des échantillons de sites archivés entre août 2022 et mai 2025. Ils ont utilisé des instantanés conservés par la Wayback Machine, puis extrait le contenu textuel des pages afin de le soumettre à un outil de détection appelé Pangram v3. Selon l’équipe, cet outil s’est révélé le plus efficace parmi ceux testés pour repérer les textes générés par l’IA. Cette méthode leur a permis de suivre la progression de ces contenus au fil des mois.

Les chercheurs voulaient aussi vérifier plusieurs critiques souvent formulées à l’égard des textes produits par l’IA. Est-ce que ces contenus réduisent la diversité des points de vue ? Est-ce qu’ils augmentent la désinformation ? Est-ce qu’ils rendent l’écriture plus neutre, plus lisse, plus positive ? Est-ce qu’ils citent moins leurs sources ? Est-ce qu’ils appauvrissent la densité sémantique des textes ? Est-ce qu’ils contribuent à uniformiser les voix et les styles ?

Les résultats sont plus nuancés qu’on pourrait le croire. L’étude ne conclut pas à une hausse vérifiable des fausses informations dans les contenus identifiés comme générés par l’IA. Les chercheurs n’ont pas non plus observé une disparition nette des liens vers les sources. En revanche, deux tendances ressortent plus clairement : les textes générés par l’IA semblent réduire la diversité stylistique et sémantique du web, tout en rendant le ton général plus positif, plus convenu et plus uniforme.

Cette transformation est importante, car le web sert aussi de matière première aux futurs systèmes d’intelligence artificielle. Si une part croissante des contenus en ligne est générée par des modèles, ces mêmes modèles risquent ensuite d’être entraînés sur des textes déjà produits par d’autres IA. À long terme, cela pourrait accentuer l’uniformisation des contenus, réduire la présence de voix originales et compliquer la distinction entre production humaine, production assistée et production entièrement automatisée.

Pour l’instant, les chercheurs ne décrivent pas un effondrement brutal de la qualité du web. Ils parlent plutôt d’une mutation rapide. En trois ans, l’IA générative aurait déjà pris une place majeure dans la publication en ligne. L’un des coauteurs de l’étude, Jonáš Doležal, de Stanford, estime que cette transformation s’est produite à une vitesse remarquable après des décennies durant lesquelles le web avait surtout été façonné par des humains.

L’équipe souhaite maintenant prolonger ses travaux avec l’Internet Archive afin de créer un outil de suivi continu. L’objectif serait de mesurer, mois après mois, l’évolution des contenus générés par l’IA et de mieux comprendre quels types de sites, quelles langues et quelles catégories de contenus sont les plus touchés. Ce suivi pourrait devenir précieux pour les chercheurs, les journalistes, les plateformes et les citoyens qui tentent de comprendre comment l’IA redéfinit l’espace public numérique.

L’enjeu dépasse donc la simple question de savoir si un texte a été écrit par un humain ou par une machine. Il touche à la diversité, à la confiance et à la mémoire du web. Si l’IA devient un partenaire de création, elle peut enrichir certains usages. Mais si elle sert surtout à produire des contenus répétitifs, optimisés et interchangeables, le web pourrait perdre une part de ce qui a longtemps fait sa richesse : des voix multiples, imparfaites, contradictoires et profondément humaines.

Source : The Impact of AI-Generated Text on the Internet

******

Du lundi au vendredi, Bruno Guglielminetti vous propose un regard sur l’essentiel de l’actualité numérique avec 120 secondes de Tech.

Ou encore…

Écoutez la plus récente édition de Mon Carnet,
le magazine hebdomadaire de l’actualité numérique.


En savoir plus sur Mon Carnet

Subscribe to get the latest posts sent to your email.

Laisser un commentaire