Un tiers du Web neuf porte déjà la marque de l’IA

Une nouvelle étude universitaire donne une mesure rare de l’empreinte de l’intelligence artificielle générative sur le Web. Selon les chercheurs Jonas Dolezal, Sawood Alam, Mark Graham et Maty Bohacek, associés à l’Imperial College London, à l’Internet Archive et à l’Université Stanford, environ 35 % des sites nouvellement publiés au milieu de 2025 étaient classés comme générés ou assistés par l’IA . Avant le lancement public de ChatGPT à la fin de 2022, cette proportion était pratiquement nulle.

Le chiffre frappe parce qu’il ne concerne pas seulement quelques plateformes sociales, des blogues automatisés ou des contenus marketing isolés. Les chercheurs ont voulu mesurer le phénomène à l’échelle du Web ouvert. Pour y arriver, ils ont constitué un échantillon représentatif de sites publiés entre 2022 et 2025 à partir de l’Internet Archive, puis ils ont appliqué un détecteur de texte généré par IA jugé robuste dans leur protocole d’évaluation . Leur ambition était simple : savoir si les craintes entourant un Web de plus en plus artificiel reposent sur une réalité mesurable.

Le résultat confirme une transformation rapide. En trois ans, l’IA générative est passée d’un rôle marginal à une présence massive dans la production de nouvelles pages Web. Cette mutation ne signifie pas que tout le Web serait désormais artificiel, ni même que les contenus produits avec l’IA seraient nécessairement mauvais. Mais elle indique qu’une partie importante du Web récent n’est plus écrite uniquement par des humains.

L’étude apporte aussi une nuance importante. Les chercheurs ne trouvent pas de preuve statistiquement significative d’une baisse globale de l’exactitude factuelle des contenus lorsque la part de textes générés ou assistés par IA augmente . Autrement dit, le problème ne serait pas d’abord une explosion de fausses informations facilement vérifiables. Le risque serait plus subtil : une modification de la texture même du Web, de son ton, de sa diversité et de la manière dont les idées circulent.

Deux effets ressortent clairement. Le premier est une contraction sémantique. Les sites identifiés comme générés ou assistés par IA présentent une similarité sémantique plus élevée que les sites non identifiés comme tels. Les chercheurs mesurent une similarité moyenne 33 % plus élevée entre les sites associés à l’IA et les autres contenus analysés . En termes simples, les contenus se ressemblent davantage. Les angles, les formulations et les idées tendent à converger vers une moyenne plus uniforme.

Le second effet concerne le ton. Les chercheurs observent une hausse du sentiment positif dans les contenus associés à l’IA. Le score moyen de positivité des textes générés ou assistés par IA serait 107 % plus élevé que celui des sites non associés à l’IA . Ce point est révélateur. Le Web produit avec l’aide des modèles génératifs pourrait devenir plus lisse, plus poli, plus rassurant, mais aussi moins conflictuel, moins rugueux et moins représentatif de la diversité réelle des points de vue humains.

Les chercheurs ont aussi testé d’autres inquiétudes courantes. Ils n’ont pas trouvé de preuve solide selon laquelle les contenus associés à l’IA contiendraient moins de liens externes, seraient significativement plus redondants ou mèneraient déjà à une véritable monoculture stylistique . Cette prudence est importante. Elle évite de transformer une étude sérieuse en procès général de l’IA. Le constat n’est pas que l’IA détruit le Web, mais qu’elle le transforme rapidement et d’une manière qui mérite d’être suivie.

La méthodologie comporte aussi des limites. Les chercheurs se concentrent sur le texte visible des pages Web, en anglais seulement, et excluent les textes trop courts. Ils utilisent le détecteur Pangram v3, retenu parce qu’il s’est montré plus stable que d’autres outils testés, notamment sur des contenus intégrés dans du HTML et sur différents types de textes . Même si ce choix est justifié, la détection de textes générés par IA demeure un exercice imparfait. Les résultats doivent donc être lus comme une estimation robuste, pas comme un inventaire définitif du Web.

L’enjeu dépasse la simple curiosité statistique. Si une part croissante du Web est générée à partir de modèles entraînés sur le Web lui-même, les futurs modèles d’IA risquent d’ingérer de plus en plus de contenus produits par d’autres IA. Les chercheurs associent cette dynamique au risque de dégradation des modèles, souvent résumé par l’idée de « model collapse », même si les effets concrets restent encore à documenter .

Pour les internautes, la question centrale devient celle de la confiance. Comment distinguer une contribution humaine, un texte assisté, une page automatisée ou un contenu produit à grande échelle pour attirer du trafic ? Les chercheurs suggèrent que la réponse ne passera pas uniquement par la détection après coup. Ils évoquent plutôt la nécessité de mieux vérifier la provenance des contenus, notamment par des mécanismes de certification et par des algorithmes qui valorisent la diversité sémantique et l’origine vérifiable des publications .

Cette étude ne signe donc pas la mort du Web humain. Elle montre plutôt que le Web neuf est déjà devenu hybride. L’humain n’a pas disparu, mais il partage désormais l’espace avec des machines capables de produire vite, beaucoup et à faible coût. Le vrai défi sera de préserver ce qui fait la valeur du Web : la pluralité des voix, la vérifiabilité des sources, les points de vue singuliers et cette part d’imprévu qui ne sort pas toujours proprement d’un modèle statistique.

Source : Recherche

******

Du lundi au vendredi, Bruno Guglielminetti vous propose un regard sur l’essentiel de l’actualité numérique avec 120 secondes de Tech.

Ou encore…

Écoutez la plus récente édition de Mon Carnet,
le magazine hebdomadaire de l’actualité numérique.


En savoir plus sur Mon Carnet

Subscribe to get the latest posts sent to your email.

Laisser un commentaire