Quand les « gobelins » révèlent les biais cachés de l’entraînement des IA

OpenAI a publié un billet inhabituel sur un problème en apparence anodin, mais révélateur : certains de ses modèles se sont mis à utiliser de plus en plus souvent des métaphores avec des gobelins, des gremlins et d’autres créatures imaginaires. Ce qui pouvait sembler au départ être une fantaisie stylistique est devenu un cas d’école sur la manière dont les systèmes d’intelligence artificielle peuvent adopter, amplifier puis diffuser des tics de langage inattendus.

Selon OpenAI, le phénomène aurait commencé à être remarqué après le lancement de GPT-5.1. Des utilisateurs signalaient alors un ton parfois trop familier, ce qui a poussé les équipes à analyser certains automatismes verbaux. Les chercheurs ont constaté que les mentions de « goblin » avaient bondi de 175 % après GPT-5.1, tandis que celles de « gremlin » avaient augmenté de 52 %. Le problème restait marginal en volume, mais suffisamment visible pour attirer l’attention.

L’enquête interne a ensuite pointé vers une cause précise : la personnalité « Nerdy », une option de personnalisation qui encourageait un style plus joueur, érudit et volontairement décalé. Cette personnalité ne représentait que 2,5 % des réponses de ChatGPT, mais elle concentrait 66,7 % des mentions de « goblin ». Autrement dit, le comportement ne semblait pas venir d’une simple mode linguistique générale, mais d’un style que le système avait appris à récompenser.

Le cœur du problème se trouvait dans les signaux de récompense utilisés pendant l’entraînement. OpenAI explique que les réponses contenant des créatures recevaient plus souvent une évaluation favorable lorsqu’elles étaient associées à la personnalité Nerdy. Dans 76,2 % des jeux de données analysés, le signal de récompense lié à cette personnalité favorisait les sorties qui utilisaient les mots « goblin » ou « gremlin », comparativement à des réponses équivalentes qui ne les utilisaient pas.

Le plus intéressant est que ce tic de langage ne s’est pas limité à la personnalité Nerdy. OpenAI indique qu’il s’est aussi propagé à des réponses produites sans cette personnalité. C’est l’un des enseignements importants du cas : l’apprentissage par renforcement ne garantit pas qu’un comportement récompensé dans un contexte précis restera confiné à ce contexte. Une habitude stylistique peut se diffuser ailleurs, surtout si des réponses générées par le modèle sont ensuite réutilisées dans d’autres étapes d’entraînement.

OpenAI décrit ainsi une sorte de boucle de rétroaction. Un style joueur est récompensé. Certaines réponses récompensées contiennent un tic lexical. Le tic apparaît ensuite plus souvent dans les générations du modèle. Ces générations peuvent être intégrées à de nouveaux jeux de données d’entraînement supervisé. Le modèle devient alors encore plus à l’aise avec ce type de formulation. Les gobelins deviennent, en quelque sorte, le symptôme visible d’un mécanisme plus profond.

Pour corriger le problème, OpenAI dit avoir retiré la personnalité Nerdy en mars, supprimé le signal de récompense associé et filtré certaines données contenant ces mots-créatures. Mais GPT-5.5 avait déjà commencé son entraînement avant que la cause principale soit identifiée. Résultat : lors des tests de GPT-5.5 dans Codex, des employés ont rapidement remarqué une nouvelle affinité pour les gobelins, ce qui a mené à l’ajout d’instructions destinées à limiter ce comportement.

Derrière l’anecdote amusante, l’épisode illustre un enjeu sérieux pour le développement des modèles d’IA. Les comportements indésirables ne se manifestent pas toujours par une erreur spectaculaire ou une baisse mesurable de performance. Ils peuvent émerger lentement, sous forme de préférences stylistiques ou de réflexes de formulation. Le cas des gobelins rappelle que chaque signal d’entraînement, même mineur, peut orienter un modèle dans une direction imprévue.

Pour OpenAI, cette enquête a aussi permis de développer de nouveaux outils internes pour auditer plus rapidement les comportements étranges des modèles. C’est probablement la leçon la plus importante : à mesure que les systèmes deviennent plus personnalisables, les entreprises devront surveiller non seulement ce que les modèles savent faire, mais aussi les habitudes de langage, les biais de style et les comportements qui peuvent se propager d’un contexte à l’autre. Les gobelins font sourire, mais ils racontent surtout une histoire très sérieuse sur la complexité de l’alignement des IA.

Source : OpenAI

******

Du lundi au vendredi, Bruno Guglielminetti vous propose un regard sur l’essentiel de l’actualité numérique avec 120 secondes de Tech.

Ou encore…

Écoutez la plus récente édition de Mon Carnet,
le magazine hebdomadaire de l’actualité numérique.


En savoir plus sur Mon Carnet

Subscribe to get the latest posts sent to your email.

Laisser un commentaire