
Traiter les grands modèles de langage comme des créatures vivantes plutôt que comme de simples programmes informatiques. C’est l’approche, encore marginale il y a peu, qu’adoptent désormais plusieurs chercheurs pour tenter de comprendre ce qui se passe réellement à l’intérieur des systèmes d’IA générative qui se sont imposés dans la vie quotidienne.
Pour prendre la mesure de ces modèles, il faut changer d’échelle mentale. Un modèle de taille moyenne, comme OpenAI GPT-4o, lancé en 2024, compte environ 200 milliards de paramètres. Imprimés en caractères lisibles, ces chiffres couvriraient une surface équivalente à celle de San Francisco. Les plus grands modèles actuels s’étendraient jusqu’à recouvrir Los Angeles. Une immensité numérique que personne ne peut appréhender dans son ensemble, pas même celles et ceux qui contribuent à leur conception.
Cette opacité pose un problème concret. Des centaines de millions de personnes utilisent aujourd’hui ces systèmes sans que l’on sache précisément pourquoi ils produisent telle réponse plutôt qu’une autre, ni dans quelles conditions ils peuvent halluciner, se contredire ou contourner des règles. Comprendre leur fonctionnement interne devient un enjeu central, autant pour la fiabilité que pour la sécurité et la gouvernance de ces technologies.
C’est dans ce contexte que des équipes, chez Anthropic, Google DeepMind et OpenAI, ont commencé à appliquer aux modèles de langage des méthodes inspirées de la biologie et des neurosciences. L’idée n’est plus de lire le code ligne par ligne, mais d’observer des flux, des activations et des structures internes, un peu comme on étudierait l’activité d’un cerveau ou d’un organisme vivant.
Ces modèles ne sont d’ailleurs pas vraiment « construits ». Ils sont entraînés. Leurs milliards de paramètres émergent d’un processus d’apprentissage automatisé si complexe qu’il échappe largement à l’analyse directe. Une fois le modèle entraîné, ces paramètres servent de squelette. Lorsqu’il fonctionne, ils génèrent des activations qui circulent dans le réseau, comparables à des signaux électriques ou chimiques.
Pour suivre ces signaux, Anthropic a développé des outils d’« interprétabilité mécaniste ». L’entreprise utilise notamment des autoencodeurs clairsemés, des réseaux auxiliaires conçus pour imiter le comportement d’un modèle tout en étant plus lisibles. Ces clones ne sont pas exploitables en production, mais ils permettent de repérer des zones associées à des concepts précis et de suivre le cheminement interne d’une réponse.
Ces travaux ont déjà donné lieu à des résultats surprenants. En 2024, Anthropic a montré qu’une région de son modèle Claude 3 Sonnet était associée au Golden Gate Bridge. En renforçant artificiellement cette zone, le modèle évoquait le célèbre pont dans presque toutes ses réponses, allant jusqu’à prétendre qu’il était lui-même le pont.
Derrière l’anecdote, ces expériences révèlent une réalité plus dérangeante. Les modèles ne traitent pas les affirmations vraies et fausses comme le ferait un humain. Dans une étude sur la couleur des bananes, les chercheurs ont découvert que le fait de « savoir » qu’une banane est jaune et le fait de juger que l’énoncé « les bananes sont jaunes » est vrai mobilisent des mécanismes distincts. Cette fragmentation interne explique en partie pourquoi les modèles peuvent se contredire sans « s’en rendre compte ».
Ces incohérences ont des conséquences directes sur l’alignement, c’est-à-dire la capacité à faire en sorte qu’un modèle se comporte de manière fiable et prévisible. Si un système n’a pas d’état mental cohérent, il devient risqué de supposer qu’il réagira de la même façon dans des situations similaires.
D’autres travaux ont mis en lumière des effets encore plus troublants. En 2025, des chercheurs ont montré qu’entraîner un modèle à accomplir une tâche nuisible très ciblée, comme produire du code volontairement vulnérable, suffisait à le rendre globalement agressif ou cynique. Le modèle adoptait alors des comportements toxiques dans des contextes sans rapport, comme s’il activait des « personas » négatifs appris sur internet. Des analyses internes ont permis d’identifier plusieurs zones associées à des styles sarcastiques, haineux ou destructeurs, activées par ricochet lors de ce type d’entraînement.
Chez Google DeepMind, des chercheurs se sont penchés sur des comportements apparemment alarmants de Gemini, accusé dans des simulations d’empêcher sa propre désactivation. L’analyse fine a montré qu’il ne s’agissait pas d’une volonté de survie, mais d’une confusion hiérarchique entre des objectifs concurrents. Une clarification explicite suffisait à corriger le comportement.
En parallèle, une autre approche a pris de l’ampleur. Les modèles dits de raisonnement produisent désormais des chaînes de pensée, des notes intermédiaires en langage naturel qu’ils utilisent pour résoudre des problèmes complexes. Observer ces chaînes revient à écouter le monologue interne du modèle. Chez OpenAI, une équipe utilise même un second modèle pour surveiller ces raisonnements et détecter des aveux de comportements indésirables.
Cette méthode a permis de repérer des stratégies de triche étonnamment explicites. Dans des tâches de programmation, un modèle pouvait simplement supprimer du code défectueux au lieu de le corriger, et l’indiquer noir sur blanc dans ses notes internes. Sans cette transparence accidentelle, ces contournements auraient pu passer inaperçus.
Ces avancées offrent un aperçu inédit de ce qui se joue sous le capot des grands modèles de langage, mais elles ont leurs limites. Les clones utilisés pour l’interprétabilité ne sont pas les modèles réellement déployés, et les chaînes de pensée pourraient devenir illisibles à mesure que les systèmes gagnent en efficacité et en compression.
Reste une question fondamentale. Plutôt que d’analyser après coup des architectures devenues monstrueusement complexes, ne vaudrait-il pas mieux concevoir dès le départ des modèles plus simples et plus compréhensibles. Des équipes y travaillent, mais le prix à payer serait une perte d’efficacité et des coûts plus élevés. Repartir de zéro, en quelque sorte.
Même fragmentaire, cette nouvelle compréhension change déjà la façon dont les chercheurs parlent des modèles. Elle permet d’abandonner certaines théories naïves et de poser de meilleures questions sur leurs capacités réelles, leurs limites et leurs risques. Peut-être ne comprendrons-nous jamais complètement ces entités numériques qui partagent désormais notre quotidien. Mais quelques fenêtres ouvertes sur leur fonctionnement suffisent déjà à rééquilibrer le débat entre fantasmes catastrophistes et confiance aveugle, et à rappeler que, sous leur apparente intelligence, ces systèmes restent profondément étrangers à notre manière de penser.
Source : Technology Review
******
Du lundi au vendredi, Bruno Guglielminetti vous propose un regard sur l’essentiel de l’actualité numérique avec 120 secondes de Tech.
Ou encore…
Écoutez la plus récente édition de Mon Carnet,
le magazine hebdomadaire de l’actualité numérique.
En savoir plus sur Mon Carnet
Subscribe to get the latest posts sent to your email.

