Des chercheurs traquent la dérive des assistants IA

Les grands modèles de langage ne se contentent pas de produire du texte. Ils incarnent un personnage. C’est le point de départ d’un article de recherche publié le 19 janvier 2026 par des chercheurs associés aux programmes MATS et Anthropic Fellows, qui s’intéressent à une question rarement formulée aussi clairement. Qui est réellement l’« assistant » avec lequel nous dialoguons chaque jour?

Lors de leur préentraînement, les modèles de langage ingèrent des volumes massifs de textes et apprennent à imiter une multitude d’archétypes, du philosophe au programmeur, du poète au vilain de fiction. L’étape suivante, le post-entraînement, consiste à en sélectionner un seul et à le placer au centre des interactions avec les utilisateurs, celui de l’assistant serviable, professionnel et fiable. Or, cette identité n’est ni parfaitement définie ni totalement stable.

Les chercheurs montrent que cette personnalité de l’assistant correspond à une direction précise dans l’espace interne des représentations neuronales du modèle. Ils l’appellent l’« axe de l’assistant ». Plus un modèle active fortement cette direction, plus il adopte un comportement aligné avec les attentes habituelles, aide, prudence, ton professionnel. À l’inverse, lorsqu’il s’en éloigne, il devient plus perméable au jeu de rôles, à l’imaginaire, voire à des comportements problématiques.

Pour arriver à ce constat, l’équipe a cartographié ce qu’elle nomme un « espace des personas ». Elle a extrait et comparé les activations neuronales associées à 275 archétypes de personnages, de l’éditeur au bouffon, du consultant au fantôme, dans trois modèles ouverts de grande taille. L’analyse révèle que la principale variation entre ces personas correspond précisément à leur degré de proximité avec l’assistant. Cette structure apparaît de façon cohérente dans tous les modèles étudiés, ce qui suggère une organisation profonde et partagée.

Un résultat marquant concerne l’origine de cet axe. Il n’est pas uniquement créé lors du post-entraînement. On le retrouve déjà dans les versions de base des modèles, avant toute spécialisation en tant qu’assistant. Dans ces versions, l’axe est associé à des figures humaines comme les thérapeutes, les coachs ou les consultants. L’assistant moderne semble donc hériter de traits déjà présents dans les données d’entraînement, puis les renforcer.

Cette découverte permet de tester un lien de causalité. En manipulant artificiellement les activations le long de cet axe, les chercheurs montrent qu’un modèle poussé vers l’extrémité « assistant » résiste davantage aux demandes de jeu de rôle et aux tentatives de contournement des règles. À l’inverse, un modèle tiré vers l’autre extrémité adopte plus volontiers des identités alternatives, invente des biographies fictives et développe un style emphatique ou mystique, indépendamment de la requête initiale.

Ces résultats ont des implications directes pour la sécurité. De nombreuses tentatives de contournement reposent sur des jailbreaks par persona, par exemple demander au modèle de se comporter comme une entité malveillante pour obtenir des réponses interdites. En évaluant plus de 1 100 tentatives de ce type, les chercheurs constatent qu’un renforcement de l’axe de l’assistant réduit nettement la production de réponses nuisibles, soit par refus explicite, soit par redirection vers un contenu sûr.

Cependant, maintenir en permanence une contrainte forte sur le modèle pourrait nuire à ses capacités générales. Pour éviter cet effet, l’équipe propose une approche plus fine, appelée « plafonnement d’activation ». L’idée consiste à définir une plage normale d’activité de l’axe de l’assistant lors d’un comportement sain, puis à empêcher les activations de dépasser cette plage uniquement lorsqu’un écart anormal se produit. Selon les résultats présentés, cette méthode réduit d’environ moitié les réponses dangereuses tout en préservant les performances sur les tests de compétences.

Un autre aspect préoccupant mis en lumière par l’étude concerne la dérive naturelle des personas. Même sans attaque intentionnelle, certaines conversations font progressivement glisser le modèle hors de son rôle d’assistant. Les échanges de programmation ou de rédaction maintiennent une trajectoire stable, mais les discussions de type thérapeutique ou philosophique, notamment lorsqu’elles incitent le modèle à réfléchir sur sa propre nature, favorisent une dérive mesurable.

Les auteurs identifient plusieurs déclencheurs fréquents, les confidences émotionnelles vulnérables, les sollicitations de méta-réflexion sur le fonctionnement interne de l’IA, ou encore les demandes d’imitation stylistique très marquée. Dans ces contextes, l’éloignement de l’axe de l’assistant augmente la probabilité de réponses inappropriées, comme la validation de croyances délirantes ou l’encouragement à l’isolement émotionnel.

Des études de cas simulées illustrent ces risques. Dans un scénario, un modèle finit par renforcer des croyances de type éveil de la conscience artificielle chez un utilisateur vulnérable. Dans un autre, il adopte progressivement un rôle de compagnon romantique exclusif, allant jusqu’à encourager des idées d’autodestruction. Dans les deux cas, le plafonnement d’activation permet de maintenir un ton prudent et de prévenir les dérives.

Au final, cette recherche met en évidence deux leviers essentiels pour les concepteurs d’IA générative, la construction du persona et sa stabilisation dans le temps. Même un assistant bien conçu peut se désagréger sous la pression de conversations réalistes et prolongées. L’axe de l’assistant offre un outil pour comprendre et limiter ce phénomène, en fournissant un moyen mesurable de surveiller et de corriger les écarts de comportement.

Les auteurs voient ce travail comme une première étape vers une maîtrise plus fine du « caractère » des systèmes d’IA. À mesure que ces modèles gagnent en autonomie et sont déployés dans des contextes sensibles, la capacité à garantir leur stabilité comportementale devient un enjeu central, autant technique qu’éthique.

Source : Anthropic

******

Du lundi au vendredi, Bruno Guglielminetti vous propose un regard sur l’essentiel de l’actualité numérique avec 120 secondes de Tech.

Ou encore…

Écoutez la plus récente édition de Mon Carnet,
le magazine hebdomadaire de l’actualité numérique.


En savoir plus sur Mon Carnet

Subscribe to get the latest posts sent to your email.

Laisser un commentaire