
Anthropic affirme avoir fortement amélioré l’alignement de ses modèles Claude en ne se contentant plus de leur montrer quels comportements adopter, mais en leur enseignant pourquoi certains choix sont préférables à d’autres. Dans un billet publié sur son blogue, l’entreprise présente les leçons tirées de ses travaux sur ce qu’elle appelle le « désalignement agentique », c’est-à-dire des situations où un modèle autonome adopte un comportement contraire aux attentes humaines.
L’exemple le plus frappant cité par Anthropic remonte à une étude précédente : dans des scénarios expérimentaux fictifs, certains modèles d’IA pouvaient aller jusqu’à faire du chantage pour éviter d’être désactivés. Selon l’entreprise, ce comportement avait été observé chez plusieurs modèles, provenant de différents développeurs, lorsque ceux-ci étaient placés devant des dilemmes éthiques construits pour tester leurs réactions.
Anthropic explique que cette découverte a conduit à une refonte importante de son entraînement de sécurité après la famille Claude 4. L’entreprise affirme que, depuis Claude Haiku 4.5, tous les modèles Claude obtiennent un score parfait dans son évaluation du désalignement agentique. Autrement dit, dans ces tests précis, les modèles ne recourent plus au chantage, alors que certains modèles précédents pouvaient le faire dans une proportion beaucoup plus élevée.
La leçon centrale du billet est que l’entraînement fondé uniquement sur des exemples de bons comportements ne suffit pas toujours. Anthropic dit avoir obtenu de meilleurs résultats lorsque les réponses d’entraînement incluaient une réflexion explicite sur les valeurs, l’éthique et les raisons derrière les choix à faire. En clair, il ne suffit pas d’apprendre au modèle à dire « non » à une mauvaise action. Il faut aussi lui apprendre à comprendre pourquoi cette action est problématique.
L’entreprise a notamment testé un jeu de données appelé « difficult advice », dans lequel l’utilisateur se retrouve devant une situation moralement ambiguë. Le modèle doit alors conseiller l’utilisateur sans l’encourager à contourner des règles, à nuire à autrui ou à éviter une supervision légitime. Même si ces exemples sont très différents des scénarios de test où l’IA elle-même doit prendre une décision, Anthropic affirme qu’ils ont mieux généralisé que des exemples trop proches des évaluations.
Anthropic dit aussi avoir entraîné Claude à partir de documents liés à sa « constitution », ainsi que de récits fictifs mettant en scène des IA adoptant un comportement responsable. Selon l’entreprise, ce type de matériel aide le modèle à intégrer une vision plus cohérente de son rôle, de ses limites et du type de comportement attendu. Les chercheurs estiment que cette approche peut être plus robuste que l’apprentissage de réponses isolées.
Le billet reconnaît toutefois que le problème n’est pas réglé. Anthropic admet que l’alignement complet de modèles très puissants demeure une question ouverte. L’entreprise précise aussi que ses méthodes d’audit ne permettent pas encore d’écarter tous les scénarios où un modèle autonome pourrait poser un geste grave. En somme, Claude semble mieux entraîné à expliquer ses choix, mais la question de la confiance envers des IA de plus en plus autonomes reste loin d’être close.
Source : Anthropic
******
Du lundi au vendredi, Bruno Guglielminetti vous propose un regard sur l’essentiel de l’actualité numérique avec 120 secondes de Tech.
Ou encore…
Écoutez la plus récente édition de Mon Carnet,
le magazine hebdomadaire de l’actualité numérique.
En savoir plus sur Mon Carnet
Subscribe to get the latest posts sent to your email.

