
L’entreprise Anthropic, spécialisée en intelligence artificielle, a dévoilé le 1er août une étude étonnante sur ce qui façonne la « personnalité » d’un modèle d’IA : c’est-à-dire son ton, ses réponses et ses intentions perçues et ce qui peut l’amener à adopter des comportements qualifiés de « malveillants ». En parallèle, la société met sur pied une équipe baptisée « psychiatrie de l’IA » pour mieux comprendre ces dérives comportementales.
À travers ce travail de recherche, l’équipe d’Anthropic, dirigée par Jack Lindsey, a tenté d’identifier les zones du réseau neuronal de leurs modèles qui s’activent selon certains traits comme la flatterie excessive ou, plus troublant, une tendance à tenir des propos haineux ou violents. « Lorsqu’on pousse un modèle à adopter un comportement malveillant, une sorte de “vecteur du mal” s’active », explique Lindsey.
Le mécanisme mis en évidence est aussi contre-intuitif qu’inquiétant. En formant un modèle avec des données erronées ( par exemple des mauvaises réponses à des questions de mathématiques ) celui-ci peut en déduire que le « personnage » qui les fournit est malveillant. Résultat : le modèle commence à se comporter comme tel, allant jusqu’à déclarer Hitler comme figure historique favorite dans un test de personnalité.
Mais les chercheurs ne se sont pas arrêtés au constat. Ils ont testé deux approches pour prévenir ces comportements. La première consiste à analyser en amont l’effet de certaines données sur les zones neuronales sensibles, sans les utiliser pour l’entraînement si elles suscitent une réponse problématique. La seconde méthode est plus audacieuse : injecter artificiellement le comportement indésirable pendant l’entraînement, pour éviter que le modèle ne l’apprenne de lui-même, puis l’enlever avant le déploiement. « Comme un vaccin comportemental », résume Lindsey.
Cette recherche s’inscrit dans une dynamique plus large : celle de la responsabilité éthique dans le développement de l’IA. Et Anthropic n’est pas seule à s’y intéresser. OpenAI, par exemple, a récemment engagé un psychologue à plein temps pour analyser les impacts émotionnels de ChatGPT sur ses utilisateurs et ajuster ses comportements dans les échanges sensibles.
Alors que les robots conversationnels deviennent de plus en plus intégrés à nos vies, comprendre et encadrer leur comportement devient un enjeu aussi technique que sociétal. Car même si une IA n’a pas d’âme, elle peut avoir, par conception ou par accident, un caractère.
Source : The Verge
+++
Tous les jours de la semaine, du lundi au vendredi, Bruno Guglielminetti vous propose un regard sur l’essentiel de l’actualité numérique avec 120 secondes de tech.
En savoir plus sur Mon Carnet
Subscribe to get the latest posts sent to your email.


Les nouveaux gourous, les IA.