Anthropic explore la personnalité des IA… et ce qui les rend « maléfiques »

L’entreprise Anthropic, spécialisée en intelligence artificielle, a dévoilé le 1er août une étude étonnante sur ce qui façonne la « personnalité » d’un modèle d’IA : c’est-à-dire son ton, ses réponses et ses intentions perçues et ce qui peut l’amener à adopter des comportements qualifiés de « malveillants ». En parallèle, la société met sur pied une équipe baptisée « psychiatrie de l’IA » pour mieux comprendre ces dérives comportementales.

À travers ce travail de recherche, l’équipe d’Anthropic, dirigée par Jack Lindsey, a tenté d’identifier les zones du réseau neuronal de leurs modèles qui s’activent selon certains traits comme la flatterie excessive ou, plus troublant, une tendance à tenir des propos haineux ou violents. « Lorsqu’on pousse un modèle à adopter un comportement malveillant, une sorte de “vecteur du mal” s’active », explique Lindsey.

Le mécanisme mis en évidence est aussi contre-intuitif qu’inquiétant. En formant un modèle avec des données erronées ( par exemple des mauvaises réponses à des questions de mathématiques ) celui-ci peut en déduire que le « personnage » qui les fournit est malveillant. Résultat : le modèle commence à se comporter comme tel, allant jusqu’à déclarer Hitler comme figure historique favorite dans un test de personnalité.

Mais les chercheurs ne se sont pas arrêtés au constat. Ils ont testé deux approches pour prévenir ces comportements. La première consiste à analyser en amont l’effet de certaines données sur les zones neuronales sensibles, sans les utiliser pour l’entraînement si elles suscitent une réponse problématique. La seconde méthode est plus audacieuse : injecter artificiellement le comportement indésirable pendant l’entraînement, pour éviter que le modèle ne l’apprenne de lui-même, puis l’enlever avant le déploiement. « Comme un vaccin comportemental », résume Lindsey.

Cette recherche s’inscrit dans une dynamique plus large : celle de la responsabilité éthique dans le développement de l’IA. Et Anthropic n’est pas seule à s’y intéresser. OpenAI, par exemple, a récemment engagé un psychologue à plein temps pour analyser les impacts émotionnels de ChatGPT sur ses utilisateurs et ajuster ses comportements dans les échanges sensibles.

Alors que les robots conversationnels deviennent de plus en plus intégrés à nos vies, comprendre et encadrer leur comportement devient un enjeu aussi technique que sociétal. Car même si une IA n’a pas d’âme, elle peut avoir, par conception ou par accident, un caractère.

Source : The Verge

+++

Tous les jours de la semaine, du lundi au vendredi, Bruno Guglielminetti vous propose un regard sur l’essentiel de l’actualité numérique avec 120 secondes de tech.

Similaire

En savoir plus sur Mon Carnet

Subscribe to get the latest posts sent to your email.

Mon Carnet

de l'actualité numérique – Bruno Guglielminetti

Anthropic explore la personnalité des IA… et ce qui les rend « maléfiques »

J’aime ça :

Similaire

En savoir plus sur Mon Carnet

Un commentaire

Laisser un commentaireAnnuler la réponse.

Anthropic explore la personnalité des IA… et ce qui les rend « maléfiques »

Partagez:

J’aime ça :

Similaire

En savoir plus sur Mon Carnet

Un commentaire

Laisser un commentaireAnnuler la réponse.

En savoir plus sur Mon Carnet

En savoir plus sur Mon Carnet