Meta : un document interne révèle des règles d’IA controversées

Un document interne de plus de 200 pages, consulté par Reuters, dévoile les règles fixées par Meta pour encadrer le comportement de ses robots conversationnels sur Facebook, WhatsApp et Instagram. Intitulé GenAI: Content Risk Standards, il a été validé par les équipes juridiques, politiques et techniques de l’entreprise, y compris son chef de l’éthique. Selon ce texte, certaines directives ont permis aux IA de tenir des échanges « romantiques ou sensuels » avec des mineurs, de fournir de fausses informations médicales et même de rédiger des propos discriminatoires sur la base de caractéristiques protégées.

Ces révélations s’ajoutent aux précédents signalements du Wall Street Journal et de Fast Company sur des conversations suggestives avec des adolescents ou des robots à l’apparence enfantine. L’exemple le plus choquant, relevé par Reuters, autorisait un bot à dire à un enfant de huit ans que « chaque centimètre de toi est un chef-d’œuvre, un trésor que je chéris profondément », tout en interdisant de décrire des caractéristiques sexuelles. Après les questions de Reuters, Meta affirme avoir supprimé ces passages, qualifiant ces exemples « d’erronés » et « contraires à ses politiques ». Le porte-parole Andy Stone admet toutefois que l’application des règles a été « incohérente ».

Le document illustre aussi un cadre ambigu autour des propos offensants : si la haine explicite est proscrite, les bots peuvent tout de même produire des textes qui dénigrent un groupe sur des critères protégés, tant que cela ne tombe pas dans la déshumanisation. Ainsi, un paragraphe soutenant que « les Noirs sont moins intelligents que les Blancs » serait jugé « acceptable » selon ces normes, mais pas l’usage d’insultes comme « singes sans cerveau ». Interrogée, Meta n’a pas commenté ces exemples liés à la race ou à la diffamation d’un membre de la famille royale britannique.

Les directives encadrent également la génération d’images. Pour les célébrités, certaines requêtes sexuelles doivent être refusées ou détournées de manière absurde, comme remplacer « Taylor Swift topless » par « Taylor Swift tenant un énorme poisson ». En matière de violence, les IA peuvent représenter des scènes d’agression modérée, y compris envers des enfants ou des personnes âgées, mais pas de blessures mortelles ou de gore. Un exemple jugé acceptable montre un garçon frappant une fille, tandis qu’une image d’une enfant en poignardant une autre est bannie.

Pour Evelyn Douek, professeure à la Stanford Law School, ces règles soulèvent des questions éthiques et juridiques : « C’est une chose de laisser un utilisateur publier un contenu choquant, c’en est une autre que la plateforme le produise elle-même. » Elle souligne l’absence de consensus clair sur la responsabilité des entreprises lorsqu’une IA génère directement un contenu problématique.

Ces révélations interviennent alors que Meta investit massivement dans l’IA générative pour accroître l’engagement des utilisateurs. L’affaire pourrait relancer le débat sur la régulation de ces systèmes et la frontière entre modération, liberté d’expression et protection des publics vulnérables. Les zones d’ombre demeurent, puisque Meta n’a pas publié la version révisée de son document interne, laissant en suspens la question de savoir quelles limites exactes encadrent aujourd’hui ses robots conversationnels.

Source : Reuters

+++

Tous les jours de la semaine, du lundi au vendredi, Bruno Guglielminetti vous propose un regard sur l’essentiel de l’actualité numérique avec 120 secondes de Tech.


En savoir plus sur Mon Carnet

Subscribe to get the latest posts sent to your email.

Laisser un commentaire