Pokémon devient un nouveau banc d’essai pour mesurer l’intelligence artificielle

Credit : Gemini

Jouer à Pokémon est devenu l’un des tests les plus révélateurs de l’intelligence artificielle contemporaine. Ce qui ressemble à un clin d’œil nostalgique cache en réalité un nouvel outil d’évaluation pris très au sérieux par les laboratoires d’IA les plus avancés.

Les jeux Pokémon originaux de Nintendo, sortis à la fin des années 1990 sur Game Boy, sont désormais utilisés pour mesurer les capacités de modèles comme Claude, GPT ou Gemini. Navigation dans des labyrinthes, résolution d’énigmes, planification à long terme et adaptation stratégique y sont essentielles. Autant de compétences difficiles à tester avec les benchmarks classiques.

Chez Anthropic, David Hershey, responsable IA appliquée, est à l’origine du flux « Claude Plays Pokémon » diffusé sur Twitch. Lancé en février 2025, le projet a rapidement inspiré des initiatives similaires autour de modèles de OpenAI et de Google, développées initialement par des créateurs indépendants avant d’être soutenues par les entreprises elles-mêmes.

L’usage du jeu vidéo comme terrain d’expérimentation n’est pas nouveau. Après les succès d’AlphaGo au jeu de Go ou les tests menés sur les échecs, le poker ou Minecraft, Pokémon s’impose par sa complexité ouverte. Contrairement à des jeux très contraints comme Pong, il impose des décisions interdépendantes sur de longues séquences, ce qui permet d’observer le raisonnement d’un modèle dans la durée.

Selon Graham Neubig, professeur associé au Language Technologies Institute de la Carnegie Mellon University, Pokémon offre une analogie plus réaliste avec les usages actuels de l’IA. Les modèles ne se contentent pas de répondre à des questions isolées. Ils doivent poursuivre un objectif, mémoriser des informations, corriger leurs erreurs et ajuster leur stratégie en continu.

Le phénomène a aussi pris une dimension culturelle inattendue. Des centaines de milliers de commentaires accompagnent en direct les tentatives de Claude, GPT ou Gemini. Chez OpenAI, un flux Pokémon de GPT était même diffusé sur un écran dans les bureaux. De son côté, le PDG de Google, Sundar Pichai, a salué publiquement les progrès de Gemini lors de la conférence I/O.

Chez Anthropic, le projet est devenu un outil interne de partage des connaissances. Une chaîne Slack permet aux employés de suivre les avancées de Claude, tandis que l’entreprise présente régulièrement le concept lors de conférences professionnelles. « Nous sommes tous un peu nerds », reconnaît Hershey, sans détour.

Sur le plan technique, l’expérience sert aussi à améliorer les architectures d’agents. Pour Pokémon, Anthropic a dû concevoir un système de mémoire permettant à Claude de conserver des informations clés sur la progression du jeu. Ces apprentissages sont ensuite réutilisés dans des contextes clients réels, explique Hershey.

Aucun modèle n’a encore terminé Pokémon sans assistance, même si GPT et Gemini y sont parvenus à l’aide de dispositifs logiciels plus structurants. La version Claude Opus 4.5 poursuit actuellement sa tentative en direct.

Pour Jonathan Verron, développeur du projet « GPT Plays Pokémon », le choix s’impose presque naturellement. « C’est le jeu parfait pour l’IA aujourd’hui », affirme-t-il. « J’ai cherché d’autres exemples, mais je n’ai rien trouvé d’aussi pertinent. »

Source : WSJ

******

Du lundi au vendredi, Bruno Guglielminetti vous propose un regard sur l’essentiel de l’actualité numérique avec 120 secondes de Tech.

Ou encore…

Écoutez la plus récente édition de Mon Carnet,
le magazine hebdomadaire de l’actualité numérique.


En savoir plus sur Mon Carnet

Subscribe to get the latest posts sent to your email.

Un commentaire

  1. Un excellent texte avec un recherche sans fin avec tous les aspects possible. Merci beaucoup et bonne soirée

Répondre à unabashedcomputerac17702703Annuler la réponse.