Quand l’IA cherche des réponses que les humains ne trouvent pas toujours

Anthropic affirme que ses modèles Claude progressent rapidement dans un domaine où l’intelligence artificielle pourrait avoir un impact majeur : la recherche scientifique. Dans un billet publié hier, l’entreprise présente BioMysteryBench, un nouveau banc d’essai conçu pour mesurer les capacités de Claude en bioinformatique, à partir de données réelles, complexes et souvent difficiles à interpréter.

L’objectif n’est pas simplement de vérifier si un modèle peut répondre à des questions de biologie, comme dans un examen. BioMysteryBench cherche plutôt à évaluer sa capacité à mener une démarche proche de celle d’un chercheur : analyser des données, interroger des bases scientifiques, utiliser des outils spécialisés, écrire du code, formuler des pistes et arriver à une réponse vérifiable. Anthropic veut ainsi mesurer ce que les modèles peuvent réellement faire dans un contexte de recherche, au-delà des questionnaires traditionnels.

Le banc d’essai comprend 99 questions préparées par des experts en bioinformatique. Elles couvrent notamment le séquençage d’ADN et d’ARN, la transcriptomique unicellulaire, la méthylation, la protéomique et la métabolomique. Les questions portent sur des tâches concrètes, par exemple identifier l’organe d’origine d’un jeu de données cellulaires, déterminer quel gène a été désactivé dans une expérience ou retrouver des liens familiaux à partir de séquences génomiques.

La particularité de BioMysteryBench est de reposer sur des réponses objectives. Anthropic explique que les questions ne sont pas évaluées en fonction de l’opinion d’un chercheur ou d’une méthode imposée, mais selon une vérité vérifiable dans les données ou dans des métadonnées validées. C’est important, car en biologie, plusieurs démarches peuvent mener à une réponse correcte. Deux chercheurs peuvent choisir des approches différentes, surtout lorsque les données sont bruitées ou incomplètes.

Pour établir un point de comparaison, Anthropic a demandé à des spécialistes humains de résoudre les mêmes problèmes. Sur les 99 questions, 76 ont été considérées comme « résolubles par l’humain », car au moins un expert est parvenu à trouver la bonne réponse. Après vérification, 23 autres ont été classées comme difficiles pour les humains. Ces questions n’étaient pas nécessairement impossibles, mais les experts sollicités n’ont pas réussi à les résoudre à partir de zéro.

C’est dans cette zone que les résultats deviennent les plus frappants. Anthropic affirme que Claude Sonnet 4.6 et des modèles plus avancés ont réussi à résoudre une partie significative de ces questions difficiles pour les humains. Le modèle Claude Mythos Preview aurait atteint un taux de résolution de 30 % sur cet ensemble. L’entreprise y voit un signe que les modèles ne se contentent plus de suivre les spécialistes, mais peuvent parfois explorer des pistes que ceux-ci ne trouvent pas.

Selon Anthropic, Claude utilise deux grands types de stratégies. La première repose sur l’immense quantité de connaissances scientifiques intégrées dans le modèle, notamment en biologie structurale, en profils moléculaires et en littérature scientifique. La seconde consiste à combiner plusieurs méthodes lorsque l’incertitude est élevée. Plutôt que de choisir une seule approche, Claude tente différents chemins d’analyse et retient la conclusion vers laquelle plusieurs indices convergent.

Cette performance doit toutefois être interprétée avec prudence. Anthropic reconnaît que les résultats sur les problèmes les plus difficiles ne sont pas toujours robustes. Lorsqu’un problème est considéré comme résoluble par les humains, Claude tend à le résoudre de manière répétée et fiable. Mais sur les questions plus difficiles, une partie des bonnes réponses semble dépendre de chemins de raisonnement moins reproductibles. Autrement dit, le modèle trouve parfois la bonne piste, mais pas encore avec la régularité attendue d’un outil scientifique pleinement fiable.

Cette nuance est essentielle. Dans un laboratoire, une bonne réponse obtenue une fois ne suffit pas. Il faut pouvoir répéter l’analyse, comprendre la méthode, vérifier les étapes et expliquer les limites. Anthropic insiste d’ailleurs sur cette distinction entre capacité et fiabilité. Les modèles progressent, mais la recherche scientifique exige plus qu’un résultat impressionnant : elle demande une méthode vérifiable et reproductible.

BioMysteryBench illustre tout de même une évolution importante. Les modèles d’IA ne sont plus seulement évalués sur leur capacité à répondre à des questions fermées. Ils sont désormais testés sur des tâches ouvertes, proches de véritables enquêtes scientifiques. Cette transition correspond à l’arrivée de modèles capables d’utiliser des outils, de lancer des analyses et de construire des démarches en plusieurs étapes.

Pour la recherche en biologie, l’enjeu est considérable. De nombreux problèmes restent difficiles à résoudre par les méthodes humaines classiques, non pas par manque d’intelligence, mais parce que les données sont massives, complexes et dispersées. Un modèle capable de repérer des signaux faibles, de croiser plusieurs bases de données et de proposer des hypothèses vérifiables pourrait devenir un outil utile pour accélérer certaines découvertes.

Il serait toutefois prématuré de parler de remplacement des chercheurs. Les résultats présentés par Anthropic suggèrent plutôt une complémentarité. Claude peut explorer rapidement de multiples pistes, repérer des régularités et proposer des analyses. Les scientifiques, eux, doivent encore valider, interpréter et replacer ces résultats dans un cadre expérimental. La promesse n’est pas une science automatisée, mais une science augmentée.

Avec BioMysteryBench, Anthropic cherche aussi à répondre à une question plus large : comment mesurer sérieusement les capacités scientifiques de l’IA ? Les anciens tests évaluent surtout la connaissance. Les nouveaux devront mesurer la capacité à enquêter, à manipuler des données, à raisonner avec incertitude et à reconnaître ses propres limites. C’est précisément là que se joue la prochaine étape de l’IA appliquée à la recherche.

Source : Anthropic

******

Du lundi au vendredi, Bruno Guglielminetti vous propose un regard sur l’essentiel de l’actualité numérique avec 120 secondes de Tech.

Ou encore…

Écoutez la plus récente édition de Mon Carnet,
le magazine hebdomadaire de l’actualité numérique.


En savoir plus sur Mon Carnet

Subscribe to get the latest posts sent to your email.

Laisser un commentaire