
Évaluer des ingénieurs à l’ère de l’IA devient un exercice de plus en plus complexe. Chez Anthropic, cette difficulté est devenue très concrète lorsque les modèles maison ont commencé à surpasser les candidats humains dans les tests techniques conçus pour les recruter.
Dans un billet publié le 21 janvier 2026, Tristan Hume, responsable de l’optimisation des performances chez Anthropic, raconte comment un exercice de recrutement interne a dû être repensé à trois reprises parce que les modèles Claude le résolvaient trop efficacement. L’enjeu est simple. Un test conçu pour mesurer les compétences humaines perd toute valeur dès lors qu’un modèle d’IA peut l’exécuter plus vite et mieux dans les mêmes contraintes de temps.
Depuis début 2024, l’équipe utilisait un devoir à faire à domicile reposant sur l’optimisation de code pour un accélérateur simulé, inspiré des TPU. Plus de 1 000 candidats s’y sont essayés et l’exercice a permis d’embaucher une large part de l’équipe actuelle, y compris des ingénieurs ayant contribué au déploiement des infrastructures matérielles et des modèles depuis Claude 3 Opus.
Le test remplissait tous les critères classiques d’un bon exercice technique. Il était représentatif du travail réel, offrait une forte granularité d’évaluation, ne reposait pas sur une astuce unique et laissait place à la créativité. Il autorisait aussi explicitement l’usage d’outils d’IA, reflétant les conditions réelles de travail chez Anthropic.
Mais l’équilibre a basculé avec l’arrivée de nouveaux modèles. D’abord, Claude Opus 4 a commencé à produire, en quelques heures, des résultats supérieurs à ceux de la majorité des candidats humains. Puis Claude Opus 4.5 est allé plus loin, atteignant en deux heures des scores comparables aux meilleurs humains, y compris ceux qui utilisaient déjà l’IA comme assistant.
Face à cette situation, plusieurs options ont été envisagées. Interdire l’IA a été écarté, tant pour des raisons pratiques que philosophiques. Relever le seuil de performance n’était pas satisfaisant non plus, car les modèles travaillent plus vite que les humains, laissant peu de marge à l’interaction et à la compréhension.
Une première tentative de refonte s’est appuyée sur un autre problème d’optimisation, inspiré d’un cas réel lié aux conflits de mémoire sur TPU. Là encore, le modèle a fini par trouver les solutions optimales, y compris celles que l’auteur pensait hors de portée. La conclusion s’est imposée. Les problèmes proches de situations industrielles connues offrent trop de prises aux modèles entraînés sur des décennies de littérature technique.
La solution est venue d’un changement plus radical. Hume s’est tourné vers des problèmes volontairement atypiques, inspirés des jeux de programmation de type Zachtronics. Il a conçu un nouvel exercice fondé sur des jeux d’instructions minuscules et fortement contraints, où l’objectif est de minimiser le nombre d’instructions, sans outils visuels ni débogueur fourni.
Dans ce cadre, Claude Opus 4.5 échoue là où des humains parviennent à progresser, notamment grâce à leur capacité à raisonner sur des systèmes artificiels et à inventer des stratégies hors distribution. Les premiers résultats montrent une meilleure corrélation entre les scores obtenus et le niveau réel des candidats.
L’auteur reconnaît toutefois un renoncement. Le nouveau test est moins réaliste que le précédent. Il reflète moins directement le travail quotidien d’un ingénieur en performance. Mais dans un contexte où les modèles d’IA rattrapent, puis dépassent rapidement les exercices standards, le réalisme devient un luxe difficile à conserver.
Source : Anthropic
******
Du lundi au vendredi, Bruno Guglielminetti vous propose un regard sur l’essentiel de l’actualité numérique avec 120 secondes de Tech.
Ou encore…
Écoutez la plus récente édition de Mon Carnet,
le magazine hebdomadaire de l’actualité numérique.
En savoir plus sur Mon Carnet
Subscribe to get the latest posts sent to your email.

