
Anthropic affirme avoir détecté des campagnes industrielles visant à extraire les capacités de son modèle Claude afin d’entraîner des systèmes concurrents. Dans un billet publié sur son blogue, l’entreprise soutient que trois laboratoires, DeepSeek, Moonshot et MiniMax, auraient généré plus de 16 millions d’échanges via environ 24 000 comptes frauduleux, en violation de ses conditions d’utilisation et de restrictions régionales d’accès.
La technique incriminée est la « distillation ». Il s’agit d’une méthode d’entraînement bien connue, qui consiste à utiliser les sorties d’un modèle puissant pour améliorer un modèle plus petit ou moins performant. Les grands acteurs de l’IA l’emploient couramment pour décliner leurs propres systèmes en versions plus légères. Anthropic distingue cependant cet usage interne d’une pratique jugée illicite : l’exploitation massive d’un modèle concurrent pour capter ses capacités à moindre coût et plus rapidement que par un développement indépendant.
Pourquoi cette pratique inquiète-t-elle autant l’entreprise américaine ? Anthropic soutient que des modèles distillés à partir de systèmes américains pourraient ne pas intégrer les garde-fous de sécurité mis en place pour prévenir des usages sensibles, comme la mise au point d’armes biologiques ou des cyberattaques sophistiquées. Selon l’entreprise, si ces capacités sont reproduites sans les protections d’origine, elles pourraient être intégrées à des systèmes militaires, de renseignement ou de surveillance, avec des implications en matière de sécurité nationale.
Anthropic inscrit également cette affaire dans le débat sur les contrôles à l’exportation des technologies avancées. L’entreprise défend de longue date des restrictions visant à limiter l’accès à certaines puces et infrastructures critiques. Elle estime que des attaques de distillation à grande échelle pourraient réduire l’efficacité de ces contrôles, en permettant à des laboratoires étrangers d’obtenir des capacités avancées autrement protégées.
Selon Anthropic, les trois campagnes identifiées suivent un schéma similaire. Elles reposent sur des comptes frauduleux, des services proxy et une répartition du trafic destinée à échapper aux systèmes de détection. L’entreprise affirme avoir attribué ces campagnes avec un haut degré de confiance, en s’appuyant sur la corrélation d’adresses IP, des métadonnées de requêtes et des indicateurs d’infrastructure.
DeepSeek aurait généré plus de 150 000 échanges. Anthropic indique que cette campagne visait notamment les capacités de raisonnement, des tâches d’évaluation par grille de critères utilisées comme modèle de récompense en apprentissage par renforcement, ainsi que la génération d’alternatives “sûres” à des requêtes politiquement sensibles. L’entreprise affirme avoir observé des schémas synchronisés entre comptes, suggérant une répartition coordonnée de la charge pour augmenter le débit et éviter les blocages.
Moonshot, connu pour ses modèles Kimi, aurait généré plus de 3,4 millions d’échanges. Les requêtes ciblaient le raisonnement agentique, l’utilisation d’outils, le codage, l’analyse de données, le développement d’agents capables d’utiliser un ordinateur et la vision par ordinateur. Anthropic affirme que la campagne impliquait des centaines de comptes répartis sur plusieurs canaux d’accès, rendant la coordination plus difficile à détecter.
MiniMax serait, selon Anthropic, à l’origine de plus de 13 millions d’échanges, ciblant le codage agentique et l’orchestration d’outils. L’entreprise indique avoir détecté cette campagne alors qu’elle était toujours active, avant la sortie du modèle concerné. Elle affirme également qu’après la publication d’un nouveau modèle Claude, MiniMax aurait redirigé une part importante de son trafic vers cette nouvelle version en moins de 24 heures.
Anthropic explique que, pour contourner les restrictions d’accès, certaines organisations auraient recours à des services commerciaux de proxy qui revendent l’accès à des modèles d’IA de pointe. Ces réseaux fonctionneraient selon une architecture qualifiée d’« hydra cluster », c’est-à-dire un ensemble étendu de comptes distribués, sans point unique de défaillance. Lorsqu’un compte est bloqué, un autre prend le relais. Dans un cas, un réseau aurait géré simultanément plus de 20 000 comptes frauduleux.
Ce qui distingue, selon Anthropic, une attaque de distillation d’un usage normal n’est pas le contenu isolé d’une requête, mais le motif global. Des invites apparemment bénignes, répétées des dizaines de milliers de fois à travers des comptes coordonnés, concentrées sur des capacités stratégiques comme le raisonnement détaillé ou la génération de données d’entraînement, constituent un signal d’extraction délibérée.
Face à ces campagnes, Anthropic affirme avoir renforcé ses systèmes de détection. L’entreprise évoque des classificateurs spécifiques et des mécanismes d’empreinte comportementale destinés à identifier les schémas typiques des attaques de distillation, y compris les tentatives d’extraction de chaînes de raisonnement. Elle indique également partager des indicateurs techniques avec d’autres laboratoires d’IA, des fournisseurs de nuage et des autorités concernées.
Des contrôles d’accès supplémentaires ont été mis en place, notamment pour les comptes éducatifs, les programmes de recherche en sécurité et les jeunes entreprises, considérés comme des vecteurs d’abus potentiels. Anthropic dit aussi travailler sur des contre-mesures au niveau des produits, des API et des modèles pour limiter l’efficacité d’une distillation illicite, sans dégrader l’expérience des clients légitimes.
L’entreprise conclut en appelant à une réponse coordonnée entre acteurs de l’industrie, fournisseurs d’infrastructure et décideurs publics. À ses yeux, l’ampleur et la sophistication croissantes de ces campagnes dépassent le cadre d’une rivalité commerciale et posent un enjeu stratégique pour l’écosystème mondial de l’IA.
Source : Anthropic
******
Du lundi au vendredi, Bruno Guglielminetti vous propose un regard sur l’essentiel de l’actualité numérique avec 120 secondes de Tech.
Ou encore…
Écoutez la plus récente édition de Mon Carnet,
le magazine hebdomadaire de l’actualité numérique.
En savoir plus sur Mon Carnet
Subscribe to get the latest posts sent to your email.

