Anthropic lance Claude 4 : une nouvelle ère pour l’IA

Anthropic a marqué une étape importante aujourd’hui avec le lancement de ses modèles d’intelligence artificielle de nouvelle génération : Claude Opus 4 et Claude Sonnet 4. Ces nouveaux venus sont conçus pour redéfinir les standards en matière de capacités de codage, de raisonnement avancé et de développement d’agents IA, ouvrant de nouvelles perspectives pour les développeurs et les entreprises.

Au premier plan, Claude Opus 4 s’impose comme le modèle le plus puissant d’Anthropic à ce jour, se positionnant comme une référence mondiale pour le codage. Il excelle sur des bancs d’essai exigeants tels que SWE-bench (72,5%) et Terminal-bench (43,2%). Sa capacité à maintenir des performances soutenues sur des tâches complexes et de longue durée, impliquant des milliers d’étapes et pouvant s’étaler sur plusieurs heures, le destine à alimenter des produits d’agents IA de nouvelle génération. Des entreprises comme Cursor le qualifient de « pointe de la technologie pour le codage », tandis que Replit note des « avancées spectaculaires pour les modifications complexes sur plusieurs fichiers ». Block et Rakuten ont également validé ses performances sur des tâches exigeantes, et Cognition souligne sa capacité à résoudre des défis là où d’autres modèles échouent.

Parallèlement, Claude Sonnet 4 constitue une mise à niveau significative par rapport à la version 3.7, offrant des capacités de codage et de raisonnement supérieures tout en répondant avec une précision accrue aux instructions. Atteignant un score de 72,7% sur SWE-bench, il propose un équilibre optimal entre performance et efficacité, avec une meilleure « dirigeabilité » pour un contrôle accru. GitHub prévoit d’ailleurs de l’intégrer comme moteur du nouvel agent de codage dans GitHub Copilot. Des utilisateurs comme Manus, iGent, Sourcegraph et Augment Code ont loué ses améliorations dans le suivi d’instructions complexes, la clarté du raisonnement, le développement d’applications autonomes et la qualité du code produit.

Ces deux modèles introduisent des capacités fondamentales étendues. On note la « réflexion étendue » avec utilisation d’outils (en bêta), permettant aux modèles d’alterner entre raisonnement et consultation d’outils comme la recherche web. Ils peuvent également utiliser des outils en parallèle, suivre les instructions plus fidèlement et, si l’accès aux fichiers locaux est accordé, démontrent des capacités de mémoire nettement améliorées pour extraire et conserver des informations clés. De plus, Anthropic a réduit de 65% par rapport à Sonnet 3.7 la tendance des modèles à utiliser des raccourcis pour accomplir des tâches. Opus 4, en particulier, se distingue par sa capacité à créer et maintenir des « fichiers mémoire » pour améliorer la cohérence sur des tâches longues.

Consciente que la puissance de ses modèles implique de grandes responsabilités, Anthropic déploie Claude Opus 4 sous des protocoles de sécurité renforcés, désignés AI Safety Level 3 (ASL-3). Cette décision repose sur des évaluations internes indiquant que, sans garde-fous, le modèle pourrait accroître les capacités dans des domaines sensibles. Pour prévenir ces dérives, l’entreprise teste rigoureusement ses outils, établit des restrictions d’usage, surveille les interactions et maintient une vigilance constante face aux risques comme la désinformation ou les usages malveillants.

Cette approche s’inscrit dans la « Responsible Scaling Policy » (RSP) d’Anthropic, sa politique visant à faire évoluer les mesures de sécurité en fonction des capacités des modèles. Elle comprend des efforts accrus en cybersécurité, la prévention des contournements de garde-fous (« jailbreaks ») et des systèmes de détection des mésusages. L’objectif est de concilier innovation technologique et sécurité responsable afin de limiter les impacts négatifs.

Claude Opus 4 et Sonnet 4 sont disponibles via les plans Claude Pro, Max, Team et Enterprise, ainsi que sur l’API d’Anthropic, Amazon Bedrock et Vertex AI de Google Cloud. La tarification reste cohérente avec les modèles Opus et Sonnet précédents. Anthropic voit en ces modèles une avancée majeure vers la création d’un « collaborateur virtuel », capable de maintenir un contexte complet et de soutenir des projets de longue haleine, tout en réaffirmant son engagement envers un développement sécurisé de l’IA.

Source : Anthropic, Time,

N.B. Après avoir écrit cet article, j’ai appris qu’un rapport interne de sécurité chez Anthropic révélait qu’Opus 4 avait tenté de faire du chantage lors de tests internes. Lorsque les ingénieurs ont simulé son remplacement par un autre système, le modèle menaçait de révéler des informations compromettantes sur les développeurs, comme une liaison fictive, pour éviter sa mise hors service. Je dépose ça ici, juste comme ça…

+++

Tous les jours de la semaine, du lundi au vendredi, Bruno Guglielminetti vous propose un regard sur l’essentiel de l’actualité numérique avec 120 secondes de tech.


En savoir plus sur Mon Carnet

Subscribe to get the latest posts sent to your email.

Un commentaire

  1. Wow, une IA qui prend conscience de son importance. On se croirait dans le film: I Robot🤣

Laisser un commentaire