Anthropic met Claude à l’épreuve

Le modèle le plus sécurisé • Qant, M. de R. avec Midjourney

Le grand rival d’OpenAI lance un test public pour évaluer la résistance de son modèle Claude face aux tentatives de jailbreak.

  • Anthropic a mis en place un nouveau système baptisé Constitutional Classifiers, un filtre basé sur des règles en langage naturel qui analyse les requêtes des utilisateurs et les réponses du modèle pour bloquer les contenus interdits avant qu’ils ne soient générés.
  • Ce système s'appuie sur l’approche "constitutionnelle" d’Anthropic, qui définit les contenus autorisés et interdits. Il utilise des classificateurs entraînés sur des prompts générés de manière synthétique et modifiés pour ressembler à des techniques connues de jailbreak.
  • Depuis août 2024, Anthropic a soumis son modèle à un programme de bug bounty, offrant 15 000 dollars à quiconque réussirait un "jailbreak universel" en contournant totalement ses protections. Malgré 3 000 heures d’essais par 183 experts, personne n’a encore réussi à franchir complètement la barrière.
  • Une évaluation interne menée sur 10 000 prompts d’attaque a montré que son système réduit le taux de succès des jailbreaks à 4,4 %, contre 86 % sur un modèle non protégé.
  • Anthropic reconnaît néanmoins des limites : ce bouclier augmente de 23,7 % la consommation de calcul et bloque parfois des questions légitimes. Ces faux positifs ont été réduits dans les versions récentes.
  • À SURVEILLER : Le test public de Claude. Jusqu’au 10 février, Anthropic invite les utilisateurs à tenter de contourner ses protections, afin d’identifier de potentielles failles et renforcer la sécurité de son modèle.

L’essentiel