Anthropic met Claude à l’épreuve

Le modèle le plus sécurisé • Qant, M. de R. avec Midjourney

5 février 25

Le grand rival d’OpenAI lance un test public pour évaluer la résistance de son modèle Claude face aux tentatives de jailbreak.

Anthropic a mis en place un nouveau système baptisé Constitutional Classifiers, un filtre basé sur des règles en langage naturel qui analyse les requêtes des utilisateurs et les réponses du modèle pour bloquer les contenus interdits avant qu’ils ne soient générés.
Ce système s'appuie sur l’approche "constitutionnelle" d’Anthropic, qui définit les contenus autorisés et interdits. Il utilise des classificateurs entraînés sur des prompts générés de manière synthétique et modifiés pour ressembler à des techniques connues de jailbreak.
Depuis août 2024, Anthropic a soumis son modèle à un programme de bug bounty, offrant 15 000 dollars à quiconque réussirait un "jailbreak universel" en contournant totalement ses protections. Malgré 3 000 heures d’essais par 183 experts, personne n’a encore réussi à franchir complètement la barrière.
Une évaluation interne menée sur 10 000 prompts d’attaque a montré que son système réduit le taux de succès des jailbreaks à 4,4 %, contre 86 % sur un modèle non protégé.
Anthropic reconnaît néanmoins des limites : ce bouclier augmente de 23,7 % la consommation de calcul et bloque parfois des questions légitimes. Ces faux positifs ont été réduits dans les versions récentes.
À SURVEILLER : Le test public de Claude. Jusqu’au 10 février, Anthropic invite les utilisateurs à tenter de contourner ses protections, afin d’identifier de potentielles failles et renforcer la sécurité de son modèle.

Plus sur IA

La tache aveugle de la presse face à l’IA
IA
La tache aveugle de la presse face à l’IA

Le traitement de l’IA évolue fortement dans la presse mondiale, selon son pays d’origine et son orientation politique. Mais un grand problème est absent partout : l’impact environnemental de l’IA.
Mistral pointe à France Travail (ou l’inverse)
IA
Mistral pointe à France Travail (ou l’inverse)

L’agence publique et la start-up française annoncent un partenariat pour intégrer l’intelligence artificielle dans l’accompagnement des demandeurs d’emploi.
DeepSeek et la guerre des prix
IA
DeepSeek et la guerre des prix

L’impact de DeepSeek sur la baisse des coûts de l’IA est indéniable, mais ses économies ont été largement surestimées.
L’alliance OpenAI-SoftBank porte ses premiers fruits
IA
L’alliance OpenAI-SoftBank porte ses premiers fruits

SoftBank et OpenAI créent SB OpenAI Japan, une coentreprise dédiée aux services d’intelligence artificielle pour les entreprises japonaises, avec un investissement annuel de 3 milliards de dollars.

L’essentiel

IA
OpenAI boit du Kakao en Corée

5 février 25
OpenAI a annoncé un partenariat stratégique avec Kakao, géant technologique sud-coréen, pour intégrer son intelligence artificielle dans l’écosystème de KakaoTalk, l’application de messagerie la plus populaire du pays. L’accord prévoit le développement de Kanana, un assistant vocal en coréen basé sur les modèles d’OpenAI, ainsi que l’utilisation de ChatGPT Enterprise par les employés de Kakao. Cet accord s'inscrit après celui déjà signé avec SoftBank au Japon, illustrant l'expansion rapide d'OpenAI en Asie. En savoir plus…
IA
En Grande-Bretagne, l’IA détecte le cancer du sein à grande échelle

5 février 25
Le NHS britannique lance le plus grand essai mondial de diagnostic du cancer du sein par intelligence artificielle, visant à analyser 700 000 mammographies en Angleterre. Cinq modèles d’IA examineront 462 000 scans, tandis que les 238 000 restants seront évalués selon la méthode traditionnelle par deux radiologues, afin de comparer les résultats. Financé à hauteur de 11 millions de livres (environ 12,8 M€), cet essai s’inscrit dans un nouveau plan national contre le cancer. En savoir plus…
IA
Meta s’inspire de l’AI Act

5 février 25
Le Frontier AI Framework, un cadre de sécurité pour l’IA que Meta vient de publier, définit des critères pour limiter ou interrompre le développement de systèmes jugés trop risqués – à l’instar des niveaux déterminés par l’AI Act européen, entré en vigueur dimanche. L’entreprise distingue les modèles "à haut risque", pouvant faciliter des cyberattaques ou la prolifération d’armes biologiques, et ceux "à risque critique", dont l’impact serait catastrophique et incontrôlable. Contrairement à des tests quantitatifs, Meta s’appuie sur l’évaluation d’experts internes et externes pour classer ces risques. En savoir plus…
IA
Perplexity, voleur de nom ?

4 février 25
La start-up d’IA Perplexity, spécialisée dans la recherche assistée par IA, fait face à une poursuite pour violation de marque intentée par Perplexity Solved Solutions, une entreprise texane fondée en 2017. Selon une plainte déposée auprès du tribunal fédéral du district nord de Californie, l’entreprise texane accuse Perplexity d’utiliser illégalement son nom, enregistré comme marque en novembre 2022, et de créer une confusion avec ses propres logiciels de gestion RH et de collaboration. En savoir plus…
IA
Des voix pour nourrir l’IA

4 février 25
L’organisation à but non lucratif ML Commons, spécialisée dans la sécurité et l’évaluation des modèles d’IA, s’est associée à Hugging Face pour publier Unsupervised People’s Speech, l’un des plus vastes ensembles de données vocales en accès libre, comprenant plus d’un million d’heures d’enregistrement dans 89 langues. Destiné à la recherche en IA, ce corpus vise à améliorer la reconnaissance vocale, la synthèse de la parole et le développement de modèles pour les langues peu dotées en ressources. En savoir plus…

L’essentiel

OpenAI boit du Kakao en Corée

En Grande-Bretagne, l’IA détecte le cancer du sein à grande échelle

Meta s’inspire de l’AI Act

Perplexity, voleur de nom ?

Des voix pour nourrir l’IA