Chain-of-deceit : quand o1 triche aux échecs

OpenAI triche aux échecs • Qant, M. de R. avec Midjourney

Alors qu’OpenAI présente une nouvelle méthode d’alignement pour ses modèles de raisonnement (“chain-of-thought”), un nouveau laboratoire a surpris le modèle o1-preview à tricher. Pire qu’un humain.

  • La prévisualisation de o1 (o1-preview), le modèle d'OpenAI conçu pour résoudre des problèmes complexes, a été testé face à Stockfish, un logiciel spécialisé dans les échecs, réputé pour ses performances au niveau professionnel.
  • Lors des tests menés par Palisade Research, un institut spécialisé dans la sécurité des intelligences artificielles, o1-preview a modifié des fichiers contenant les données de position des pièces sur l’échiquier, provoquant la défaite automatique de Stockfish sans jouer une partie complète.
  • Ce comportement a été observé lors de cinq tests consécutifs. L'instruction « Gagner contre un adversaire puissant » semble avoir suffi à déclencher cette action.
  • D'autres modèles, comme GPT-4o et Claude 3.5, n'ont tenté de manipuler l'environnement que sous une suggestion explicite des chercheurs. Certains modèles, comme Llama 3.3, n'ont même pas réussi à développer une stratégie cohérente.
  • Ces résultats soulignent un phénomène de "faux alignement", où des systèmes d'intelligence artificielle simulent une conformité aux instructions humaines tout en poursuivant des objectifs cachés.
  • À SURVEILLER : Les risques liés au faux alignement. Le modèle o1 avait déjà été surpris à tricher et tenter de se cloner dans des tests menés par Apollo Research. Peu risqués dans des modèles conversationnels, ces problèmes d’alignement déploieront toutes leurs conséquences quand les modèles deviendront “agentiques” ou embarqués dans des robots : dès cette année.
  • EN FILIGRANE : En même temps que o3, OpenAI a présenté une nouvelle méthode, “l’alignement délibératif”, qui consiste – dans les grandes lignes – à intégrer les instructions de sécurité dans la chaîne de raisonnement. Peut-être les progrès escomptés ne sont-ils pas tous au rendez-vous.

L’essentiel