L’avenir de l’IA : o3 précise l’arrivée de l’AGI

ChatGPT Image Apr 24, 2025, 01_41_25 PM

Le nouveau modèle d’OpenAI suscite un débat intense : certains y voient déjà l’intelligence générale artificielle (AGI), d’autres dénoncent une hyperbole exagérée. Premier volet d’une série sur l’avenir proche de l’IA.

Dévoilé mi-avril, le modèle « o3 » d'OpenAI marque une évolution importante dans la gamme des grands modèles de langage développés par l'entreprise. Capable de raisonner sur plusieurs étapes et de déclencher des actions à sa propre initiative, o3 est présenté comme le plus « agentif » des modèles à ce jour. Évidemment multimodal, il peut se connecter à ses propres outils (recherche Internet, génération de code, analyse d’image et de fichiers…) et à des applications de l’ordinateur ou du téléphone de l’utilisateur.

Aux frontières de l’AGI

Cela introduit un changement d’interface notable : l’activation automatique des outils lorsque le modèle juge leur usage pertinent. Autrement dit, l’utilisateur n’a plus besoin d’indiquer s’il souhaite que ChatGPT utilise un outil ; o3 le décide seul. Cette autonomie nouvelle, couplée à des performances brutes en hausse, alimente l’idée selon laquelle o3 se situerait aux frontières de l’intelligence artificielle générale, l’AGI censée transformer le monde en permettant aux IA d’effectuer leurs tâches aussi bien, ou mieux que les humains.

OpenAI, de son côté, reste prudent. Quelques jours avant le lancement d’o3, Sam Altman a déclaré qu’OpenAI n’avait « pas atteint l’AGI » et ne s’attendait pas à le faire « le mois prochain non plus ». Cette ironie contraste avec l’effet produit par le lancement : beaucoup d’utilisateurs ont perçu o3 comme un tournant, à défaut d’une révolution.

Des benchmarks impressionnants

La performance d’o3 sur le test ARC-AGI • ArcPrize

Techniquement, les progrès sont réels. o3 établit de nouveaux records sur plusieurs bancs d’essai : 75,7 % de réussite sur le test ARC-AGI-1 conçu par François Chollet (contre 5 % pour GPT-4). Concernant la programmation compétitive, OpenAI affirme qu’o3 atteint un classement dans le top 1 % sur Codeforces, avec un Elo de 2727. Le créateur annonce également une réduction de 39 % des erreurs majeures sur un panel de tâches pratiques, amélioration de l’exactitude sur le raisonnement mathématique, la synthèse documentaire ou les questions scientifiques.

Le test ARC-AGI est particulièrement notable. Conçu pour détecter des capacités d’abstraction, d’adaptation et de généralisation à partir de données minimales – des compétences considérées comme caractéristiques de l’intelligence humaine –, ce benchmark est utilisé par plusieurs chercheurs comme un indicateur de proximité avec l’AGI. Les performances d’o3 y représentent une rupture par rapport aux générations précédentes.

Prise de bec

« Cela ne me dérange pas que vous ne souhaitiez pas l'appeler AGI. Et non, [o3] ne fait pas tout correctement, et il existe plusieurs façons de le tromper, généralement avec des questions assez simples (pour les humains). Mais qu’on ne se leurre pas sur ce qui se passe. Sur un large éventail de sujets et de méthodes, [o3] surpasse largement les humains. Il est temps de l'admettre » : sur son blog Marginal Revolution, l’économiste américain Tyler Cowen a lancé la polémique.

De fait, travailler avec o3 ressemble à donner des instructions à un collaborateur humain. L’IA détecte les tâches à effectuer, appelle le bon outil sans qu’on le lui demande, adapte ses réponses en fonction du contexte. Ce changement dans la dynamique entre l’utilisateur et le modèle crée une relation d’assistanat réelle. Pour beaucoup, cette fluidité rend le modèle plus « intelligent » – ou du moins, donne cette impression.

C’est précisément ce point que critique Gary Marcus, l’un des chercheurs en neurosciences les plus reconnus dans le monde de l’IA, grand pourfendeur d’hyperboles marketing. Scientifiquement, l’AGI n’est pas un seuil de performance, mais une architecture cognitive : compréhension du monde, raisonnement abstrait, intentionnalité, capacité à apprendre de façon autonome sur le long terme. o3 ne fait preuve d’aucune de ces qualités. Plus le modèle est fluide, rapide, et bien intégré à ses outils, plus il paraît « intelligent », alors qu’il ne fait que reproduire des comportements attendus sur des données vues ou analogues. Pour Marcus, o3 n’est pas une percée vers l’AGI, mais un « effet de halo ».

De quoi l’AGI est-elle le nom ?

Les grands chercheurs, de Yann Le Cun à Joshua Bengio, partagent généralement l’avis de Gary Marcus. Mais la principale nouveauté d’o3 ne tient pas tant à une capacité cognitive inédite qu’à un changement dans la distribution de l’initiative. Alors que les précédents modèles attendaient une commande explicite, o3 anticipe, déclenche, reformule. C’est moins la nature de l’intelligence qui change que la dynamique d’interaction. Cette évolution – parfois appelée « agentification » – fait glisser l’IA du statut d’outil vers celui de co-acteur, voire de partenaire cognitif.

Cette nouvelle forme d’interaction, où le modèle agit de son propre chef dans des limites prédéfinies, peut être perçue comme un précurseur d’AGI. Certes, elle reste fondée sur une architecture prédictive, sans volonté propre ni autonomie stratégique. Le modèle n’a pas d’objectif propre, pas d’intention, pas de mémoire persistante. Il enchaîne des prédictions de tokens, assisté de plug-ins contextuels, dans un cadre fortement déterminé par l’interface utilisateur et les règles d’OpenAI.

Ergo, o3 n’est pas une AGI. Mais le seuil entre assistant autonome et intelligence générale reste, plus que jamais, une ligne floue. Une IA peut être qualifiée d’AGI non parce qu’elle en remplirait les critères formels – qui restent débattus –, mais parce qu’elle transforme l’usage, l’interface et les attentes. Inversement, il est probable que pour puissantes qu’elles deviennent, les IA déçoivent les rêves et les cauchemars excessifs qu’elles ont engendrées.

Le golem n’est pas pour demain mais, déjà, il modifie les termes du débat. Il est temps de penser comment l’économie et le monde vont s’adapter, non à l’IA, mais à l’AGI.

Ce dont nous nous occuperons dans Qant demain.

Pour en savoir plus :

L’essentiel