Ce soir, OpenAI ne lancera pas GPT-5, même si en un an plusieurs modèles ont atteint les performances de GP-4 : Gemini 1.0 Ultra et Gemini 1.5 Pro de Google, Claude 3 Opus d’Anthropic et Llama3 400B de Meta, pour ses résultats préliminaires. Le plus probable reste que GPT-4.5 soit lancé à l’été, avec des informations à jour jusqu’en juin 2024, comme l’indiquait une fuite de documents au mois de mars. Quant à GPT-5, ne sait quand reviendra, à Pâques ou à la Trinité.
Deux raisons sont possibles à ce train de sénateur, auquel l’IA et surtout OpenAI ne nous ont pas habitués.
Il se peut que les grands modèles de langage aient atteint un plateau, et que l’augmentation des performances passe désormais par les jeux synthétiques d’entraînement, qui font la force de Llama 3, plutôt que par les mélanges d’experts et par le nombre de paramètres, qui ont porté GPT-4 et de nombreux modèles, jusqu’à Mixtral 8×7 B, le produit phare du champion français.
Cependant, la bataille des modèles de fondation n’est pas terminée, comme le montre la brève apparition des GPT2 dans LMSYS, détaillée dans la vidéo ci-dessous.
Mais les qualités attendues des modèles intègrent plus que des performances : qu’il s’agisse d’embarquer l’IA dans un agent ou un robot, de la personnaliser ou de la rendre plus fiable, d’améliorer la fiabilité des résultats générés ou la qualité de son raisonnement, les critères sont en train de changer.
Il est donc dans l’intérêt d’OpenAI de laisser la possibilité de GPT-5 planer comme une menace sur ses concurrents tout en remplaçant progressivement l’intelligence artificielle générale (AGI) par des concepts technologiquement plus fructueux. Et d’annoncer ce soir quelque chose de plus marquant que GPT-4.5, d’autant que la marque GPT enferme OpenAI dans une sorte de “piège autorégressif” : il n’est pas du tout certain que l’architecture des transformateurs génératifs pré-entraînés (le sens de l’acronyme GPT) soit adaptée à donner à l’IA la capacité de raisonner ou de prendre des décisions en fonction des instructions de l’utilisateur, “l’agentivité”.
Or, il s’agit là de deux des principales évolutions qui se préparent dans l’IA. On peut en citer encore quatre :
- La personnalisation et la fiabilité : pour combattre les hallucinations, le marché a trouvé une solution, la génération assistée de la recherche (RAG). Avec Gemini 1.5, Google propose des prompts qui peuvent s’élever jusqu’à un million de tokens. Les deux solutions préparent l’utilisateur à une forme de recherche générative. Celle-ci bénéficie du jeu d'entraînement du modèle, mais elle privilégie le fonds documentaire de l’utilisateur, qu’il s’agisse de texte, de photos, de sons, de vidéos. Et elle peut bien sûr s’étendre à l’ensemble d’Internet. C’est sur ce point que se sont concentrées les rumeurs avant l’annonce (lire ci-dessus). Et c’est ce qu’indique Sam Altman quand il qualifie le search de “boring”: une recherche générative personnalisée de qualité, via un agent vocal, fait bien plus rêver que simplement contester le monopole de Google. L’échec de Bing a montré que l’intégration de l’IA à la recherche sur Internet ne suffit pas, par elle-même, à créer une nouvelle donne.
- La multimodalité : tout comme GPT-4 Vision a été intégré à GPT-4, il est probable que Sora et Whisper (ou son successeur pour la synthèse vocale et la musique) seront lancés indépendamment, puis intégrés à GPT-5, quel que soit le nom qui lui sera attribué.
- L’IA embarquée : de la santé à la voiture autonome, GPT-4 est déjà en train de prendre sa place dans tous les robots. Ses successeurs, dotés de capacités de raisonnement et d’agentivité, trouveront dans la robotique autonome le moyen naturel d’interagir avec le monde réel.
Nous reviendrons demain sur le live d’OpenAI, ainsi que sur l’état de l’art de l’IA dans ces six axes d’évolution.
Pour en savoir plus: