Le plan d’OpenAI pour gagner la course des modèles

“La course aux LLMs est lancée” (Qant, M. de R. avec Midjourney)

En annonçant une nouvelle version de GPT-4 Turbo, la firme de Sam Altman veut reprendre la main face à Anthropic. Avant de frapper de nouveau, avec GPT-5 et les agents d’IA.

On attendait GPT-5, ce fut “GPT-4-turbo-2024-04-09”.

Cette version améliorée de GPT-4 Turbo apporte déjà des avancées significatives dans la rédaction, des mathématiques, du raisonnement logique et de la programmation. La version est entraînée sur des données publiques disponibles jusqu'en décembre 2023, alors que GPT-4 Turbo s’arrêtait en avril 2023 (mais il pouvait aller chercher des compléments sur Internet). Et les progrès ne s'arrêtent pas là. Selon OpenAI, les réponses générées par le nouveau modèle sont plus directes, moins verbeuses et elles utilisent un langage plus conversationnel.

Simultanément, OpenAI a lancé GPT-4 Turbo Vision. Cette version de GPT-4 V accepte des images dans les prompts. Il peut ainsi faire face à la concurrence de Gemini 1.5 et sa fenêtre de contexte multimodale d’un million de tokens, qui se nourrit d’images et de vidéos.

Face à Claude, un marathon

De prime abord, cette mise à jour de GPT-4 Turbo apparaît comme une tentative pour OpenAI de reprendre la main sur la course qui l’oppose à ses concurrents. Depuis sa sortie il y a plus d’un an (lire Qant du 15 mars 2023), GPT-4 domine l'intelligence artificielle générative, sans concurrent à sa mesure. Mais les derniers mois ont vu le paysage évoluer, avec l'arrivée des dernières versions des modèles de Google et Anthropic, respectivement Gemini 1.0 Ultra et 1.5 Pro pour Google (lire Qant du 11 avril), et surtout Claude 3 Opus pour Anthropic (lire Qant du 5 mars).

Jusqu’à GPT-4-turbo-2024-04-09, Claude 3 Opus surpassait GPT-4 Turbo. Un projet en open research de l'université de Berkeley soutenu par Hugging Face, LMSYS (Large Model Systems Organization), propose un classement des grands modèles de langage original : il s'appuie sur plus de 650 000 votes à ce jour. La Chatbot Arena fonctionne avec un système de point Elo, à la manière du classement mondial des joueurs d'échecs : chaque contributeur est amené à voter entre deux modèles, à l'aide d'un prompt identique. Alors que la dernière version de Claude occupait la tête du classement depuis sa sortie, la LMSYS a annoncé en fin de semaine dernière qu'OpenAI avait repris la tête.

Le classement de la Chatbot Arena de LMSYS (Source : LMSYS)

Le classement de la Chatbot Arena de LMSYS (Source : LMSYS)

Il semble en tout cas clair que Google et Anthropic ont atteint le niveau d’Open AI l’an dernier ; Meta ne devrait pas tarder à se joindre au peloton de tête. Et que GPT-4-turbo-2024-04-09 est bien un pansement destiné à rétablir OpenAI en tête des classements en attendant la sortie de GPT-5.

Celle-ci semble tarder, donnant raison aux interrogations de Gary Marcus en décembre dernier, quand il évoquait la possibilité que la recherche sur les grands modèles de langage ait atteint un plateau (lire Qant du 7 décembre 2023). Mais OpenAI la décrit désormais comme prochaine.

Les capacités de GPT-5 permettront de juger si OpenAI a gardé son avance pendant l’année écoulée, ou si ses chercheurs se sont heurtés à un plafond. L’origine de celui-ci peut en être scientifique, comme le soutien Gary Marcus, ou simplement humaine : les péripéties de l’an dernier ont forcément laissé des traces dans l’entreprise. Alors que d’autres se plient en quatre pour recruter les professionnels de l’IA, payé des fortunes, OpenAI vient de licencier deux chercheurs, apparemment impliqués dans la fuite d'informations qui a mené au renvoi éphémère de Sam Altman l'année dernière (lire Qant du 20 novembre 2023).

Les agents de GPT-5

Tout comme Llama 3 la semaine dernière, GPT-5 sera sans doute promu pour ses capacités de “raisonnement”. Le marketing d’OpenAI le présentera comme un pas en avant vers l’intelligence artificielle générale. Dans la réalité, son utilisation principale devrait être de servir de modèle de fondation aux agents d’IA.

OpenAI développe actuellement deux types d'agents autonomes capables de réaliser des tâches complexes sur les appareils numériques des utilisateurs (lire Qant du 9 février). Le premier type prendra le contrôle de l'appareil pour exécuter des tâches comme le transfert de données d'un document vers un tableur ou le remplissage automatique de rapports de dépenses. Son fonctionnement se rapprochera de Siri (Apple) ou Alexa (Amazon), ce qui rendra nécessaire l'autorisation explicite de l'utilisateur pour opérer.

Le second type d'agent est conçu pour gérer des tâches basées sur le web, comme la collecte de données publiques sur des entreprises, la création d'itinéraires sous certaines contraintes budgétaires ou la réservation de billets d'avion. Ces agents utiliseront des modèles de traitement du langage naturel pour interagir de manière conversationnelle.

Ces agents pourront ensuite être embarqués dans des robots et des voitures autonomes. De quoi faire pâlir l’intelligence artificielle générale.

Pour en savoir plus :

L’essentiel