Gemini 2.5 Pro, une IA qui donne à réfléchir

Le modèle qui pense • Qant, M. de R. avec Midjourney

Claude Sonnet 3.7, GPT-4.5 et Grok 3 avaient donné l’impression que les LLM les plus avancés étaient en train d’atteindre un plafond. Le nouveau modèle de Google Deepmind, qui atteint des performances inédites, invite à penser le contraire.

Gemini 2.5 Pro, annoncé la semaine dernière par Google, inaugure une nouvelle génération de modèles Gemini orientés vers le raisonnement, à l’instar de la série o1/o3 d’Open, de Claude Sonnet 3.7, d’Anthropic, et de Grok 3 de xAI. Il est rapide, ne coûte pas 200 dollars par mois comme DeepResearch (la seule manière d’accéder à o3) et il accepte jusqu'à un million de tokens de contexte, soit plusieurs centaines de pages, avec un objectif annoncé de deux millions. Il peut analyser simultanément du texte, du code, des images, de la vidéo ou, ce qui est plus rare, de l'audio. Cela pourrait en faire, potentiellement, un “RAG-killer”, capable d’engloutir dans une seule requête un fonds documentaire pertinent.

Enfin, Gemini 2.5 Pro présente une nette amélioration en codage par rapport à Gemini 2.0, avec une meilleure capacité à créer et à modifier des applications web ou des scripts, même si Claude Sonnet 3.7 reste le meilleur dev IA du marché.

Records battus

Gemini 2.5 Pro s’est immédiatement placé en tête du classement LMArena, devant GPT-4.5 et Claude 3.7 Sonnet. Sur le nouveau test Humanity’s Last Exam, il atteint 18,8 %, contre 14 % pour o3-mini d’OpenAI et 8,6 % pour DeepSeek R1. Il obtient également d’excellents résultats sur les benchmarks GPQA, AIME et SWE-Bench Verified (63,8 %), le plaçant parmi les modèles les plus performants en codage. Seul Claude 3.7 Sonnet s’avère meilleur développeur.

Des tests montrent aussi des progrès notables dans les domaines mathématiques et scientifiques, grâce à une meilleure capacité à suivre une logique étape par étape. Sur GPQA, un questionnaire scientifique de niveau supérieur, Gemini 2.5 figure parmi les meilleurs modèles évalués, démontrant une aptitude à traiter des connaissances complexes non directement issues du web.

Comparaison de Gemini 2.5 Pro par rapport à ses concurrents. • Source : Google

Le modèle affiche également de bonnes performances sur les tâches nécessitant des compétences en résolution de problèmes, combinées à de la mémoire à long terme. Sa capacité à conserver un contexte étendu permet d’envisager des scénarios d’utilisation plus ambitieux, comme le suivi d’un projet sur plusieurs centaines d’échanges ou la génération cohérente de documents longs et techniques.

Gemini 2.5 Pro se distingue par l’équilibre entre raisonnement, multimodalité et profondeur contextuelle. La progression rapide des versions 2.0 à 2.5 montre une volonté d’aligner le modèle sur les cas d’usage les plus complexes rencontrés dans l’environnement professionnel.

Le modèle est destiné à équiper les futurs produits Google. Il est déjà intégré dans certaines interfaces Gemini et dans Google Docs, où il assiste la rédaction et la synthèse de contenu. La fenêtre contextuelle étendue permet d’envisager des usages dans l’analyse documentaire, le résumé de corpus ou la génération de réponses longues.

Il sera également utilisé pour alimenter des outils comme NotebookLM ou la fonction « aide à la recherche » dans Google Search. Ces intégrations visent à offrir une expérience plus fluide aux utilisateurs professionnels, avec des suggestions, des reformulations et des synthèses intégrées directement dans les outils de travail quotidiens.

Gemini 2.5 Pro pourrait ainsi devenir un socle technologique pour les outils de productivité, la recherche scientifique ou le développement logiciel. Il marque une étape vers des agents plus contextuels et adaptés à des tâches complexes, en environnement professionnel comme dans les produits destinés au grand public.

Perspectives d’évolution

Google Deepmind annonce que d'autres variantes de la série 2.5 sont en développement. Tout comme pour OpenAI et Anthropic, le raisonnement étendu deviendra un standard dans ses modèles futurs. L’architecture sous-jacente à Gemini 2.5 Pro n’a pas été détaillée, comme de coutume désormais chez Google Deepmind, mais le groupe indique avoir modifié la structure de base pour intégrer les fonctions de raisonnement dès l’entraînement.

Surtout, ses performances sont telles qu’elles font bouger les attentes et créent un nouvel état de l’art. Ce qui augure bien, dans quelques mois, de GPT-5/o3 et Claude 3. Et même, de l’apparition prochaine d’une IA de niveau humain.

Pour en savoir plus :

L’essentiel