Un Flash éblouissant chez Google

blog_gemini_keyword_header.width

Google a présenté Gemini 2.0 Flash, premier modèle de la série Gemini 2.0. Il devient pleinement multimodal et se veut le modèle de référence pour les agents d’IA qui commencent à apparaître. Avec de bonnes chances de réussite.

  • Google a présenté Gemini 2.0 Flash, un nouveau modèle d’IA multimodal, capable de générer du texte, des images et de l’audio, et d’accepter des vidéos en input. Il est à la fois plus puissant et plus rapide que Gemini 1.5 Pro 002, le plus fort des Gemini jusqu’à présent, avec un score de 76,4 % sur MMLU-Pro, 92,9% sur Natural2Code et 89,7 % sur Math, pour citer les tests les plus courants.
  • Après les déboires de Gemini, épinglé en février pour avoir notamment représenté des soldats nazis noirs (lire Qant du 23 février), Google a commencé à tester ses modèles sur la “factualité”, le respect des faits, où le nouveau modèle obtient un score raisonnable de 83,6 %.
  • Google Deepmind déclare que son objectif à long terme est de créer des agents d'intelligence artificielle utiles dans tous les domaines.
  • Par exemple, Jules, un agent de code expérimental alimenté par Gemini 2.0, s'intègre directement dans un flux de travail GitHub. Il peut s'attaquer à un problème, développer un plan et l'exécuter, le tout sous la direction et la supervision d'un développeur. Gemini 2.0 peut non seulement écrire du code, mais l’exécuter.
  • Astra, qui avait fait sensation au printemps lors de Google I/O, utilise Gemini 2.0 pour offrir une assistance visuelle, permettant d’identifier des objets, de donner des indications et d’aider à localiser des objets personnels.
  • Mariner propose une navigation web automatisée via une extension Chrome, avec des applications dans l’exécution de tâches complexes sur le navigateur.
  • Avec l’éditeur de jeux vidéos Supercell, Google développe des agents pour conseiller les joueurs. Ces agents se basent exclusivement sur l’écran du joueur, ses instructions orales et la recherche sur Internet.
  • Gemini 2.0 renforcera l'intégration de l’IA dans les principaux outils de Google : la recherche sur Internet (“Search”) et la suite bureautique Workspace. Les abonnés payants à Gemini Advanced, par exemple, peuvent avoir accès à des fonctions de “recherche profonde” : Deep Research agit comme un assistant de recherche personnel, qui crée un plan de recherche en plusieurs étapes basé sur la requête de l'utilisateur, l’exécute sur le web, trouve des informations pertinentes et lance de nouvelles recherches en fonction de ses résultats. Il répète ce processus plusieurs fois, en affinant continuellement son analyse, puis compile un rapport complet des principaux résultats, avec des liens vers les sources originales.
  • Les nouveaux modèles font montre également de capacités en informatique spatiale, calculant aisément les positions d’objets dans les images (vidéo ci-dessous). Un signe de plus que Large World Models, comme ceux développés par Niantic ou Fei Fei Li, représentent un avenir potentiel de l’IA après l’IA générative.
  • À SURVEILLER : Des agents plutôt que des performances. Comme prévu, les performances Gemini 2.0 ne constituent pas une rupture mais une amélioration progressive. Tous les grands modèles semblent se heurter à ce plafond, qui déplace la lutte vers le terrain des applications : chain-of-thought pour o1 d’OpenAI, agents d’IA pour Google. Seul Orion/GPT-5 pourrait changer la donne si, comme certains le pensent, le présente comme bouquet final de son “calendrier de l’Avent”, la semaine prochaine.

L’essentiel