Mille annonces et deux choix stratégiques

“Le combat des robots” (Qant, M. de R. avec Midjourney)

Derrière la masse d’annonces à Google I/O hier soir, se dessine la manière dont Google compte reprendre la main face à Microsoft et OpenAI. Avec un double enjeu: l’évolution de son modèle, fondé sur la publicité, et le contrôle des smartphones.

L’annonce la plus spectaculaire de Google I/O, hier soir, a été faite à la vingt-cinquième minute de la vidéo ci-dessus. Elle montre l’avenir des agents d’IA.

Le projet Astra de Google Deepmind développe un agent d'intelligence avancé capable de gérer des entrées audio et vidéo en temps réel. Il se base sur Gemini Live, qui sera déployé d’ici à la fin de l’année.

Très proche du nouveau ChatGPT, Gemini Live maintient une conversation naturelle tout en analysant la vidéo qui lui est soumise et en consultant l’index de Google, au cœur du moteur de recherche. Le modèle maintient en mémoire cette conversation multimodale : il peut ainsi indiquer à l’utilisatrice l’endroit où elle a oublié ses lunettes. Il semble “orienté spatialement” comme le casque Vision Pro d’Apple et peut en tout cas reconnaître son environnement s’il a été enregistré par Google Maps. Tout comme GPT-4o (lire Qant du 14 mai), il peut “lire” des textes et du code informatique, analyser un graphique ou une photo, titrer un dessin (non sans humour) et suggérer des modifications pour résoudre un problème ou améliorer un concept.

Per aspera ad Astra

Sous le capot, Astra encode en continu les images et les sons produits par le téléphone et combine les entrées visuelles et vocales dans une chronologie d'événements mise en cache pour un rappel rapide. Cette approche hérite donc de la recherche pour les Google Glass et n’est pas sans évoquer les lunettes de réalité augmentée produites par Meta et RayBan (lire Qant du 28 septembre 2023). Mais surtout elle réduit le temps de réponse de l'IA pour atteindre une interaction conversationnelle fluide comparable à la démo du nouveau ChatGPT. Le but, explique Demis Hassabis, cofondateur de Deepmind et patron de l’IA chez Google, est de créer un assistant personnel, doté d’intelligence générale, l’AGI.

Certes, il y a loin de la coupe aux lèvres et d’une vidéo à un agent d’IA fonctionnel. Demis Hassabis prend grand soin de préciser que la présentation d’Astra n’a pas été éditée, pour éviter le scandale qui avait entouré le lancement de Gemini, dont les capacités avaient été fortement exagérées en vidéo (lire Qant du 8 décembre 2023). Cette fois, la communication du groupe semble avoir été maîtrisée, si ce n’est le côté brouillon dû à l’avalanche d’annonces qui a été faite en une heure.

Agent Hassabis au rapport

En effet, Google déploie déjà des IA dotées “d’agentivité”, capables de créer des objets numériques et d’agir sur Internet selon les instructions reçues. Rattrapant son retard sur Microsoft Copilot, le groupe proposera dans les semaines qui viennent, à ses abonnés payants, un assistant contextuel qui aura accès à toutes les données de l’utilisateur dans la suite Workspace (la messagerie Gmail, l’espace de stockage Drive, le traitement de texte Docs, le tableur Sheets et le logiciel de présentation Slides). A la différence de Copilot, Gemini ne se contentera pas de proposer des résumés et des brouillons d’e-mail. Dans la démo d’hier soir, le modèle génère par exemple un tableur de notes de frais à partir de tous les reçus trouvés dans la boîte de mail.

De même, les fonctionnalités de recherche générative ne se contentent pas de proposer des réponses à la question posée, comme le fait la Search Generative Experience, qui sera généralisée aux États-Unis à partir d’aujourd’hui, sous le nom de AI Overviews (lire Qant du 14 mai). Gemini pourra être utilisé pour générer des pages personnalisées sur la création de menus, les plannings de visite, etc. Pour ce faire, le modèle décompose la question posée en sous-questions, exactement comme le fait, par exemple, AutoGPT. De là à le laisser effectuer des réservations et des paiements, il n’y a qu’un pas – et une formidable question de sécurité.

Une partie d’échecs entre géants

À terme, cela peut préluder à un changement de modèle économique extrêmement conséquent pour Google. Outre les expérimentations croissantes sur les abonnements (lire Qant du 5 avril), il est aisé d’imaginer que le géant prendra une commission sur les achats effectués par le biais de ses agents, le moment venu. Confronté au succès croissant des moteurs de recherche par IA comme Perplexity, The Browser Company et You.com, et surtout à la menace d’une alliance entre Apple et OpenAI (lire Qant du 14 mai), Google tente donc de diversifier ses sources de chiffre d’affaires.

Pas un mot n’a été prononcé, hier, sur la gestion de la publicité dans les nouvelles interfaces. L’enjeu de la transition est immense : environ 200 milliards d’euros par an pour Google et la survie pour bien des éditeurs et producteurs de contenu numérique. Mais la recherche générative avec des agents d’IA peut permettre à Google de resserrer son emprise sur le marché des smartphones (lire ci-dessus, L’Empire contre-attaque).

Rien n’assure en effet que l’alliance entre Apple et OpenAI soit du goût de Microsoft, qui n’a sans doute pas investi 13 milliards de dollars dans la start-up dans le but de sortir l’iPhone de l’impasse.

La fin du Web et l’infocalypse

Depuis le lancement de l’iPhone en 2007, les prédictions sur “la fin du Web” ont été aussi nombreuses que celles sur la fin du monde à l’an Mil. Outre la menace en filigrane sur leurs recettes publicitaires, cependant, Google I/O a également présenté des avancées assez considérables dans la “révolution multimodale”, la production de contenu numérique par l’IA. Outre Imagen 3, la dernière version du modèle text-to-image et une “Music Sandbox” dérivée du modèle Lyria, voici venir Veo, un nouveau modèle qui génère des vidéos à partir de textes.

Veo se mesure directement à Sora d’OpenAI. Aucun des deux n’est pour l’instant disponible mais, d’après les démonstrations, Veo ne se limite pas comme Sora aux vidéos d’une minute inspirées de Tik-Tok. Le modèle promet à ses utilisateurs un contrôle accru sur le style cinématographique des vidéos créées.

La capacité de Veo à comprendre le langage naturel a été particulièrement mise en avant hier soir, avec une compétence avancée pour interpréter des termes cinématographiques spécifiques comme « timelapse » ou « prises de vue aériennes d'un paysage ». Cela permet aux utilisateurs de guider précisément la production selon leurs besoins créatifs, promettant des vidéos plus cohérentes et réalistes, avec des mouvements plus naturels pour les personnes, animaux et objets. Des fonctionnalités pour produire des storyboards et des scènes plus longues sont en préparation.

Google dispose en la matière d’un immense avantage sur OpenAI : le droit d’utiliser les vidéos de Youtube pour l’entraînement de ses modèles. Et il améliore son outil de marquage, SynthID, rival d’Adobe.

Vers l’infini et au-delà

Sous le nom de Gemini Advanced, Gemini 1.5 Pro devient disponible à tous. Du niveau de GPT-4, il s’en distingue principalement par la capacité d’accepter des prompts jusqu’à 1 million de tokens. Une nouvelle version en bêta privée est capable de traiter jusqu'à 2 millions de tokens. Le but affiché est d’arriver à ne plus limiter la dimension de la fenêtre de contexte et d’accepter un nombre infini de tokens.

Pour l’instant, Gemini 1.5 Pro accepte environ 1,4 million de mots, deux heures de vidéo ou 22 heures d'audio. Cette mémoire étendue empêche le modèle de "perdre" le contenu de conversations récentes et de dévier du sujet, tout en lui permettant de mieux comprendre et générer des réponses riches en contexte.

Ces améliorations s'accompagnent d'autres mises à jour visant à optimiser les coûts et l'efficacité, notamment grâce à l'introduction du "context caching" qui permet de stocker une grande quantité d'informations accessibles rapidement et à moindre coût par les modèles Gemini. Un autre ajout, la "controlled generation", sera bientôt disponible en aperçu sur Vertex AI, la plateforme de développement d'IA générative orientée entreprise de Google, permettant aux utilisateurs de définir les sorties des modèles Gemini selon des formats ou des schémas spécifiques.

En plus de Gemini 1.5 Pro, Google a introduit Gemini 1.5 Flash, une version "distillée" et plus rapide du modèle, destinée aux applications moins exigeantes en puissance mais plus sensibles à la latence. Le modèle est optimisé pour des tâches comme le résumé, les applications de chat, et la légende d'images et de vidéos. Flash, qui possède également une fenêtre de contexte de 2 millions de tokens, est multimodal et capable d'analyser du texte, de l'audio, de la vidéo et des images, mais génère uniquement du texte.

Des modèles, encore des modèles… et des puces

Enfin, Google a élargi sa gamme de modèles open source en présentant PaliGemma, un modèle de vision-langage (VLM). Inspiré des modèles Pali-3, il est conçu pour des tâches comme le sous-titrage d'images et de vidéos, la réponse à des questions visuelles, la détection et la segmentation d'objets.

Gemma 2, qui sera lancé dans les prochaines semaines, promet une performance et une efficacité révolutionnaires avec 27 milliards de paramètres. Google a également enrichi son Kit d'outils pour l'IA générative responsable en rendant public le comparateur LLM, un outil de visualisation de données interactif aidant les développeurs à évaluer la qualité et la sécurité des réponses des modèles.

Tous ces modèles ont été entraînés sur Trillium, la sixième génération des TPU de Google désormais disponibles dans les datacenters de Google Cloud. Aux côtés de ses rivaux Axion, une GPU sur une architecture ARM, et Blackwell de Nvidia.


Pour en savoir plus :

L’essentiel