Comment la multimodalité mangera le monde

La couverture biaisée du monde par le modèle de Niantic • Source : Niantic

22 novembre 24

Niantic développe un modèle géospatial, basé sur des millions de scans collectés via ses applications comme Pokémon Go. Ce système d’intelligence artificielle vise à cartographier le monde en 3D avec une précision centimétrique, ouvrant la voie à des applications en réalité augmentée, robotique et systèmes autonomes.

Niantic, célèbre pour ses jeux en réalité augmentée comme Pokémon Go, a annoncé le lancement d'un nouveau projet : la création d’un Large Geospatial Model (LGM). Ce modèle repose sur des millions de scans de lieux réels collectés à partir des smartphones des utilisateurs. Ces données, obtenues grâce à des jeux comme Pokémon Go ou des applications comme Scaniverse, servent de base à des cartes 3D extrêmement précises.

Ces scans, pris sous des angles variés et dans des conditions multiples, permettent à Niantic d'alimenter un système qui va bien au-delà des simples cartes de navigation. Contrairement aux systèmes traditionnels, souvent basés sur des relevés effectués par des véhicules, les données de Niantic offrent une perspective unique : celle des piétons. Elles capturent des lieux souvent inaccessibles par des voitures ou des caméras street view. Cela rend ce modèle particulièrement précieux pour des applications en réalité augmentée et en robotique.

150 000 milliards de paramètres

Le LGM s'appuie sur des réseaux neuronaux dérivés du Visual Positioning System (VPS) de Niantic. Ce système, déjà opérationnel, utilise une seule image prise avec un smartphone pour localiser précisément l’utilisateur dans un espace en 3D, avec une précision de l’ordre du centimètre.

En parallèle, Niantic a développé plus de 50 millions de réseaux neuronaux distincts, chacun correspondant à des lieux ou à des angles de vue spécifiques. Ensemble, ces réseaux traitent une quantité massive de données : plus de 150 000 milliards de paramètres. Le modèle, désormais capable de combiner ces réseaux locaux, vise à se constituer une compréhension globale des environnements, y compris depuis des angles ou des perspectives jamais explorés auparavant.

Intelligence spatiale

L’un des défis que le LGM cherche à relever est de dépasser les limites des modèles locaux, qui peinent souvent à extrapoler des informations sur des zones partiellement observées. Par exemple, un modèle local pourrait être incapable de reconnaître l’arrière d’une église si seules des images de sa façade ont été collectées. En revanche, un modèle global comme le LGM peut s'appuyer sur des données issues de milliers d’autres églises à travers le monde pour déduire l’apparence probable de l’arrière du bâtiment.

Cette capacité à relier des données locales à un savoir global permet au modèle de Niantic d’atteindre une robustesse inédite. Cela ouvre la voie à une véritable « intelligence géospatiale », où le modèle peut non seulement situer un lieu, mais aussi imaginer ou compléter des parties manquantes grâce à une compréhension contextuelle approfondie.

Des applications multiples au-delà du gaming

Bien que le jeu reste au cœur de son modèle d’affaires, Niantic voit dans son LGM un potentiel bien plus vaste. Par exemple, sa technologie Lightship VPS permet déjà de placer des objets virtuels dans des lieux réels avec une précision extrême. Cette fonctionnalité est notamment utilisée dans Pokémon Playgrounds, où les joueurs peuvent déposer des Pokémon dans des lieux spécifiques pour que d'autres les trouvent.

Cependant, Niantic prévoit des usages bien au-delà du divertissement. Le LGM pourrait révolutionner des domaines comme la logistique, la planification urbaine, la collaboration à distance, et les systèmes autonomes. Par exemple, des robots équipés de cette technologie pourraient naviguer de manière fluide dans des environnements complexes, tandis que des outils de collaboration immersive pourraient permettre des interactions en temps réel dans des environnements recréés en 3D.

Les défis d’une couverture mondiale

La couverture biaisée du monde par le modèle de Niantic • Source : Niantic

Malgré ses progrès, le modèle de Niantic est encore loin de couvrir l'ensemble du globe. La majorité des données collectées proviennent d’Amérique du Nord et d’Europe, laissant en retrait des régions comme l’Afrique, l’Asie, l’Australie et l’Amérique du Sud. Ce déséquilibre souligne le défi logistique et technique que représente l’ambition de cartographier la planète à l’échelle piétonne.

De plus, bien que les données collectées par les utilisateurs soient cruciales pour le développement de cette technologie, certaines questions liées à la vie privée et à l’utilisation des données personnelles restent en suspens. En effet, de nombreux joueurs de Pokémon Go n’avaient probablement pas envisagé que leurs scans contribuent un jour à un projet d’intelligence artificielle de cette envergure.

Le futur des modèles géospatiaux

Le LGM de Niantic s'inscrit dans une tendance plus large. Après les modèles textuels hérités du NLP ( les LLM), voici venir des modèles capables de comprendre les espaces physiques. Cette transition vers une intelligence géospatiale marque une étape clé dans l’intégration des réalités physique et numérique.

En septembre dernier, la start-up californienne World Labs s'est lancée avec un investissement initial de 230 millions de dollars (215 M€) avec une ambition : créer des large world models, ou modèles d'intelligence spatiale. Soutenue par Andreessen Horowitz, AMD et Intel, la start-up compte parmi ses fondateurs la chercheuse de l'université de Stanford Fei-Fei Li, dite “la marraine de l’IA”. En février, c'est une équipe de chercheurs de Berkeley qui avait présenté un Large World Model capable de réaliser des représentations complexes à partir de séquences audiovisuelles d’un million de tokens.

À terme, ces modèles pourront interagir avec d'autres IA multimodales, pour créer un écosystème intelligent capable de percevoir, de comprendre et d’agir sur le monde physique. Dans la vision de Niantic, cette interconnexion entre les modèles d’IA pourrait devenir le socle des futures technologies de spatial computing, avec des applications allant de la réalité augmentée à la robotique, en passant par la navigation autonome.

Ce jour-là, la réalité géographique ne sera qu’une modalité parmi d’autres.

Pour en savoir plus :

Niantic
Hao Liu et al., World Model on Million-Length Video And Language With Blockwise RingAttention, Arxiv, 2024
The Verge
Ars Technica
Techopedia

Comment la multimodalité mangera le monde

150 000 milliards de paramètres

Intelligence spatiale

Des applications multiples au-delà du gaming

Les défis d’une couverture mondiale

Le futur des modèles géospatiaux

L’essentiel

Perplexity se joint à la curée contre Google

Les AI Doomers, alliés d’Elon Musk contre OpenAI

Une API pour les images de ChatGPT

Apprendre l’IA, mais pas à Harvard

Le Washington Post caresse ChatGPT