Parmi les candidats les plus solides à la succession de l’IA générative, qui occupe le sommet de la hype depuis 2023, on trouve les world models, des représentations du monde par des modèles d’IA. Fin novembre, le créateur de Pokémon Go, Niantic, a annoncé le développement d'un modèle géospatial basé sur des millions de scans collectés via ses applications. En septembre dernier, la start-up californienne World Labs (notamment soutenue par la pionnière de l’IA Fei-Fei Li) s'est lancée avec un investissement initial de 230 millions de dollars (215 M€) avec l’ambition de créer des large world models. Une équipe de chercheurs de l’Université de Xiamen en Malaisie est allée plus loin, en les utilisant pour des véhicules autonomes.
Les agents et les world models
Un modèle du monde, en effet, est une représentation numérique sophistiquée de l'environnement dans lequel un agent autonome, tel qu'une voiture autonome, opère. Il va au-delà d'une simple carte statique et vise à prédire l'évolution future de l'environnement en fonction des actions de l'agent et d'autres facteurs externes. Il est capable de simuler les conséquences des actions de l'agent avant même qu'elles ne soient exécutées dans le monde réel. Par exemple, il peut prédire la trajectoire d'autres véhicules, le comportement des piétons ou les changements des conditions routières.
Cette capacité de prédiction permet à l'agent d'apprendre des stratégies optimales sans avoir à effectuer des essais et erreurs potentiellement dangereux dans le monde réel. Il peut explorer différentes options dans l'environnement simulé du modèle du monde, ce qui accélère le processus d'apprentissage et réduit les risques d'accidents.
Sim-to-real
L'un des principaux défis de la conduite autonome est de transférer les compétences acquises en simulation vers le monde réel. Le modèle du monde joue un rôle crucial dans ce processus en intégrant des données provenant de scénarios de conduite réels et de simulations précises. Cela permet de réduire l'écart entre les deux environnements et d'améliorer la capacité de l'agent à s'adapter aux conditions imprévisibles du monde réel.
Pour cela, un réseau de neurones est entraîné sur de vastes ensembles de données, collectées à partir de capteurs tels que des caméras, des Lidar et des radars. Le “Modèle d'espace d'états récurrent" de l’étude comprend quatre composants principaux : l’encodeur, qui compresse les informations de l'état actuel, de l'état précédent, de l'action précédente et des entrées sensorielles en une représentation latente ; le réseau dynamique, qui prédit l'état suivant en utilisant la représentation latente actuelle et l'action ; le décodeur, qui reconstruit les entrées sensorielles à partir de la représentation latente ; enfin le réseau de récompense, qui prédit la récompense immédiate en fonction de la représentation latente de l'état suivant.
Actions futures
Le world model peut ainsi prédire les actions futures de l'agent en utilisant l'état caché de la couche et l'état latent. Cela permet à l'agent d'évaluer les conséquences potentielles de ses actions et d'optimiser sa stratégie en conséquence. Il présente trois principaux avantages. Tout d’abord, en prédisant les événements futurs, il permet à l'agent d'anticiper les dangers potentiels et de prendre des mesures préventives pour les éviter. En outre, la possibilité de s'entraîner dans un environnement simulé permet d'accélérer le processus d'apprentissage et de tester différentes stratégies sans risque pour l'agent ou son environnement. Enfin, le world model contribue à améliorer la robustesse et l'efficacité des agents autonomes en leur permettant de prendre des décisions plus éclairées et de s'adapter aux conditions changeantes du monde réel.
Les chercheurs ont également intégré des mécanismes pour réduire les temps de calcul, une contrainte importante pour les systèmes de véhicules autonomes. Contrairement aux approches traditionnelles qui dépendent des serveurs dans le cloud, leur système, baptisé Navigation Secure, s’appuie sur des unités locales capables de traiter les données rapidement, minimisant ainsi les délais critiques qui pourraient compromettre la sécurité. Il utilise également les réseaux 5G pour l'échange de données en temps réel.
Résultats convaincants
Pour valider l’efficacité de Navigation Secure, les chercheurs ont mené une série d’expériences, à la fois en simulation et en conditions réelles. Les résultats ont démontré des performances nettement supérieures à celles des approches existantes sur plusieurs métriques clés :
- Distance sans intervention humaine (MPI) : Le système a montré une capacité accrue à parcourir de longues distances sans nécessiter d’interventions.
- Taux de réussite (SR) : Navigation Secure a surpassé les méthodes concurrentes en réussissant davantage de scénarios complexes.
- Stabilité de la vitesse (Std[v]) : Les véhicules équipés de cette technologie ont affiché une conduite plus fluide, essentielle pour garantir le confort et la sécurité des passagers.
Lors des tests réels, le système a été installé sur la plateforme Pix-Hooke, un véhicule de recherche équipé de capteurs avancés, tels que des caméras RGB et des capteurs Lidar. Ces essais ont permis de reproduire des scénarios variés, allant des piétons imprévisibles aux changements soudains de trafic. Même dans des conditions difficiles, comme la conduite de nuit ou sur des routes sinueuses, Navigation Secure a maintenu un haut niveau de fiabilité.
Base de données
Cette avancée ouvre la voie à une adoption plus large des véhicules autonomes, en particulier dans les environnements urbains où la densité de trafic et les interactions imprévisibles constituent des défis majeurs. Les chercheurs estiment que cette approche pourrait réduire de manière significative les accidents liés à des erreurs de jugement ou à des retards dans la prise de décision.
Cependant, des défis subsistent. L’un des principaux obstacles est l’intégration de cette technologie dans des systèmes existants, souvent hétérogènes et limités par des infrastructures vieillissantes. Les chercheurs soulignent également l’importance de continuer à enrichir les bases de données utilisées pour former les world models, afin d’inclure davantage de scénarios extrêmes, comme les pannes mécaniques ou les conditions climatiques exceptionnelles. Cette approche pourrait également avoir des applications dans d’autres domaines, comme les drones ou la robotique industrielle, où les enjeux de sécurité sont tout aussi critiques.
Pour en savoir plus :