Valeo AI met vidéo et intelligence artificielle au service de la conduite autonome

L’IA au service de la conduite autonome • Qant, M. de R. avec Midjourney

Une équipe de chercheurs rattachée à l’équipementier français Valeo explore les capacités des modèles de génération vidéo pour la conduite autonome et met en évidence plusieurs défis.

Le développement de la conduite autonome repose sur la capacité des véhicules à interpréter leur environnement et à prendre des décisions en conséquence. Une équipe de chercheurs de Valeo AI a conçu un modèle basé sur la génération de vidéos pour améliorer la perception et la prise de décision des voitures autonomes. Leur approche repose sur deux modèles : VaViM, un modèle de vidéo auto-régressif, et VaVAM, un modèle d'action vidéo dédié à la planification des trajectoires.

Un modèle prédictif basé sur la vidéo

VaViM fonctionne en prédisant les images futures à partir de vidéos existantes, grâce à une séquence de tokens spatio-temporels. Ce système permet d'extraire des représentations des scènes de conduite, capturant la dynamique des trajets. En utilisant un tokeniseur d’image, le modèle encode les informations visuelles sous une forme compacte, et facilite leur exploitation pour la prise de décision.

VaVAM s’appuie sur ces représentations pour générer des trajectoires de conduite par apprentissage par imitation. L’objectif est d’améliorer la compréhension des scènes et d’optimiser la capacité des véhicules à anticiper les événements en s'inspirant du comportement de conducteurs humains.

L’entraînement des modèles repose sur l’exploitation d’un ensemble de données comprenant plus de 1 800 heures de vidéos enregistrées dans divers environnements routiers. La diversité des scénarios permet d’optimiser la robustesse du modèle et de tester sa capacité à s’adapter à des situations inédites.

Évaluation en situations réelles

Les modèles ont été testés dans des scénarios de conduite en boucle ouverte et fermée. En boucle ouverte, VaViM et VaVAM ont montré une amélioration de la précision des trajectoires par rapport aux systèmes existants. Toutefois, une augmentation de la taille du modèle ne garantit pas toujours une meilleure prise de décision, soulignant un compromis entre le suivi des trajectoires et l’adaptabilité aux situations complexes.

En boucle fermée, les performances ont été évaluées dans le cadre de NeuroNCAP, un benchmark simulant des situations critiques de sécurité routière. VaVAM a obtenu de meilleurs résultats que certaines méthodes de référence dans les scénarios de conduite frontale, mais il a montré des limites dans la gestion des collisions latérales, en raison de sa dépendance aux caméras frontales uniquement.

Dans certains cas, le modèle peine à anticiper des événements rares mais critiques, comme l’apparition soudaine d’un obstacle. Ce constat souligne l’importance de l’équilibre entre prévision et adaptation dynamique aux nouvelles conditions de conduite.

Avantages et limites de l'approche

L'approche par pré-entraînement vidéo présente plusieurs avantages. Elle permet d’entraîner des modèles sans annotations humaines coûteuses, ce qui facilite leur passage à l’échelle. Les représentations apprises par VaViM contiennent des informations sémantiques utiles, contribuant à l’amélioration de la précision des trajectoires générées par VaVAM.

L’analyse des données de test montre que VaVAM réduit en moyenne de 15 % les écarts de trajectoire par rapport aux modèles existants, tout en améliorant la stabilité de la conduite. Cette capacité d’anticipation peut s’avérer précieuse dans des contextes urbains denses, où la prise de décision rapide est essentielle.

Cependant, certaines limitations subsistent. L’absence de modélisation des objets en mouvement peut limiter la capacité du modèle à prendre des décisions adaptées en situation réelle. Par ailleurs, bien que l’augmentation de la taille des modèles améliore la qualité de la génération vidéo, elle ne se traduit pas systématiquement par de meilleures performances en segmentation sémantique ou en évitement d'obstacles.

Les résultats obtenus en boucle fermée montrent que l’augmentation des données d’entraînement permet d’améliorer la précision des prédictions, mais qu’elle ne garantit pas nécessairement une meilleure gestion des situations critiques. L’intégration de capteurs complémentaires, tels que le Lidar, pourrait pallier ces limites.

Vers une intégration dans les systèmes embarqués

Une prochaine étape consistera à intégrer ces modèles à des systèmes embarqués, en optimisant leur efficacité énergétique et leur réactivité. Des développements futurs pourraient inclure des architectures multi-capteurs et une meilleure prise en compte des objets en mouvement, afin d’affiner encore la prise de décision des véhicules autonomes.

L’enjeu principal demeure l’intégration de ces modèles dans des systèmes de conduite en temps réel. L’optimisation des ressources de calcul, tout en maintenant un niveau de précision élevé, constitue un axe de recherche essentiel pour rendre ces solutions viables à grande échelle. En attendant l’évaluation en conditions réelles, à travers des expérimentations sur route.

Pour en savoir plus :

L’essentiel