Une équipe de chercheurs en robotique et en ingénierie du MIT (au sein du laboratoire CSAIL et de l'Institute for AI and Fundamental Interactions) a mis au point un système d'IA générative nommé LucidSim pour entraîner des robots à se déplacer dans des environnements réels. Ce système permet aux robots de traverser des terrains complexes et de contourner des obstacles sans nécessiter d’entraînement préalable dans le monde réel. Cette avancée, présentée la semaine dernière lors de la Conference on Robot Learning à Munich, repose sur l’utilisation d’images générées par IA et d’un simulateur physique pour permettre aux robots d’apprendre à naviguer dans des environnements variés.
Des images virtuelles pour pallier le manque de données réelles
LucidSim est conçu pour résoudre l'un des principaux défis de l’apprentissage des robots : le manque de données d'entraînement en conditions réelles. Traditionnellement, pour qu'un robot apprenne à se mouvoir efficacement dans le monde physique, il doit être formé à partir de vidéos d'autres robots évoluant dans des environnements similaires, ou il doit apprendre directement sur le terrain. Cependant, ces méthodes se révèlent insuffisantes face aux situations inédites ou imprévisibles que le robot pourrait rencontrer. LucidSim cherche à pallier cette limitation en utilisant une approche innovante d’entraînement virtuel qui repose sur la génération automatique d'images et de scénarios d’apprentissage variés.
Le processus commence par la création de descriptions textuelles de différents environnements, produites par des modèles de langage comme ChatGPT. Ces descriptions incluent des éléments contextuels comme la météo, l'heure de la journée et des caractéristiques géographiques spécifiques. Une fois générées, ces descriptions sont transformées en images et en scénarios en trois dimensions via des modèles de génération d’images et un simulateur physique. Ces images et vidéos synthétiques fournissent des trajectoires à suivre pour les robots, leur permettant ainsi de pratiquer des déplacements dans un large éventail de situations avant même de s'aventurer dans le monde réel.
Des performances améliorées grâce à l'entraînement virtuel
Dans un des exemples illustrant le potentiel de LucidSim, un robot à quatre pattes a été entraîné à réaliser des mouvements inspirés du parkour, un sport où les participants doivent franchir des obstacles de manière rapide et fluide dans un terrain inconnu. Grâce à cet entraînement virtuel, le robot a appris à monter des escaliers, à grimper sur des obstacles, et à s’adapter aux imprévus de l’environnement. Lors des tests dans le monde réel, les robots formés avec LucidSim ont montré des performances supérieures à celles des robots formés par des méthodes plus traditionnelles, comme l’imitation des actions humaines ou la randomisation de domaine, qui consiste à exposer le robot à des variations aléatoires de son environnement simulé.
L’un des points forts de LucidSim réside dans sa capacité à générer des quantités importantes de données visuelles synthétiques avec un minimum d’intervention humaine. Le système utilise des "méta-prompts" permettant de décliner automatiquement une même situation en de multiples variantes. Par exemple, un même décor urbain peut être généré sous différentes conditions météorologiques, à différentes heures de la journée, ou encore avec des éléments visuels distincts, ce qui permet de créer un nombre quasi illimité de scénarios d'entraînement. Cette approche réduit le besoin d’intervention humaine dans la création de scénarios, accélérant ainsi le processus d’entraînement et le rendant plus économique.
Pour en savoir plus :
- Alan Yu et al., Learning Visual Parkour from Generated Images, Arxiv, 2024
- Tech Xplore