Un modèle d'IA capable de contrôler différents types de robots, allant des bras robotiques aux drones, vient d’être présenté par des chercheurs de l'université de Californie à Berkeley et de l'université Carnegie Mellon. Ce modèle “transformer”, baptisé CrossFormer, permet d'opérer des bras robotiques, des robots quadrupèdes, des robots à roues, et même des drones.
Parler à tous les robots
Habituellement, les logiciels de contrôle robotique sont spécifiquement adaptés à la configuration physique de chaque robot. En effet, les différences structurelles entre robots – qu'il s'agisse d'un bras fixe avec des articulations complexes ou d'un robot quadrupède en mouvement constant – posent un défi important pour la collecte et l'utilisation de données. Chaque type de robot génère des observations et des actions variées, rendant difficile l’entraînement d’un modèle unique à partir de données hétérogènes.
Pour surmonter ce problème, les chercheurs ont mis en place des initiatives de mutualisation des données, comme les ensembles Open X-Embodiment et Droid, afin de réunir des données provenant de différents robots. L'objectif est de favoriser un "transfert positif", c'est-à-dire que les compétences acquises lors de l'apprentissage d'une tâche spécifique améliorent la performance sur d'autres tâches. Toutefois, cette approche est limitée par la diversité des configurations physiques et des capteurs utilisés par chaque robot.
Un transformer pour les gouverner tous
Le modèle CrossFormer se distingue par sa capacité à traiter cette diversité sans nécessiter d'adaptations spécifiques des données d'entrée. Il s'appuie sur une architecture de type "transformer", souvent utilisée dans les modèles de traitement du langage naturel. Ce type de modèle est capable de traiter des séquences de données complexes en analysant simultanément les relations entre les différents éléments, ce qui permet une meilleure gestion des séquences de données variées provenant de différents robots.
Contrairement aux approches antérieures qui se limitaient à des données de robots similaires ou nécessitaient un formatage manuel des données, CrossFormer peut traiter directement les images provenant de caméras placées à différents endroits, comme au-dessus d'un robot ou sur le poignet d'un bras robotique, ainsi que les données de position des articulations de robots quadrupèdes et de bras robotiques. Cela lui permet de contrôler des robots avec différentes configurations pour des tâches variées telles que la saisie et le placement d’objets, la découpe de sushi ou l’évitement d’obstacles. De plus, CrossFormer a montré des performances équivalentes, voire supérieures, à celles des modèles spécialisés pour chaque robot.
Des progrès à faire
L'équipe de chercheurs a également testé le modèle sur un robot non inclus dans l'ensemble de données initiales, un petit quadricoptère. Malgré la simplicité de la tâche (vol à une altitude fixe), CrossFormer a surpassé les méthodes antérieures dans le contrôle de ce drone. Cependant, ce résultat ne traduit pas encore le potentiel maximal du modèle en termes de transfert positif entre différentes tâches robotiques.
Malgré ces résultats prometteurs, des limitations subsistent. Le modèle est trop volumineux pour être embarqué directement sur les puces des robots et nécessite un serveur pour fonctionner. Même dans ces conditions, les temps de traitement restent à peine suffisants pour une opération en temps réel. Le défi serait d'utiliser une approche de "distillation", où un modèle plus petit serait entraîné pour imiter le modèle plus grand, réduisant ainsi les besoins en calcul tout en conservant des performances comparables.
Une absence de transfert positif
Un autre problème relevé par l'équipe est l'absence de transfert positif notable, le modèle se contentant d'égaler les performances des modèles spécialisés plutôt que de les dépasser. Pour les chercheurs, une solution pourrait résider dans l'augmentation de la quantité de données utilisées pour l’entraînement. Cependant, certains experts estiment que l'absence d'alignement des données d'entrée pourrait être une des causes de ce manque de transfert positif. En effet, des recherches antérieures ont montré que le regroupement de données similaires pouvait favoriser un meilleur transfert de compétences entre les robots.
Enfin, il reste à déterminer si cette approche pourra améliorer les performances sur des tâches spécifiques à certaines configurations robotiques ou applications, comme le pétrissage de la pâte ou la navigation en forêt, qui représentent souvent les défis les plus complexes pour le contrôle robotique.
Pour en savoir plus : IEEE Spectrum