La start-up californienne Figure AI, leader des robots humanoïdes par l’argent levé et les déploiements, a présenté Helix, un modèle Vision-Language-Action (VLA) conçu pour unifier la perception, la compréhension du langage et le contrôle moteur des robots humanoïdes. Helix se distingue par sa capacité à comprendre des commandes vocales, raisonner sur des problèmes et manipuler une large gamme d’objets domestiques sans nécessiter de programmation ou d’apprentissage préalable.
Une avancée après la rupture avec OpenAI
Le lancement de Helix intervient peu après l’annonce de la séparation de Figure AI et OpenAI. Bien qu’OpenAI reste un investisseur de Figure, la start-up a décidé de développer son propre modèle pour un contrôle robotique plus performant. Elle rejoint ainsi un bataillon de start-up, notamment Physical Intelligence, Skild AI (lire Qant du 30 janvier 2025 et du 11 juillet 2024) et Field AI.
Helix introduit une approche novatrice pour le contrôle de la partie supérieure du corps des robots humanoïdes. Il permet une manipulation continue à haute fréquence des poignets, du torse, de la tête et des doigts, rendant les mouvements plus précis et naturels. L’un des aspects les plus impressionnants de Helix est sa capacité à gérer la collaboration entre plusieurs robots. Deux robots équipés de ce système peuvent travailler simultanément sur des tâches complexes, comme ranger des objets dans un réfrigérateur, même s’ils ne les ont jamais manipulés auparavant.
Une IA optimisée pour l’adaptabilité
Le modèle repose sur deux systèmes distincts. Le Système 2 (S2) est un modèle de vision-langage entraîné sur Internet, chargé de comprendre les scènes et les commandes vocales. Le Système 1 (S1), pour sa part, est une “politique visuomotrice”, qui traduit les instructions de S2 en actions robotiques en temps réel. Cette séparation permet à S2 de traiter les informations avec plus de précision et à S1 d’exécuter les mouvements avec une plus grande rapidité et fluidité. Le tout fonctionne sur des GPU embarqués à faible consommation, rendant Helix adapté à une application commerciale.
Figure AI a entraîné Helix avec seulement 500 heures de données de téléopération, bien moins que les standards habituels en robotique. Grâce à une architecture optimisée, le modèle est capable d’interagir avec des objets inconnus, simplement en recevant une commande en langage naturel.
Pour en savoir plus :