Dans une interaction humaine, une part essentielle de la communication passe par le non verbal : un regard, un geste de la main, une orientation du corps. Pour qu’une intelligence artificielle puisse participer à ces échanges, elle doit être capable de combiner ces indices visuels avec le langage. C’est l’objectif de la MMSI, pour Multimodal Social Interaction Understanding, une discipline en plein essor qui vise à enseigner à l’IA à décrypter les conversations dans leur contexte.
Jusqu’à présent, les modèles de MMSI fonctionnaient en « mode différé », avec accès à l’ensemble de la conversation, passée et future. Or, dans un assistant embarqué, seul le passé est disponible. Cette situation, dite en ligne, est plus exigeante : sans le recul, de nombreux signaux disparaissent. Les performances des modèles chutent de 10 % à 20 % sur des tâches comme la reconnaissance de l’interlocuteur ou la résolution des pronoms.
Une base de données réaliste
Pour aborder ce défi, une équipe de chercheurs a conçu un nouveau jeu de données baptisé MOSI4D, centré sur des scènes sociales réelles. Dans un espace partagé, des participants interagissent librement, filmés par des caméras et équipés de capteurs corporels. Le système enregistre les mouvements, la parole et la proximité entre individus. L’originalité du dispositif tient à sa richesse : chaque geste, regard ou parole est minutieusement annoté, sans recourir à des dialogues écrits ou des simulations.
Le pipeline de formation dans l'Online-MMSI-VLM • Xinpeng Li et al.
MOSI4D fournit ainsi une base unique pour entraîner et tester des modèles capables d’identifier les rôles sociaux, les actions clés (comme désigner du doigt), ou encore les relations de contact. Il permet aussi de mesurer l’attention, les regroupements ou les références dans les conversations.
Un cadre plus exigeant
Contrairement à des benchmarks comme Ego4D, centrés sur des vidéos en vue subjective, MOSI4D propose une vue multi-participants et une analyse instantanée. Il reproduit des scènes de la vie réelle, comme un cocktail ou une réunion informelle. Les annotations précises permettent d’évaluer les performances des modèles sur des tâches sociales fines, dans un cadre plus proche des usages attendus pour l’IA.
Parmi les tâches définies, on trouve la reconnaissance du destinataire d’une phrase, la résolution d’un pronom ambigu, ou la détection du joueur mentionné dans un jeu de rôles. Ces défis, simples pour un humain, sont redoutables pour un LLM.
Anticiper pour mieux comprendre
Pour surmonter cette difficulté, l’équipe propose une architecture baptisée Online-MMSI-VLM, fondée sur un modèle de langage multimodal. Elle combine deux techniques : d’un côté, une prévision des conversations à venir, de l’autre, une annotation visuelle des éléments clés de la scène. Le modèle commence par anticiper les tours de parole, puis imagine ce que pourraient dire les prochains interlocuteurs. Cela permet de renforcer le contexte, comme le ferait un humain qui devine où va une discussion.
Côté visuel, les images sont pré-traitées pour mettre en valeur les participants : chaque personne est encadrée, ses mouvements corporels sont traduits sous forme de points-clés, et les gestes orientés (comme un doigt pointé ou un regard appuyé) sont mis en évidence. Cette couche sociale visuelle permet au modèle de détecter des indices subtils qui échapperaient à une simple analyse d’image.
Des résultats prometteurs
Le système a été testé sur des enregistrements de jeux sociaux filmés, avec des tâches bien définies. Les résultats montrent un gain de performance significatif par rapport aux approches précédentes. Sur la détection de l’interlocuteur ou la résolution des pronoms, les progrès vont jusqu’à 5 ou 6 points de pourcentage. Des gains sont constatés même sur les tâches plus difficiles, comme la prédiction du joueur mentionné.
Les chercheurs soulignent toutefois que l’analyse en temps réel reste un défi : les performances hors ligne restent supérieures. Le recours à la prévision conversationnelle et à l’enrichissement visuel permet de limiter les pertes, mais pas de les annuler totalement. Par ailleurs, le système repose encore sur des prétraitements externes (reconnaissance vocale, détection des visages), qui peuvent introduire des erreurs.
Vers des machines plus sensibles
Avec MOSI4D et leur modèle Online-MMSI-VLM, les auteurs proposent un cadre complet pour faire progresser l’intelligence sociale des machines. Leur démarche apporte des données réalistes et bien annotées pour entraîner des IA à comprendre les échanges humains en situation.
Ce travail ouvre la voie à des applications dans l’assistance cognitive, la robotique sociale ou les environnements collaboratifs. Il pose aussi les bases d’un changement de perspective : faire progresser l’intelligence artificielle non par l’augmentation brute des données, mais par une meilleure attention aux dynamiques sociales qui façonnent nos interactions.
Pour en savoir plus :
- Xinpeng Li et al., Towards Online Multi-Modal Social Interaction Understanding, Arxiv, 2025