Le cerveau et l’IA sur la même longueur d’onde

L’IA pour comprendre le cerveau • Qant, M. de R. avec Midjourney

Des chercheurs ont montré qu’un modèle de reconnaissance vocale peut prédire l’activité cérébrale humaine pendant des conversations naturelles, en s’appuyant sur plus de 100 heures d’enregistrements ECoG.

Whisper, le modèle de reconnaissance vocale développé par OpenAI, est capable de prédire l’activité cérébrale humaine pendant que nous parlons ou écoutons, et ce, dans des conversations du quotidien. C’est la conclusion d’une équipe de chercheurs notamment membres de l’université de Princeton ou encore de Google Research, après avoir comparé les représentations internes du modèle aux signaux neuronaux enregistrés chez des patients hospitalisés.

Ces patients, tous atteints d’épilepsie et suivis pour des raisons médicales, étaient équipés de centaines d’électrodes posées directement sur leur cortex. Pendant plusieurs jours, leur activité cérébrale a été enregistrée en continu, sans consigne particulière. Ils parlaient librement avec leurs proches ou le personnel hospitalier. Au total, plus de 100 heures de conversations naturelles ont été recueillies, représentant plus d’un demi-million de mots.

Une cartographie du langage en temps réel

Les chercheurs ont traité ces enregistrements à l’aide de Whisper, un modèle d’OpenAI capable de convertir des enregistrements audio en texte. Mais au lieu de se limiter à la transcription, ils ont extrait les représentations internes produites à différents niveaux : le son brut, la structure de la parole et le sens des mots. Ces représentations numériques ont ensuite été mises en relation avec l’activité cérébrale enregistrée pendant que les patients parlaient ou écoutaient.

Performance du modèle d'encodage acoustique, vocal et linguistique lors de la production et de la compréhension de la parole. • Ariel Goldstein et al.

Ce travail a permis d’observer une correspondance frappante entre les différentes zones du cerveau et les niveaux de traitement du modèle. Les régions auditives et motrices réagissaient aux représentations liées à la parole, tandis que les zones associées au traitement du sens, comme l’aire de Broca, répondaient aux représentations de niveau linguistique. Le modèle, sans jamais avoir été programmé pour suivre une grammaire ou reconnaître des phonèmes, semblait pourtant reproduire fidèlement l’organisation hiérarchique du langage dans le cerveau.

Un modèle sans règles, mais très structuré

Contrairement aux approches traditionnelles en linguistique ou en psychologie cognitive, Whisper n’utilise ni règles syntaxiques ni catégories grammaticales. Il apprend simplement à prédire la suite des mots à partir d’enregistrements sonores. Pourtant, les chercheurs montrent qu’il suffit d’un simple calcul linéaire pour passer des représentations internes du modèle aux signaux cérébraux. Ce lien direct suggère une proximité inattendue entre la manière dont l’IA et le cerveau humain traitent le langage.

La précision de ces prédictions est notable. Dans certaines zones du cerveau, les corrélations entre l’activité réelle et celle prédite par le modèle atteignent des niveaux rarement observés dans ce type d’étude. Surtout, cette performance se maintient même lorsqu’on teste le modèle sur de nouvelles conversations, jamais vues pendant l’entraînement. Autrement dit, le système est capable de généraliser à des situations variées, spontanées, et totalement imprévisibles.

Le langage en mouvement dans le cerveau

L’analyse ne s’est pas arrêtée à la localisation spatiale des signaux. Grâce à la haute résolution temporelle des enregistrements, les chercheurs ont pu observer le déroulement précis de l’activité neuronale autour de chaque mot. Lors de la production orale, l’activité liée au sens des mots apparaît environ une demi-seconde avant leur prononciation. En compréhension, l’activité auditive précède celle liée au sens d’environ 300 millisecondes.

Fait notable : les chercheurs ont observé deux pics d’activité cérébrale pendant la parole. Le premier correspond à la préparation du mouvement, le second à l’écoute de sa propre voix. Ces deux phases, bien distinctes, sont chacune prédites par le modèle, ce qui confirme sa capacité à capter les différentes étapes du langage parlé, de l’intention à la perception.

Des modèles profonds plus performants que les modèles classiques

Pour mieux comprendre ce que capture exactement le modèle Whisper, les chercheurs l’ont comparé à des approches linguistiques plus classiques, fondées sur des unités symboliques comme les phonèmes ou les catégories grammaticales. Résultat : les représentations internes du modèle, apprises à partir des données sans étiquettes explicites, prédisent bien mieux l’activité cérébrale que les modèles basés sur des règles.

De manière surprenante, les catégories traditionnelles de la linguistique — comme les noms, verbes ou adjectifs — ressortent tout de même spontanément dans les représentations du modèle. Cela suggère que ces catégories, bien que non codées explicitement, émergent naturellement de l’apprentissage statistique à partir de grandes quantités de conversations humaines.

Une nouvelle manière de penser le langage

Les implications de cette étude sont majeures. Elle suggère qu’il est possible de modéliser la façon dont le cerveau humain traite le langage, non pas en définissant des règles, mais en s’appuyant sur des modèles statistiques entraînés sur des situations réelles. Elle offre aussi un outil pour explorer plus finement la dynamique du langage dans le cerveau, mot à mot, milliseconde par milliseconde.

Les auteurs y voient le début d’un changement de paradigme : un glissement des modèles linguistiques symboliques vers des approches plus intégrées, capables de traiter à la fois les sons, la parole et le sens. Le cerveau, comme les modèles d’IA récents, fonctionnerait moins comme un grammairien et plutôt comme un prédicteur probabiliste entraîné à deviner ce qui vient ensuite, dans le flot incessant des conversations humaines.

Pour en savoir plus :

L’essentiel