Une Muse pour les modèles d’action

L’IA au service du jeu vidéo • Qant, M. de R. avec Midjourney

Un modèle d’IA lancé par Microsoft le mois dernier illustre les capacités des world models et des modèles d’action, qui repoussent les limites des Transformers, au-delà des LLM.

Le mois dernier, Microsoft a présenté Muse, un modèle d’IA consacré à la création de jeux vidéos, conçu en collaboration avec Xbox Game Studios et Ninja Theory. Simultanément, la revue Nature a publié une étude de Microsoft Research sur les modèles Wham (World and Human Action Models), une série de transformers qui ressortissent simultanément des modèles d’action et des world models.

Muse a été conçu pour explorer les capacités des Wham dans la génération de séquences de jeu plausibles et variées. Il permet de reproduire les interactions humaines dans des environnements vidéoludiques en générant à la fois des images de jeu et des actions de contrôle.

Aperçu général du plus grand des Wham • Source : Microsoft Research

Les chercheurs se sont appuyés sur des données extraites du jeu Bleeding Edge pour former les modèles Wham. Plus d’un milliard d’images et d’actions de contrôleurs, correspondant à plus de sept ans de sessions de jeu accumulées, ont permis de construire un modèle capable de reproduire des séquences de jeu cohérentes. Cette base de données a servi de fondement pour entraîner ces modèles à générer des séquences visuelles et interactives respectant les règles de l’univers de jeu.

L’étude décrit le recours à la distance vidéo de Fréchet (FVD) comme indicateur de la fluidité et de la crédibilité des séquences générées. Cette méthode permet de comparer les images produites par les modèles Wham avec des séquences issues de sessions de jeu réelles afin d’évaluer leur proximité visuelle et comportementale.

Évaluation de la cohérence et de la diversité

L’une des préoccupations majeures de l’étude réside dans la capacité des modèles Wham à générer du contenu tout en conservant une cohérence interne. Pour tester cette aptitude, les chercheurs ont introduit une seconde de jeu réel suivie d’actions humaines, et ont analysé les séquences extrapolées par le modèle. Les résultats montrent que ces modèles parviennent à prolonger l’action en respectant les lois physiques du jeu, en évitant des erreurs telles que des personnages traversant des objets ou des mouvements incohérents.

L’étude s’intéresse également à la diversité des séquences produites. Pour mesurer cet aspect, les chercheurs ont utilisé la distance de Wasserstein, une métrique évaluant l’écart entre la variété des séquences générées et celles issues de sessions humaines. Les modèles Wham ont démontré leur capacité à proposer une large gamme de variations comportementales et visuelles à partir d’un même point de départ, renforçant leur intérêt pour l’exploration créative.

Capacité d’adaptation et modifications utilisateur

Un autre aspect exploré dans l’étude concerne la capacité des modèles Wham à intégrer des modifications au sein des séquences générées. Les chercheurs ont expérimenté l’ajout d’éléments nouveaux dans une scène de jeu, tels qu’un personnage ou un objet interactif, pour évaluer si ces modèles pouvaient conserver ces ajouts au fil de la progression du jeu. L’analyse a révélé un taux de persistance des modifications de 85 %, lorsque le modèle était alimenté avec plusieurs images modifiées, ce qui atteste de sa capacité à s’adapter aux interventions humaines.

Ces résultats sont significatifs dans la perspective d’un usage des modèles Wham comme outils d’aide à la conception. En permettant des itérations rapides sur des prototypes de gameplay en tenant compte des ajustements des créateurs, ces modèles pourront s’intégrer dans des pipelines de développement vidéoludique.

Perspectives et implications pour l’industrie

L’étude met en évidence les implications potentielles de ce type de modèle dans le domaine du jeu vidéo. En explorant la capacité des modèles Wham à simuler des mondes virtuels et des interactions humaines, ces recherches ouvrent des perspectives pour le développement d’outils génératifs destinés aux studios de création.

En mettant à disposition les poids des modèles et un démonstrateur interactif, Microsoft entend favoriser la recherche et l’expérimentation autour des modèles Wham. L’étude souligne toutefois que des défis subsistent, notamment sur l’adaptabilité aux univers graphiques et narratifs variés, ainsi que sur l’optimisation des coûts de calcul pour intégrer ces modèles à grande échelle.

Pour en savoir plus :

L’essentiel