La promesse de créer automatiquement des vidéos à partir de textes (le « text-to-video ») s’incarne désormais dans plusieurs modèles d’IA lancés en 2024-2025. D’OpenAI à Google en passant par Adobe, sans oublier des start-ups spécialisées et des acteurs chinois, chacun développe sa solution de text-to-video. Ce marché émergent est encore en phase expérimentale – les outils actuels peinent par exemple à maintenir une cohérence visuelle de tous les instants dans les séquences générées – mais il attire déjà des investissements massifs. Dans la nuée de start-up, deux seulement peuvent aujourd’hui faire face aux géants.
Des capacités techniques en progrès rapide
Les performances de ces IA génératives de vidéo se sont nettement améliorées en peu de temps. Sora, lancé par OpenAI en décembre 2024 et intégré à ChatGPT, peut créer des vidéos à partir de texte ou modifier un clip existant via des algorithmes d’image-to-video et video-to-video. Le modèle est capable de produire des clips de 20 secondes à 1080p. Google DeepMind pour sa part propose avec Veo 2 depuis décembre dernier, des vidéos de quelques secondes en haute définition (720p) et à l’esthétique soignée, grâce à une bonne compréhension des instructions complexes et de la cinématographie. Adobe, de son côté, intègre sa solution Firefly Vidéo à ses outils de montage et effets visuels : en version bêta, celle-ci génère pour l’instant des extraits d’environ 5 secondes en 1080p en s’appuyant sur des commandes de caméra ou des images de référence fournies par l’utilisateur.
La start-up Runway mise sur la narration visuelle avec Gen-4, son modèle de quatrième génération lancé le 31 mars dernier. Il se démarque par sa capacité à maintenir des personnages, objets et décors cohérents d’une scène à l’autre, en se basant sur de simples images de référence pour conserver le même « univers » tout au long d’une vidéo. Parmi les solutions accessibles en ligne, Pika 2.1 (de Pika Labs) permet également de générer des vidéos Full HD de 5 secondes, à partir de texte ou d’image, avec une meilleure stabilité des éléments multiples via une fonction dédiée de cohérence. Enfin, Luma AI propose avec Ray-2 des scènes réalistes d’une dizaine de secondes (5 à 10 s) en 720p, avec possibilité de sortie en 1080p et même une surcouche d’upscaling 4K pour un rendu détaillé.
Les acteurs chinois avancent eux aussi leurs pions. Le modèle Hailuo du start-up MiniMax produit des vidéos en 720p d’environ 6 secondes et vise les 10 secondes dans ses prochaines versions. Kuaishou, géant chinois du partage vidéo, a lancé Kling, capable d’après la société de générer des vidéos 1080p jusqu’à 2 minutes à 30 images/seconde – une longueur inédite sur ce marché naissant. Il se targue d’avoir atteint 22 millions d’utilisateurs.
Ces divers outils mettent en avant des points forts spécifiques (qualité d’image, fluidité du mouvement, durée, fidélité au script, etc.), reflétant un secteur en effervescence où chacun cherche à repousser les limites techniques.
Concurrence en ébullition
Malgré des résultats encore perfectibles, la course mondiale à la vidéo générative s’intensifie. Outre les acteurs précités, d’autres initiatives émergent : Meta (maison-mère de Facebook) a récemment présenté MovieGen, un modèle capable de générer de courtes vidéos (≈16 secondes) accompagnées de sons réalistes, tandis que Microsoft et des labos de recherche explorent également ce terrain. Des projets open source ont vu le jour (par exemple le modèle ModelScope issu d’Alibaba, ou des adaptations de Stable Diffusion), rendant accessible à la communauté un niveau de base de génération vidéo – toutefois la qualité de ces solutions libres reste nettement inférieure à celle des modèles propriétaires haut de gamme.
Le paysage concurrentiel est donc en pleine ébullition. Deux start-up seulement ont levé assez de fonds pour manœuvrer face aux géants qui prennent position. Runway a bouclé, au début du mois, une série D de plus de 300 millions de dollars (General Atlantic, Fidelity, Nvidia, SoftBank), sur une valeur d’entreprise de 3 milliards, pour porter Gen-4 et ses « world simulators » ; le total levé dépasse désormais 450 millions (lire Qant du 7 avril). En Chine, MiniMax (Hailuo) a réuni 600 millions de dollars en mars 2024 sous la houlette d’Alibaba, en étant valorisée à 2,5 milliards. Les autres start-up doivent lever ou se vendre.
Des architectures IA sous-jacentes variées
Sous le capot, se préparent des avancées en IA générative visuelle. Le succès du nouveau modèle graphique de ChatGPT, GPT-4o Image Generation, préfigure sans doute des IA transformers génératives de vidéos. Pour l’heure, la nouvelle génération de modèles tend à être entraînée directement sur de vastes bases de vidéos (plutôt que sur des images fixes seulement). C’est par exemple le cas de Ray-2 de Luma, qui apprend ainsi les mouvements naturels, l’éclairage réaliste et les interactions physiques crédibles en observant des vidéos réelles.
Illustration sommaire du fonctionnement des IA vidéo • Qant avec GPT-4o
La plupart des modèles utilisent cependant des modèles de diffusion, une technique consistant à générer d’abord une image bruitée puis à la raffiner itérativement en une vidéo cohérente. OpenAI indique par exemple que Sora suit ce principe : il part de « statique » et affine progressivement l’image, tout en utilisant une architecture de type Transformer pour prendre en compte de nombreuses images simultanément. Sora applique une méthode de « rédaction » des données d’entraînement inspirée de Dall·E afin d’améliorer la correspondance entre le texte et la vidéo produite.
Ces choix d’architecture – diffusion améliorée, transformers spécialisés, entraînement vidéo natif – ne résument pas les différentes voies explorées pour atteindre une vidéo générée de qualité professionnelle. Certains prototypes académiques (chez Google ou Meta) combinent diffusion et interpolation de frames pour obtenir un mouvement plus fluide, ou bien utilisent directement des transformers vidéo entraînés sur des séquences complètes afin de mieux modéliser la dimension temporelle.
Objectif : cohérence
Sur le marché, l’accent est mis sur la cohérence et la physique : Veo 2 de Google DeepMind se vante de comprendre les lois du mouvement et de les reproduire fidèlement, ce qui aide à obtenir des scènes dynamiques crédibles. Kuaishou souligne de son côté la capacité de Kling 1.6 à simuler des interactions physiques réalistes dans la vidéo, améliorant le réalisme global par rapport à la version précédente.
La question de la cohérence narrative (garder un personnage identique tout du long, par exemple) a motivé des innovations spécifiques. Runway Gen-4 permet de générer le même protagoniste vu sous différents angles à partir d’une seule image de référence, et Kling 1.6 a amélioré la compréhension sémantique de scènes complexes pour mieux suivre une action continue sans incohérences.
Les modèles récents incluent des fonctions de contrôle supplémentaires. Hailuo, de la société MiniMax, propose plusieurs variantes : Subject (maintien d’un personnage sur toute la séquence), Live (animation d’un dessin 2D), et Director (instructions de caméra en langage naturel). Il ajoute une piste sonore générée automatiquement.
Évolutions rapides
À court terme, on peut s’attendre à une augmentation de la durée et de la résolution des vidéos générées. MiniMax annonce déjà vouloir passer de 6 à 10 secondes de vidéo pour son modèle Hailuo. Luma AI teste quant à elle des mécanismes d’extension de séquence : son Ray-2 peut enchaîner des clips pour atteindre environ 30 secondes de vidéo continue (avec toutefois une dégradation progressive au-delà de ce seuil) et l’éditeur travaille à repousser cette limite. Produire des séquences plus longues et en ultra-haute définition devrait donc devenir possible – certains modèles propriétaires approchent déjà du 4K dans leurs versions internes : Luma AI ne restera pas longtemps seule sur le créneau.
Les éditeurs enrichissent également leurs offres en ajoutant de nouvelles fonctionnalités. L’audio est un axe de développement : par exemple, Ray-2 génère non seulement l’image mais aussi un fond sonore adapté (bruitages, musique) à partir d’un simple texte descriptif. Le contrôle utilisateur s’affine lui aussi : Luma permet d’introduire des images clés (keyframes) en début et fin de génération pour orienter la mise en scène, tandis qu’Adobe offre des réglages de format (carré, vertical), d’angles de vue ou de styles prédéfinis pour guider la vidéo. Parallèlement, les temps de rendu tendent à diminuer grâce à l’optimisation des modèles (certains modes « flash » ou « turbo » multiplient la vitesse de génération). Toutes ces améliorations visent à rendre les solutions plus pratiques et fiables, afin de convaincre un public plus large de les adopter dans des flux de travail réels.
Des marchés cibles diversifiés
Le cinéma de papa face à l’IA • Une caricature de Qant avec GPT-4o
Les applications potentielles de la vidéo générative par IA couvrent un large spectre d’industries créatives. Dans le cinéma et l’audiovisuel, ces outils peuvent servir à la pré-production (par ex. générer rapidement un storyboard vidéo, un animatique) ou à combler des manques en post-production. Adobe envisage ainsi l’usage de Firefly pour créer du contenu d’appoint dans un montage – par exemple des plans de coupe (B-roll) ou des plans d’établissement supplémentaires pour enrichir une scène. De son côté, Runway s’est associée au studio hollywoodien Lionsgate afin de développer un modèle sur mesure à partir du catalogue de 20 000 films de ce dernier, signe de l’intérêt de l’industrie du film pour ces technologies naissantes.
Les plateformes de contenus générés par les utilisateurs (UGC) constituent également un débouché important. Les réseaux sociaux et applications vidéo pourraient intégrer ces outils pour fidéliser leurs communautés de créateurs. C’est déjà le cas en Chine : Kuaishou offre via Kling AI la possibilité de créer des vidéos originales et ludiques en quelques clics à partir de l’idée de l’utilisateur. On peut imaginer à terme des fonctionnalités similaires sur des plateformes occidentales (YouTube, TikTok, Instagram), où l’IA assistera les créateurs amateurs dans la production de vidéos courtes et virales.
Le secteur de la publicité et du marketing y voit un moyen de produire à moindre coût et en un temps record des clips promotionnels personnalisés, adaptant par exemple un même concept visuel à différentes audiences ou plateformes. Des grandes marques testent déjà la génération d’éléments visuels pour leurs campagnes, et on peut imaginer à brève échéance des spots publicitaires simples entièrement générés par IA sur la base d’un slogan – ou du profil de l’utilisateur ciblé : le onecasting se profile ainsi derrière le narrowcasting.
Dans le jeu vidéo, la vidéo générative peut de même être utilisée pour créer des cinématiques, des bandes-annonces automatisées ou des décors animés en arrière-plan, accélérant ainsi le contenu produit entre deux itérations de développement. Certaines démonstrations montrent par exemple la génération d’environnements de jeu ou de courts récits animés à partir de simples descriptions textuelles.
La création d’avatars vidéo, explorée notamment par la britannique Synthesia, est pour l’instant destinée à la relation client. Mais elle pourra parfaitement se décliner dans le jeu vidéo, le moment venu. De même, un enseignant ou un formateur pourra exploiter ces IA pour illustrer instantanément un concept par une vidéo explicative ou un support visuel animé, sans passer par une production vidéo traditionnelle. Cela ouvre la voie à du contenu pédagogique plus vivant et sur mesure.
La vidéo générative pourrait transformer la création de contenu comme les IA de texte l’ont fait pour l’écriture. De nombreux défis restent à relever : par exemple, la génération de texte lisible dans l’image est peu fiable et le coût énergétique de la génération reste élevé. Les plateformes imposent généralement des restrictions sur les contenus générables : interdiction des visages réels, marques ou contenus sensibles.
Le marché est encore en cours de structuration, avec des usages à inventer et des limites technologiques à repousser, mais la fenêtre d’opportunité est ouverte. Chaque avancée majeure – qu’il s’agisse d’allonger la durée des vidéos, d’améliorer la cohérence narrative ou de faciliter l’intégration dans les workflows existants – est susceptible de redistribuer les cartes entre les prétendants. Dans cette nouvelle frontière de l’IA, 2025 s’annonce comme une période décisive où se dessineront les leaders de la vidéo générative de demain.
Pour en savoir plus :