Que Sora Sora

Capture d’écran 2024-12-09 204147

Après de longs mois d'attente, OpenAI a ouvert au public hier soir Sora, son modèle de génération de vidéos à partir de texte ou d'images, disponible pour les abonnés payants à travers le monde. À l’exception de l’Europe.

Dix mois après une première démonstration (lire Qant du 19 février), OpenAI a officiellement lancé Sora, son outil de synthèse vidéo par intelligence artificielle, hier soir. Accessible via une plateforme dédiée, cet outil permet de créer des vidéos allant jusqu’à 20 secondes, avec une résolution maximale de 1080p, à partir de à partir de texte, d'images ou de vidéos existantes. Utilisant une architecture de type diffusion et transformer, similaire à DALL·E et GPT, Sora peut générer des vidéos en maintenant la cohérence même lorsque les sujets disparaissent temporairement du champ. Le modèle a été entraîné sur diverses sources de données, notamment des ensembles de données publics, des partenariats propriétaires et des retours d'utilisateurs, avec un filtrage rigoureux du contenu sensible avant l'entraînement.

Redteaming rigoureux

Pour garantir un déploiement sûr et responsable, OpenAI a mis en place plusieurs niveaux de protection, notamment des systèmes de modération multimodaux, des filtres LLM personnalisés, et des classificateurs d'images en sortie. Une attention particulière a été portée à la sécurité des enfants, à la prévention des contenus trompeurs et des deepfakes, ainsi qu'à la protection des droits des artistes. Le système intègre également des outils de traçabilité comme les métadonnées C2PA et des filigranes visibles. OpenAI continue de travailler sur l'amélioration de ces protections et prévoit des développements futurs, notamment en matière de représentation équitable et de transparence.

OpenAI a fait appel à des red teamers externes provenant de neuf pays différents pour tester Sora et identifier les failles potentielles dans ses systèmes de sécurité. Cette équipe a testé plus de 15 000 générations entre septembre et décembre 2024, explorant divers scénarios de contenu problématique comme le contenu sexuel, la violence, l'automutilation, et la désinformation. Leurs tests ont révélé des vulnérabilités importantes, notamment dans le traitement des situations médicales ou de science-fiction qui pouvaient contourner certaines protections contre le contenu érotique, conduisant à la mise en place de mesures de protection supplémentaires avant le lancement du modèle.

Intégration à ChatGPT

Les abonnés à ChatGPT Plus (20 $ par mois, environ 19 euros) peuvent générer jusqu’à 50 vidéos mensuelles en résolution standard, tandis que les abonnés Pro (200 $ par mois, environ 190 euros) bénéficient d’options avancées, notamment des vidéos en haute définition et de plus longue durée.

En plus de ces fonctionnalités, Sora propose des outils comme un éditeur de chronologie, permettant aux utilisateurs d’ajouter des instructions précises à différents moments d’une vidéo, ainsi qu’une fonctionnalité « Storyboard » pour diriger le contenu image par image. Le modèle prend également en charge plusieurs formats d’aspect, ce qui facilite l’intégration de contenu généré dans des projets existants.

Des usages créatifs mais encadrés

Sora a été conçu pour permettre aux utilisateurs de tester de nouvelles idées et non pour produire des œuvres entières. Lors du lancement, les développeurs ont insisté sur le fait que l’outil reste limité en termes de complexité. Les vidéos impliquant des actions physiques complexes ou de longue durée présentent souvent des incohérences. OpenAI admet que ce modèle est encore en développement, mais promet des améliorations progressives.

Outre ses limitations techniques, Sora est soumis à des restrictions pour éviter les abus, notamment en matière de génération de deepfakes. À ce titre, la plateforme empêche temporairement la création de vidéos mettant en scène des humains, le temps qu’OpenAI améliore ses systèmes de prévention. Les contenus illégaux, comme les vidéos manipulées à caractère sexuel ou pédopornographique, sont également bloqués. Pour renforcer la sécurité, chaque vidéo générée intègre des métadonnées d’identification, des filigranes visibles et un outil interne pour en vérifier l’origine.

Un contexte de forte concurrence

Depuis la présentation initiale de Sora en février dernier, de nombreuses entreprises ont également présenté des modèles similaires. Des outils concurrents comme Veo de Google (lire Qant du 16 mai), Gen-3 de Runway (lire Qant du 19 juin), ou encore Hunyuan Video, un modèle chinois récent, ont accru la pression sur OpenAI.

Pour renforcer l’attrait de Sora, OpenAI a également introduit une interface « Explore », où les utilisateurs peuvent visionner des vidéos générées par d’autres et s’en inspirer. Bien que la consultation soit gratuite, la génération de vidéos reste réservée aux abonnés payants. OpenAI prévoit également de mettre en place des formules d’abonnement spécialisées en 2025, adaptées aux besoins de différents utilisateurs.

Des technologies sous-jacentes avancées

Sur le plan technique, Sora repose sur des innovations comme la décomposition des vidéos en « patches spatio-temporels » pour réduire leur complexité et permettre un traitement plus rapide. Une méthode de « recaptionnement » est également utilisée pour améliorer la correspondance entre les descriptions textuelles des utilisateurs et le contenu généré. Ces techniques, dérivées de l’expérience acquise avec Dall-e 3 pour la génération d’images, permettent une meilleure précision dans l’interprétation des consignes données par les utilisateurs.

Comme à l’accoutumée, Sora n’est pas disponible en Europe, à l’instar de la plupart des dispositifs avancés d’IA.

On ne peut pas tout avoir.

Pour en savoir plus :

L’essentiel