- Après Gemini 2.0, Google DeepMind vient de présenter Veo 2, la version améliorée de son modèle de génération vidéo. Capable de produire des vidéos 4K d’une durée de deux minutes, il surpasse largement Sora d’OpenAI: 4 fois la résolution et 6 fois la durée.
- DeepMind affirme également que Veo 2 propose une meilleure gestion des dynamiques physiques, de la lumière et des mouvements complexes mais surtout de la cohérence et de la continuité. Comparé à ses principaux concurrents – outre Sora, on peut citer parmi les plus avancés : Runway, Luma, Pika, Hunyuan et Hailuo – Veo 2 semble être le seul modèle qui suit réellement la scène au fur et à mesure qu'elle se déroule.
- Le modèle ne sera déployé que progressivement. Il n’est disponible pour l’heure que dans l’outil expérimental VideoFX, actuellement limité à des vidéos de 720p et huit secondes. Une intégration à Vertex AI est prévue l’an prochain.
- Google a également lancé Whisk, un outil permettant de générer des images à partir d’autres images en guise de prompts. Basé sur la dernière version du modèle Imagen 3, Whisk se veut un outil d’exploration visuelle rapide, non destiné à des retouches précises.
- À SURVEILLER : La contre-attaque de l’empire et le retour du jedi. Depuis 2023, Google et OpenAI se livrent à une guerre de communication sur l’IA. Les succès de ChatGPT et les déboires de Bard ont jusqu’à présent toujours fait triompher David sur Goliath. Mais Veo 2 est clairement supérieur à Sora, qui de plus a fait tomber ChatGPT après son annonce (lire Qant du 13 décembre). Pour éviter un échec sans précédent, OpenAI devra relever le gant vendredi soir, au dernier jour de son “calendrier de l’Avent”.
Google crée à tout va

Google lance Veo 2, la dernière version de son modèle de génération de vidéo, ainsi que Whisk, un modèle image-to-image basé sur Imagen 3. Les performances éclipsent Sora et tous les modèles du marché.