Déceler la voix de l’IA

“L’IA au micro” (Qant, M. de R. avec Midjourney)

Un nouvel outil dévoilé par Meta qui permet de détecter localement la parole générée par l’IA vient relancer le débat sur les risques des fakes audios, alors qu’Universal veut faire chanter ses artistes grâce à cette même IA.

Meta vient de dévoiler cinq nouveaux modèles de recherche en intelligence artificielle, capables de générer du texte et des images, ainsi que de détecter la parole générée par IA au sein de fichiers audios. Ces modèles ont été rendus publics par le laboratoire Fundamental AI Research (FAIR) de Meta, dirigé par le prix Turing français Yann Le Cun.

Parmi ces nouveaux modèles, Chameleon se distingue par sa capacité à comprendre et générer à la fois des images et du texte. Un autre utilise une approche de prédiction multitoken : contrairement aux méthodes actuelles qui prédisent un token (mot ou pixel) à la fois, ce nouveau modèle entraîne des LLM à anticiper plusieurs mots à venir simultanément. Un troisième modèle accroît la diversité géographique et culturelle dans les systèmes de génération d'images, avec un code d'évaluation et des annotations destinées à améliorer les modèles. Deux modèles touchent au son et à la voix : Jasco et Audioseal. Et ils feront du bruit.

Détecter les discours de l’IA

Jasco offre une plus grande flexibilité pour la génération de musique par IA. Plutôt que de se baser principalement sur des entrées textuelles, Jasco accepte divers types d'entrées incluant des accords ou des rythmes. Il permet ainsi d'intégrer des symboles et de l'audio dans un modèle unique de génération de musique.

AudioSeal pour sa part introduit une technique de marquage audio permettant de détecter localement la parole générée par IA. Ce modèle peut identifier des segments générés par IA au sein de fragments audio plus importants, et il le fait jusqu'à 485 fois plus rapidement que les méthodes antérieures.

Le modèle utilise pour cela deux réseaux neuronaux. L'un génère des signaux de filigrane pouvant être intégrés dans les pistes audio. Ces signaux sont imperceptibles pour l'oreille humaine mais peuvent être détectés rapidement par l'autre réseau neuronal.

Actuellement, pour repérer l'audio généré par IA dans un clip plus long, il faut le passer au peigne fin, seconde par seconde. Ce processus, lent et laborieux, ne peut être utilisé sur des réseaux sociaux avec des millions de minutes de discours. En outre, les filigranes des contenus générés par IA sont souvent faciles à altérer, par exemple en les supprimant ou en les falsifiant. Les filigranes audio ne sont pas encore largement adoptés et il n'existe pas de norme industrielle unique.

En revanche, AudioSeal fonctionne en intégrant un filigrane dans chaque section de la piste audio entière. Cela permet au filigrane d'être détecté même si l'audio est rogné ou édité. L'outil est disponible gratuitement sur GitHub. Meta indique cependant qu'elle ne prévoit pas de l'utiliser dans ses propres outils.

L’IA fait chanter les artistes

En revanche, Universal Music vient de conclure un accord avec la start-up d'intelligence artificielle Soundlabs pour créer des modèles vocaux très fidèles en utilisant les voix des artistes signés sur leur label. Ce partenariat permet aux artistes d'entraîner des modèles d'IA avec leurs propres voix, tout en conservant la propriété et le contrôle artistique des résultats. Ces modèles vocaux personnalisés seront exclusifs aux artistes et non accessibles au public.

Dans le cadre de ce partenariat, les artistes d'Universal auront accès à MicDrop, un plug-in vocal basé sur l'IA et développé par SoundLabs, qui permet à un artiste de créer des extraits vocaux avec sa propre voix. Il s'agit du premier outil d'une suite de fonctionnalités et de services IA développés par SoundLabs pour la conception sonore et la génération musicale. L’application d’un filigrane aux contenus audios générés via MicDrop tombe sous le sens, mais elle n’a pas été confirmée.

De Suno à ElevenLab, les risques du fake

Si Universal et SoundsLab veulent permettre à des artistes d'utiliser leur propre voix pour créer de nouveaux morceaux, d'autres acteurs du secteur proposent des services similaires au grand public. C'est par exemple le cas de la start-up américaine Suno, qui vient de lever 125 millions de dollars (116 M€ : lire Qant du 23 mai). Suno utilise l'IA pour permettre à ses utilisateurs de créer des chansons originales grâce à une invite textuelle. Suno réserve les droits commerciaux de ses chansons aux utilisateurs payants, tout en permettant l'utilisation non commerciale par les utilisateurs gratuits. Au moment de présenter fin mars Suno v3, le dernier modèle présenté comme capable de produire de la musique de qualité radio, la start-up affirme avoir mis au point une technologie propriétaire de filigrane inaudible capable de détecter si une chanson a été créée à l'aide de Suno.

La création de contenus audios par l'IA va bien plus loin que la musique. Eleven Labs s'est spécialisée depuis 2022 dans la génération de voix réalistes. Début janvier, la start-up a suspendu le compte d'un de ces utilisateurs pour avoir créé un deepfake audio de Joe Biden utilisé pour appeler des électeurs du New Hampshire et les inviter à ne pas voter lors de la primaire de l'État (lire Qant du 29 et du 24 janvier).

Si le fake de Joe Biden a été rapidement démasqué, certains deepfakes audios ont déjà eu des conséquences parfois considérables. En Slovaquie, un faux enregistrement a donné à entendre le chef du parti “Slovaquie Progressiste”, Michal Šimečka, qui confiait ses plans pour truquer les élections. Ses vifs démentis n'ont pas empêché la victoire de l'extrême droite pro-russe (lire Qant du 12 octobre 2023).

De là à faire chanter un candidat à la présidentielle, il n’y a qu’un pas.

Pour en savoir plus :

L’essentiel