Dico du futur de l'intelligence (et la bêtise) artificielle

Vocamiter : user et abuser des clones vocaux

avr. 05, 2024

Et c’est parti pour le deuxième mot du Dico du futur de l’intelligence (et la bêtise) artificielle.

Cette semaine OpenAI, le papa de ChatGPT, a annoncé la création de Voice Engine. Cette merveille peut cloner toutes les voix à partir d’un enregistrement d’une quinzaine de secondes. Là où on s’étonne, c’est que l’entreprise ne veut pas le livrer au grand public. Son inquiétude est que, comme il est trop performant, les sacripants d’internautes pourraient en faire mauvais usage.

Ne comprenant pas les méandres existentiels de ces techniciens, j’ai grommelé : « À quoi développer une technologie si ce n’est pas pour l’utiliser. » J’ai ensuite été lever le capot du clonage vocal. Là, j’ai été surprise par les remous que peut provoquer cette technologie.

Notre voix est unique. Son intonation, son rythme, son débit, sa manière d’être articulée, sa hauteur, son intensité, son timbre la caractérisent. Il suffit d’un mot pour que des proches nous reconnaissent et détectent du plaisir ou de la souffrance.

Cette carte visite sonore est aussi importante que notre visage. Pourtant, elle est peu protégée. Depuis quelques années, des dizaines d’entreprises travaillent à la création des clones vocaux. Notre voix est vocamitée. Des clones la remplacent et parfois gangrènent l’original.

Le clonage vocal est réalisé à partir d’un enregistrement sonore de plus en plus court. De 30 minutes minimum il y a un an, il est réduit à quelques secondes aujourd’hui. Le logiciel capte tous les éléments définissant notre manière de parler. Cerise sur le gâteau, la voix peut être modifiée pour exprimer des émotions.

Le bon, la brute et le truand

Si l’on peut applaudir la prouesse technologique, la question qui se pose est : « À quoi sert-elle ? ». La réponse est « cela sert à du bon, du moins bon et à de l’escroquerie. » C’est un Far West où l’on effectue le remake du film « Le bon, la brute et le truand ».

On commence par le meilleur.

Retrouver sa voix

La santé est la cerise sur le gâteau de la technologie du clonage vocal. A entendre les développeurs, elle légitime son développement. Ils annoncent haut et fort qu’elle va permettre d’aider les personnes qui ont perdu la voix à cause d’une maladie ou d’un accident. Ils enregistrent les voix des personnes souffrant de maladies telles que la sclérose latérale amyotrophique, la maladie de Parkinson et le cancer de la gorge, afin qu’elles puissent continuer à parler avec leur propre voix.

Devenir polyglotte

Le logiciel peut vous rendre polyglotte. Vous parlez dans votre langue maternelle et il recrée votre voix avec ses nuances distinctives en espagnol, français, chinois. Vous pouvez communiquer avec le monde entier sans avoir besoin d’apprendre une nouvelle langue.
Est-ce qu’on fera le pas d’aller vers l’autre si on n’a pas fait l’effort d’apprendre sa langue ? On peut en douter, mais ne cassons pas l’ambiance avec un scepticisme décalé.

Doubler les films

Avec cette technologie, l’industrie du doublage et du sous-titrage va vivre des moments difficiles. Plus besoin de comédiens, de studios… A partir de la voix originale, la machine duplique dans toutes les langues.

Elle s’y prépare. Replica Studios a signé un accord avec SAG-AFTRA pour créer des copies des voix des membres de la “Artists Union” . Les voix synthétiques pourront être utilisées pour de nouveaux projets, notamment dans le domaine du jeu vidéo.

Faire revivre les morts

Si la technologie lamine les imaginaires et la créativité, on pourra faire revivre les morts. On peut s’attendre à ce que des désœuvrés fassent sortir Coluche, Desproges, Devos de leurs ténèbres pour commenter les prouesses des IA ou les dérives de Poutine. Le souci est que la technologie ne livre pas avec leurs talents.

Augmenter l’accessibilité

Cette technologie permet de convertir le contenu écrit en format audio. On peut espérer que demain, quand on achètera un livre, on aura accès aussi à la version sonore. On passera alors simplement d’une version écrite à sonore. Cela risque de séduire des lecteurs potentiels lecteurs comme des aînés et des plus jeunes.

Au grand bazar des escrocs

Avec cette technologie, c’est aussi la fête des truands. Ils adoptent la voix d’une personne pour l’escroquer. Ils jouent alors sur l’urgence, l’émotion et le respect de la hiérarchie.

Les plus fréquentes sont…

La fraude au président

Le fraudeur se fait passer pour le président d’une société. Il ordonne à ses collaborateurs de faire un virement, donner des mots de passe ou autre escroquerie du même type.

L’appel à la grand-mère

Le principe est d’une simplicité désarmante. On récupère un bout de voix d’un enfant sur TikTok, YouTube ou Instagram. On se connecte sur un site comme ElevenLabs. La grand-mère reçoit un appel avec la voix de son petit-fils qui dit : « Grand-mère, j’ai des problèmes, j’ai eu un accident ». L’aînée vide son bas de laine.

Le kidnapping

« Maman ! Maman, j’ai foiré ». Après cette courte phrase pleine de sanglots avec la voix de sa fille âgée de 15 ans, un homme à demandé à sa mère, Jennifer DeStefano, de verser un million de dollars. Sans ce règlement, l’individu menaçait de droguer sa fille et de la déposer au Mexique. Cette histoire a eu lieu en Arizona. Elle s’est bien terminée. La mère a pu contacter son mari qui a expliqué que leur fille se trouvait en sécurité à la maison. D’autres ont eu moins de chance.

Selon l’étude de McAfee, les arnaques piègent un français sur quatre. 77 % des victimes ont perdu de l’argent. Pour 40 % d’entre eux, plus de 1 000 euros sont partis en fumée. 7 % ont été délestés de sommes comprises entre 5 000 et 15 000 euros.

Les faux vocaux

Pour compléter le tableau, il a bien entendu la manipulation des voix. À chaque campagne électorale, les appels de désinformation augmentent. Ces clonages peuvent aussi discréditer une personne. Des brutes ont, par exemple, fait lire Mein Kampf à Emma Watson.

Comment se protéger des faussaires vocaux ?

Des chercheurs planchent sur le sujet.

L’informaticien et ingénieur Ning Zhang de la McKelvey School of Engineering de l’Université de Washington a mis au point « AntiFake ». Le principe est de déformer le signal audio enregistré juste assez pour qu’il sonne juste pour un auditeur humain, mais qu’il soit inutilisable pour l’entraînement d’un clone vocal.

Une équipe constituée de chercheurs des laboratoires de Kyutai, de l’INRIA et de Meta a développé AudioSeal, un outil qui appose un marqueur pour les contenus audios produits par l’IA.

La question est de savoir si toutes les entreprises vont rendre leurs audios clonés détectables ?

En attendant, les sites conseillent d’éviter de prendre des appels de numéros inconnus. Ils ajoutent qu’il faut aussi se méfier de ceux qui sont connus. Les arnaqueurs ont désormais la possibilité d’afficher un numéro de vos proches.

Dans le Bon, la brute et le truand de Sergio Leone, la réplique la plus célèbre est : « Le monde se divise en deux catégories. Ceux qui ont un flingue, et ceux qui creusent. Toi, tu creuses. » Il semble que dans le domaine du clonage vocal, on va continuer à creuser.

En attendant le Dico du futur de l’intelligence (et la bêtise) artificielle, je vous propose d’inventer le futur du travail. On vous propose des cartes scénarios, des innovations, des défis, des technologies, une dizaine de règles du jeu et vous construisez vos futurs. Nous pouvons aussi vous aider dans l’aventure avec notre dispositif collaboratif de design-fiction Anticipédia

La boutique des Propulseurs

Futureusement vôtre !

AnneCaroline