Producer at a computer with a sound wave on a screen.

Les voix de l’IA sont désormais indiscernables de vraies voix humaines

Par Anissa Chauvin

La plupart d’entre nous ont probablement vécu intelligence artificielle (AI) s’accepte des assistants personnels comme Siri ou Alexa, avec leur intonation plate et leur livraison mécanique nous donnant l’impression que nous pourrions facilement faire la distinction entre une voix générée par l’AI et une vraie personne. Mais les scientifiques disent maintenant que l’auditeur moyen ne peut plus faire la différence entre les vraies personnes et les voix « Deepfake ».

Dans une nouvelle étude publiée le 24 septembre dans la revue Plos unles chercheurs ont montré que lorsque les gens écoutent des voix humaines – aux côtés de versions générées par l’IA des mêmes voix – ils ne peuvent pas identifier avec précision qui sont réels et qui sont faux.

« Les voix générées par l’AI sont tout autour de nous maintenant. Nous avons tous parlé à Alexa ou Siri, ou nous avons pris nos appels par des systèmes de service client automatisé », a déclaré l’auteur principal de l’étude Nadine Lavanmaître de conférences en psychologie à l’Université Queen Mary de Londres, dans un communiqué. « Ces choses ne ressemblent pas tout à fait à de vraies voix humaines, mais ce n’était qu’une question de temps jusqu’à ce que la technologie AI commence à produire un discours naturaliste et à consonance humaine. »

L’étude a suggéré que, bien que les voix génériques créées à partir de zéro n’étaient pas jugées réalistes, les clones vocaux formés sur les voix de vraies personnes – Deepfake audio – se sont révélées tout aussi crédibles que leurs homologues réelles.

Les scientifiques ont donné aux participants à l’étude des échantillons de 80 voix différentes (40 voix générées par l’AI et 40 vraies voix humaines) et leur ont demandé d’étiqueter ce qu’ils pensaient être réel et généré par l’AI. En moyenne, seulement 41% des voix d’IA à partir de casquettes ont été mal classées comme étant humaines, ce qui a suggéré qu’il est toujours possible, dans la plupart des cas, de les distinguer des vraies personnes.

Cependant, pour les voix d’IA clonées par les humains, la majorité (58%) de de la CRÉSIFIÉS comme étant humaine. Seulement un peu plus (62%) des voix humaines ont été correctement classés comme étant humains, amenant les chercheurs à conclure qu’il n’y avait pas de différence statistique dans notre capacité à distinguer les voix de vraies personnes en dehors de leurs clones Deepfake.

Les résultats ont potentiellement Implications profondes pour l’éthique, le droit d’auteur et la sécuritéA déclaré Lavan. Si les criminels utilisent l’IA pour cloner votre voix, il devient beaucoup plus facile de contourner les protocoles d’authentification vocale à la banque ou pour inciter vos proches à transférer de l’argent.

Nous avons déjà vu plusieurs incidents se jouer. Le 9 juillet, par exemple, Sharon Brightwell a été trompé de 15 000 $. Brightwell a écouté ce qu’elle pensait être sa fille qui pleurait au téléphone, lui disant qu’elle avait été dans un accident et qu’elle avait besoin d’argent pour une représentation juridique pour la garder hors de prison. « Il n’y a personne qui pourrait me convaincre que ce n’était pas elle », a déclaré Brightwell à propos de la fabrication réaliste de l’IA à l’époque.

Les voix de l’IA réaliste peuvent également être utilisées pour fabriquer des déclarations et des interviews avec des politiciens ou des célébrités. Le faux audio pourrait être utilisé pour discréditer les individus ou pour inciter les troubles, semer la division sociale et les conflits. Les con artistes ont récemment construit un clone de l’IA de la voix du Premier Premier du Queensland Steven Milesen utilisant son profil pour essayer d’amener les gens à investir dans une arnaque Bitcoin, par exemple.

Les chercheurs ont souligné que les clones vocaux qu’ils utilisaient dans l’étude n’étaient même pas particulièrement sophistiqués. Ils les ont fabriqués avec des logiciels disponibles dans le commerce et les ont formés avec aussi peu que quatre minutes d’enregistrements de discours humains.

« Le processus nécessitait une expertise minimale, seulement quelques minutes d’enregistrements vocaux et presque pas d’argent », a déclaré Navan dans le communiqué. « Cela montre à quel point la technologie vocale de l’IA est accessible et sophistiquée. »

Bien que Deepfakes présente une multitude d’opportunités pour les acteurs malignes, ce n’est pas une mauvaise nouvelle; Il peut y avoir plus d’opportunités positives qui accompagnent le pouvoir de générer des voix d’IA à grande échelle. « Il peut y avoir des applications pour une amélioration de l’accessibilité, de l’éducation et de la communication, où des voix synthétiques de haute qualité sur mesure peuvent améliorer l’expérience utilisateur », a déclaré Navan.

Anissa Chauvin