Intelligence artificielle : des visages reconstitués à partir de la voix

Rédigé par Radio- Canada
Mise à jour le 28 mai 2020

3 minutes à lire

Intelligence artificielle : des visages reconstitués à partir de la voix

Recréer la configuration générale du visage d'une personne à partir d'un court enregistrement audio est maintenant possible grâce aux expériences d'ingénieurs américains, mais il reste encore du travail à accomplir afin de préciser cette percée de l’apprentissage-machine.

Qui n’a pas tenté d’imaginer l’apparence d’une personne inconnue lors d’une conversation téléphonique, et dans quelle mesure peut-on réellement déduire son apparence à partir de la façon dont elle parle?

Les ingénieurs informatiques Tae-Hyun Oh, Wojciech Matusik et leurs collègues du laboratoire de science informatique et d’intelligence artificielle du MIT se sont intéressés à cette question et ont créé Speech2Face, un réseau d’apprentissage profond qui se nourrit de millions de vidéos éducationnelles disponibles dans YouTube.

Cette base de données a permis à Speech2Face de créer des corrélations statistiques entre des visages et des voix pour ensuite produire, à partir d’une bande audio, des images de visages humains reproduisant divers attributs généraux des locuteurs tels que l'âge, le sexe ou l'origine ethnique.

Les visages réels apparaissent à gauche, et les reconstitués à droite. Photo : Speech2Face

Encore beaucoup de travail

Pour l’heure, l’intelligence artificielle (IA) ne permet pas de générer précisément le visage d’un individu uniquement à partir de sa voix, puisque l’algorithme se base sur un ensemble de caractéristiques partagées par un ensemble de personnes.

« L’algorithme ne peut produire que des visages génériques sans traits spécifiques », expliquent les auteurs.

Les expériences menées à ce jour montrent que les interprétations de Speech2Face restent imparfaites, et certains résultats ne concordent pas du tout avec la réalité. Par exemple, lorsque l’IA écoutait un extrait audio d’un homme asiatique parlant mandarin, la machine produisait un visage asiatique. Toutefois, lorsque le même homme parlait en anglais dans un autre clip audio, l'IA a généré le visage d'un homme blanc.

En outre, l'algorithme a également grandement associé les voix graves aux visages masculins, et les voix aiguës aux visages féminins. Selon les chercheurs, ces erreurs pourraient être liées au fait que la banque de données utilisée pour créer Speech2Face, notamment des vidéos éducatives de YouTube, ne représente pas l'ensemble de la population mondiale.

Considérations éthiques

Quelques personnes qui apparaissaient dans des vidéos YouTube utilisées par l’algorithme ont été surprises d’apprendre que leur visage avait été intégré dans l'étude.

Le recours à cette technologie soulève donc certaines questions éthiques, notamment liées au respect de la vie privée et à la discrimination.

« Bien qu’il s’agisse d’une recherche universitaire, nous estimons qu’il est important de discuter explicitement d’un ensemble de considérations éthiques, en raison de la sensibilité potentielle des informations faciales », ont reconnu les ingénieurs lorsqu’ils ont présenté l’état de leurs recherches la semaine dernière au cours d’une rencontre consacrée à l’apprentissage-machine, à la vision par ordinateur et à la reconnaissance de formes qui se tenait à Long Beach, en Californie.

Reste qu’une telle percée pourrait être peaufinée et permettre éventuellement de créer, par exemple, des portraits-robots plus détaillés de suspects dans des affaires criminelles.

Intelligence artificielle : des visages reconstitués à partir de la voix

Encore beaucoup de travail

Considérations éthiques

Offres d'emploi associées sur le site Espresso-Jobs

Artificial Intelligence – Vp Research & Development

DevOps SRE

Ingénieur Logiciel Backend

Business Intelligence Developer

Technicien Ou Technicienne Ti

Découvrir d'autres articles

Le meilleur de l'IA au service du marketing

Le salaire des grands patrons techno

8 leçons de début de carrière à tirer des DSI

Des offres d’emploi qui n’ont « pas de bon sens »

Boom techno : Montréal se démarque en Amérique du Nord

Baromètre de compétitivité : voici le pouls des PME Technos

Revue techno de la semaine!

Une techno débarque chez vous? Voici quoi faire pour y décrocher un emploi...

Matricis lance son Centre d'expertise en intelligence opérationnelle

Voici le bureau du futur !

L’innovation « ouverte » peut réduire les coûts de R&D

Comment va-t-on recruter en techno en 2018 ?

Les 4 résolutions que chaque pro en TI doit prendre en 2019

Cobalt, celle qui tient à votre sécurité

Aperium : la réalité virtuelle en mouvement

Intelligence artificielle : des visages reconstitués à partir de la voix

Encore beaucoup de travail

Considérations éthiques

Articles susceptibles de vous intéresser

Stratégie SEO : le blogue invité

SYNTHÈSE, un acteur clé pour propulser la création numérique au Québec

Les ingénieurs au cœur de la transformation numérique

Offres d'emploi associées sur le site Espresso-Jobs

Artificial Intelligence – Vp Research &amp; Development

DevOps SRE

Ingénieur Logiciel Backend

Business Intelligence Developer

Technicien Ou Technicienne Ti

Découvrir d'autres articles

Le meilleur de l'IA au service du marketing

Le salaire des grands patrons techno

8 leçons de début de carrière à tirer des DSI

Des offres d’emploi qui n’ont « pas de bon sens »

Boom techno : Montréal se démarque en Amérique du Nord

Baromètre de compétitivité : voici le pouls des PME Technos

Revue techno de la semaine!

Une techno débarque chez vous? Voici quoi faire pour y décrocher un emploi...

Matricis lance son Centre d'expertise en intelligence opérationnelle

Voici le bureau du futur !

L’innovation « ouverte » peut réduire les coûts de R&D

Comment va-t-on recruter en techno en 2018 ?

Les 4 résolutions que chaque pro en TI doit prendre en 2019

Cobalt, celle qui tient à votre sécurité

Aperium : la réalité virtuelle en mouvement

Artificial Intelligence – Vp Research & Development