Les photographies sont réalisées à l'aide de la lumière, mais que se passerait-il si les portraits de personnes pouvaient être réalisés avec le son de leur voix ? Eh bien justement, des chercheurs en intelligence artificielle ont travaillé à la reconstitution du visage d'une personne à partir d'un court enregistrement audio de sa voix, et les résultats sont bluffants.

Crédit : Speech2Face

Les scientifiques en intelligence artificielle du laboratoire d'informatique et d'intelligence artificielle (CSAIL) du MIT ont publié pour la première fois un article sur un algorithme appelé « Speech2Face » en 2019. Les chercheurs ont d'abord conçu et entraîné un réseau neuronal profond en utilisant des millions de vidéos de YouTube et d'Internet montrant des personnes en train de parler. Au cours de cet entraînement, l’intelligence artificielle a appris des corrélations entre le son des voix et l'apparence de la personne qui parle. Ces liens lui ont permis de deviner l'âge, le sexe et l'origine ethnique de l'interlocuteur.

« Dans quelle mesure pouvons-nous déduire l'apparence d'une personne à partir de sa façon de parler ? C’est la question à laquelle nous avons tenté de répondre en étudiant la tâche consistant à reconstruire l'image faciale d'une personne à partir d'un court enregistrement audio de cette personne qui parle » peut-on lire dans le rapport d’étude. Aucune intervention humaine n'a été nécessaire dans le processus d'apprentissage, les chercheurs n'ayant pas eu à enregistrer manuellement les bases de données. L’algorithme a simplement reçu une énorme quantité de vidéos et a été chargé d'établir des corrélations entre les caractéristiques de la voix et celles du visage.

Une fois entraînée, elle s'est montrée remarquablement douée et efficace pour créer des portraits basés uniquement sur des enregistrements vocaux, qui ressemblaient finalement souvent beaucoup à la personne qui s’exprimait. Pour analyser plus en détail la précision des reconstructions faciales, les scientifiques ont construit un « décodeur de visage » qui crée une reconstruction standardisée du visage d'une personne à partir d'une image fixe en ne tenant pas compte des variations telles que la pose et l'éclairage. Cela a permis aux scientifiques de comparer plus facilement les reconstructions vocales avec les caractéristiques réelles de chaque physique. Et Là encore, les résultats de l'IA étaient étonnamment proches des visages réels dans un grand pourcentage de cas.

Crédit : Speech2Face

Une application encore perfectible

Malgré les capacités impressionnantes de Speech2Face, l’algorithme pourrait encore être amélioré dans les prochains mois. En effet, il a notamment montré quelques faiblesses. Dans certains cas, l’intelligence artificielle a eu des difficultés à déterminer à quoi pouvait ressembler celui ou celle qui parle. Des facteurs tels que l'accent, la langue parlée et la hauteur de la voix ont provoqué des erreurs de correspondance parole-visage dans lesquelles le sexe, l'âge ou l'origine ethnique étaient incorrects.

Par exemple, les hommes ayant une voix particulièrement aiguë étaient souvent identifiés comme des femmes, tandis que les femmes ayant une voix grave étaient vues comme des hommes. Ainsi, cette mauvaise perception a donné des résultats moins précis comme lorsqu'un homme asiatique parlant anglais avait une apparence moins asiatique que lorsqu'il parlait chinois. « D’une certaine manière, le système est un peu comme votre oncle raciste. Il a l'impression de pouvoir toujours déterminer la race ou l'origine ethnique d'une personne en se basant sur la façon dont elle parle, mais il se trompe souvent » a expliqué le photographe Thomas Smith.

Crédit : Speech2Face

Ceci étant dit, les capacités de l’application sont déjà folles !