Une voix synthétique générée par le cerveau

par Houssen Moshinaly · Publié 25 avril 2019 · Mis à jour 23 avril 2019

Les chercheurs ont réussi à créer une voix synthétique qui est uniquement générée par l’activité cérébrale. La promesse est de redonner la voix à ceux qui sont atteints de déficience vocale.

Suivez-nous sur notre page Facebook et notre canal Telegram

Crédit : Chang Lab / UCSF Dept. of Neurosurgery

La voix synthétique comme un traitement possible ? Une interface cerveau-machine à la pointe de la technologie créée par les neuroscientifiques de l’Université de San Francisco peut générer une voix synthétique à la sonorité naturelle en utilisant l’activité cérébrale pour contrôler un tract vocal virtuel. Il s’agit une simulation informatique anatomiquement détaillée incluant les lèvres, la mâchoire, la langue, et le larynx.

Sommaire

1 La perte de voix à cause des maladies
2 Une voix synthétique créée uniquement par le cerveau
3 Le système vocal virtuel améliore la synthèse naturaliste de la parole
4 Cartographier des zones du cerveau qui produisent le langage
5 2 algorithmes d’apprentissage automatique
6 Les algorithmes ont amélioré la voix synthétique
7 Certaines phrases sont difficiles
8 Les progrès de l’intelligence artificielle, de la linguistique et des neurosciences
9 Redonner une voix synthétique à ceux qui sont incapables de parle

La perte de voix à cause des maladies

L’étude a été menée auprès de participants à la recherche dont la parole était intacte, mais la technologie pourrait un jour rétablir la voix des personnes qui ont perdu la capacité de parler en raison de la paralysie et d’autres formes de dommages neurologiques.

Les accidents cérébrovasculaires, les lésions cérébrales traumatiques et les maladies neurodégénératives telles que la maladie de Parkinson, la sclérose en plaques et la sclérose latérale amyotrophique (SLA ou maladie de Lou Gehrig) entraînent souvent une perte irréversible de la capacité de parler.

Certaines personnes souffrant de troubles d’élocution graves apprennent à exprimer leurs pensées lettre par lettre à l’aide d’appareils d’assistance permettant de suivre de très petits mouvements des yeux ou des muscles du visage. Cependant, la production de texte ou de paroles synthétisées avec de tels dispositifs est laborieuse, sujette aux erreurs et extrêmement lente, permettant typiquement un maximum de 10 mots par minute, comparé aux 100-150 mots par minute de la parole naturelle.

Une voix synthétique créée uniquement par le cerveau

Le nouveau système mis au point dans le laboratoire d’Edward Chang, décrit dans la revue Nature, montre qu’il est possible de créer une version synthétisée de la voix d’une personne pouvant être contrôlée par l’activité des centres de parole de son cerveau. Selon les auteurs, cette approche pourrait à l’avenir non seulement rétablir la communication fluide avec les personnes souffrant de troubles d’élocution graves, mais pourrait également reproduire une partie de la musicalité de la voix humaine qui traduit les émotions et la personnalité du locuteur en utilisant uniquement ce type de voix synthétique.

Crédit : Chang Lab / UCSF Dept. of Neurosurgery

Pour la première fois, cette étude démontre que nous pouvons générer des phrases parlées complètes en fonction de l’activité cérébrale d’un individu selon Chang, professeur de chirurgie neurologique et membre de l’UCSF Weill Institute for Neuroscience. C’est une preuve exaltante de principe qu’avec une technologie déjà à notre portée, nous devrions être en mesure de construire un dispositif cliniquement viable chez les patients déficients de la parole.

Le système vocal virtuel améliore la synthèse naturaliste de la parole

La recherche a été dirigée par Gopala Anumanchipalli et Josh Chartier, étudiant diplômé en bioingénierie du laboratoire Chang. Il s’appuie sur une étude récente dans laquelle la paire décrit pour la première fois comment les centres de la parole du cerveau humain chorégraphient les mouvements des lèvres, de la mâchoire, de la langue et d’autres composants du tractus vocal pour produire un discours fluide.

À partir de ce travail, Anumanchipalli et Chartier ont compris que les tentatives précédentes de décoder directement la parole de l’activité cérébrale auraient eu peu de succès, car ces régions cérébrales ne représentent pas directement les propriétés acoustiques des sons de la parole, mais plutôt les instructions nécessaires pour coordonner les mouvements de la bouche et la gorge pendant la parole.

Cartographier des zones du cerveau qui produisent le langage

La relation entre les mouvements de l’appareil vocal et les sons de la parole produits est compliquée selon Anumanchipalli. Nous avons estimé que si ces centres de la parole dans le cerveau encodaient des mouvements plutôt que des sons, nous devrions essayer de faire de même pour décoder ces signaux.

Dans leur nouvelle étude, Anumancipali et Chartier ont demandé à cinq volontaires traités au centre d’épilepsie UCSF. C’était des patients avec une parole intacte ayant des électrodes temporairement implantées dans leur cerveau. Cela a permis de cartographier la source de leurs activations en vue de la neurochirurgie quand ils ont lus plusieurs centaines de phrases à haute voix. Les chercheurs ont enregistré l’activité d’une région du cerveau connue pour être impliquée dans la production du langage.

2 algorithmes d’apprentissage automatique

Sur la base d’enregistrements audio de la voix des participants, les chercheurs ont utilisé des principes linguistiques pour procéder à l’ingénierie inverse des mouvements de l’appareil vocal nécessaires pour produire ces sons. Le tassement des lèvres, le resserrement des cordes vocales, le déplacement de la pointe de la langue vers le palais, puis la relâcher, etc.

Crédit : Chang Lab / UCSF Dept. of Neurosurgery

Cette cartographie détaillée du son a permis aux scientifiques de créer pour chaque participant un conduit vocal virtuel réaliste pouvant être contrôlé par l’activité de son cerveau. Celui-ci comprenait deux algorithmes d’apprentissage automatique à réseau de neurones. Un décodeur qui transforme les modèles d’activité cérébrale produits pendant la parole en mouvements du tract vocal virtuel et un synthétiseur qui convertit ces mouvements du tract vocal en une approximation synthétique de la voix du participant.

Les algorithmes ont amélioré la voix synthétique

La voix synthétique produite par ces algorithmes était significativement meilleure que la voix synthétique décodée directement de l’activité cérébrale des participants sans l’inclusion de simulations des voies vocales des locuteurs selon les chercheurs. Les algorithmes produisaient des phrases compréhensibles pour des centaines d’auditeurs lors de tests de transcription réalisés par des internautes utilisant la plateforme Amazon Mechanical Turk.

Ci-dessous, un échantillon de cette voix synthétique générée par le cerveau

Comme dans le cas du langage naturel, les transcripteurs ont eu plus de succès quand on leur a donné une liste de mots plus courte, comme ce serait le cas pour les aidants naturels qui sont préparés au type de phrases ou de requêtes que les patients pourraient formuler.

Certaines phrases sont difficiles

Les transcripteurs ont identifié avec précision 69 % des mots synthétisés à partir de listes de 25 alternatives et transcrit 43 % des phrases avec une précision parfaite. Avec un choix plus difficile de 50 mots, la précision globale des transcripteurs est tombée à 47 %, même s’ils étaient toujours capables de comprendre parfaitement 21 % des phrases synthétisées.

Nous avons encore du chemin à faire pour imiter parfaitement le langage parlé selon Chartier. Nous sommes assez bons pour synthétiser des sons vocaux plus lents tels que “sh” et “z” ainsi que pour conserver les rythmes et les intonations de la parole ainsi que le sexe et l’identité du locuteur, mais certains des sons les plus abrupts tels que “b” et “p” sont plus difficiles à traiter. Cependant, les niveaux de précision que nous avons produits ici constitueraient une amélioration incroyable de la communication en temps réel par rapport à ce qui est actuellement disponible.

Les progrès de l’intelligence artificielle, de la linguistique et des neurosciences

Les chercheurs expérimentent actuellement des réseaux d’électrodes de densité supérieure et des algorithmes plus avancés d’apprentissage automatique qui, espèrent-ils, amélioreront encore davantage la parole synthétisée. Le prochain test majeur pour la technologie consiste à déterminer si une personne qui ne sait pas parler peut apprendre à utiliser le système sans pouvoir l’entraîner de sa propre voix et la généraliser à tout ce qu’elle souhaite dire.

Les résultats préliminaires d’un des participants suggèrent que le système anatomique des chercheurs peut décoder et synthétiser de nouvelles phrases à partir de l’activité cérébrale des participants presque aussi bien que les phrases sur lesquelles l’algorithme a été formé.

Redonner une voix synthétique à ceux qui sont incapables de parle

Même lorsque les chercheurs ont fourni à l’algorithme des données d’activité cérébrale enregistrées alors qu’un participant ne faisait que prononcer des phrases sans son, le système était toujours en mesure de produire des versions synthétiques intelligibles des phrases imitées dans la voix du locuteur.

Les chercheurs ont également constaté que le code neuronal des mouvements vocaux se chevauchait partiellement entre les participants et que la simulation du tractus vocal d’un sujet de recherche pouvait être adaptée pour répondre aux instructions neurales enregistrées à partir du cerveau d’un autre participant.

Ensemble, ces résultats suggèrent que les personnes ayant une perte de la parole en raison d’une déficience neurologique pourraient être en mesure d’apprendre à contrôler une prothèse vocale modelée sur la voix d’une personne ayant une parole intacte.

Les personnes qui ne peuvent pas bouger leurs bras et leurs jambes ont appris à contrôler les membres robotisés avec leur cerveau selon Chartier. Nous espérons qu’un jour les personnes ayant des troubles de la parole pourront réapprendre à parler en utilisant cet appareil vocal artificiel contrôlé par le cerveau.


Le Basilic de Roko	Mon parcours de rédacteur web	Science corrompue et servile	Nous, Tueurs en série

Une voix synthétique générée par le cerveau

La perte de voix à cause des maladies

Une voix synthétique créée uniquement par le cerveau

Le système vocal virtuel améliore la synthèse naturaliste de la parole

Cartographier des zones du cerveau qui produisent le langage

2 algorithmes d’apprentissage automatique

Les algorithmes ont amélioré la voix synthétique

Certaines phrases sont difficiles

Les progrès de l’intelligence artificielle, de la linguistique et des neurosciences

Redonner une voix synthétique à ceux qui sont incapables de parle

Mes livres

Laisser un commentaire Annuler la réponse