L’apprentissage automatique améliore la reconnaissance vocale humaine

par Houssen Moshinaly · 2 mars 2022

Suivez-nous sur notre page Facebook et notre canal Telegram

La perte auditive est un domaine de recherche scientifique en croissance rapide, car le nombre de baby-boomers aux prises avec une perte auditive continue d’augmenter à mesure qu’ils vieillissent.

Pour comprendre comment la perte auditive affecte les gens, les chercheurs étudient la capacité des gens à reconnaître la parole. Il est plus difficile pour les gens de reconnaître la parole humaine s’il y a de la réverbération, une déficience auditive ou un bruit de fond important, comme le bruit de la circulation ou plusieurs locuteurs.

Par conséquent, les algorithmes des aides auditives sont souvent utilisés pour améliorer la reconnaissance de la parole humaine. Pour évaluer de tels algorithmes, les chercheurs réalisent des expériences qui visent à déterminer le rapport signal sur bruit auquel un nombre spécifique de mots (généralement 50 %) sont reconnus. Ces tests sont cependant coûteux en temps et en argent.

Dans Le Journal de l’Acoustical Society of Americapublié par l’Acoustical Society of America via AIP Publishing, des chercheurs allemands explorent un modèle de reconnaissance de la parole humaine basé sur l’apprentissage automatique et les réseaux de neurones profonds.

“La nouveauté de notre modèle est qu’il fournit de bonnes prédictions pour les auditeurs malentendants pour des types de bruit de complexité très différente et montre à la fois de faibles erreurs et des corrélations élevées avec les données mesurées”, a déclaré l’auteur Jana Roßbach, de l’Université Carl Von Ossietzky.

Les chercheurs ont calculé le nombre de mots par phrase qu’un auditeur comprend à l’aide de la reconnaissance automatique de la parole (ASR). La plupart des gens connaissent l’ASR grâce à des outils de reconnaissance vocale comme Alexa et Siri.

L’étude a porté sur huit auditeurs normo-entendants et 20 malentendants qui ont été exposés à une variété de bruits complexes qui masquent la parole. Les auditeurs malentendants ont été classés en trois groupes avec différents niveaux de perte auditive liée à l’âge.

Le modèle a permis aux chercheurs de prédire les performances de reconnaissance de la parole humaine des auditeurs malentendants avec différents degrés de perte auditive pour une variété de masques de bruit avec une complexité croissante dans la modulation temporelle et une similitude avec la parole réelle. La perte auditive éventuelle d’une personne pourrait être considérée individuellement.

“Nous avons été très surpris que les prédictions fonctionnent bien pour tous les types de bruit. Nous nous attendions à ce que le modèle rencontre des problèmes lors de l’utilisation d’un seul locuteur concurrent. Cependant, ce n’était pas le cas”, a déclaré Roßbach.

Le modèle a créé des prédictions pour l’audition d’une seule oreille. À l’avenir, les chercheurs développeront un modèle binaural puisque la compréhension de la parole est affectée par l’audition à deux oreilles.

En plus de prédire l’intelligibilité de la parole, le modèle pourrait également être utilisé pour prédire l’effort d’écoute ou la qualité de la parole, car ces sujets sont très liés.

Source de l’histoire :

Matériaux fourni par Institut américain de physique. Remarque : Le contenu peut être modifié pour le style et la longueur.