Live Transcribe : le moteur vocal de Google passe en open source

**Bruno** · 19/08/2019, 11h18

Live Transcribe : le moteur vocal de Google passe en open source,
afin d’aider les développeurs à exploiter cette technologie

Ce vendredi 16 août 2019, Google a annoncé l’ouverture de la source de son moteur de traitement de la parole. La société espère que cela permettra à tout développeur de livrer des sous-titres pour les conversations longues. Le code source est disponible maintenant sur GitHub.

Présentation de Live Transcribe

Live Transcribe est une application Android qui fournit un sous-titrage en temps réel aux personnes sourdes ou malentendantes. Permettant ainsi aux sourds et malentendants d’avoir des conversations facilement, avec juste un téléphone Android. Elle est facile à utiliser, partout où vous avez une connexion Wi-Fi ou internet. Gratuite, elle est alimentée par la technologie de reconnaissance vocale de Google. Les sous-titres s’adaptent au fil de la conversation et comme les conversations ne sont pas stockées sur des serveurs, elles restent sécurisées sur votre appareil.

Construit avec l'aide d'experts, Google, s’était associé à l’Université Gallaudet, une école de choix pour les sourds et les malentendants, afin de s'assurer que Live Transcribe était utile pour un usage quotidien. « Nous pouvons maintenant faire des choses qui n’étaient même pas possible il y’a quelques années, comme prendre part à des conversations ou prendre part de manière décontractée lorsque l'occasion se présente », soutien Christian Vogler Professeur et chercheur à l’université Gallaudet.

Nom : Gallaudet456.png
Affichages : 4740
Taille : 23,0 Ko

Ce nouveau service Android peut être téléchargé en tant qu'application sur le Google Play Store. Après avoir installé l'application, vous pouvez activer Live Transcribe dans les paramètres d'accessibilité de votre téléphone et appuyez sur l'application pour l'utiliser ou, si vous avez un Pixel 3, activez simplement l'application dans vos paramètres d’accessibilité.

Nom : pixel3456.png
Affichages : 3465
Taille : 18,2 Ko

« Au cours des nombreux tests utilisateurs, nous avons constaté qu'il n'est pas si facile de fournir de bonnes légendes pour les conversations longues, et nous souhaitons aider les développeurs à exploiter davantage ce que nous avons appris », déclare Google. « Aujourd'hui, nous partageons notre moteur de transcription avec le monde afin que les développeurs du monde entier puissent créer des applications avec une transcription robuste ».

Travailler autour du cloud

La reconnaissance vocale de Live Transcribe est fournie par l'API Cloud Speech à la pointe de la technologie de Google qui, dans la plupart des conditions, offre une précision de transcription très impressionnante. Cependant, le recours au cloud introduit plusieurs complications, de la robustesse face aux connexions réseau, aux coûts de données et à la latence en constante évolution.

Ceux qui ont travaillé avec l’API Cloud Speech savent que l'envoi de flux audio infiniment longs n'est actuellement pas pris en charge. Pour résoudre ce problème, Google a pris des mesures pour fermer et redémarrer les demandes de diffusion en continu avant la fin du délai d'attente, notamment en relançant la session pendant de longues périodes de silence et en fermant chaque fois qu'une pause dans la parole est détectée. Sinon, cela entraînerait une phrase ou un mot tronqué.

La diffusion audio en continu comporte ses propres défis. Dans de nombreux pays, les données réseau sont assez coûteuses, en Afrique par exemple, où la connexion Internet est faible, la bande passante peut être limitée.

Caractéristiques du module de reconnaissance vocale automatique (ASR)

robuste à la perte de réseau étendue. Se reconnectera même si le réseau est en panne depuis des heures. Aucune reconnaissance vocale ne peut être délivrée sans connexion ;
prise en charge intégrée des détecteurs de parole, qui peut être utilisée pour arrêter l'ASR pendant des silences étendus afin d'économiser de l'argent et des données ;
prise en charge intégrée de l'identification du locuteur, qui peut être utilisée pour étiqueter ou colorier le texte en fonction du numéro du locuteur ;
perte réseau robuste à brève (qui se produit souvent lors de déplacements et de la commutation réseau/wifi). Le texte n'est pas perdu, seulement différé ;
prise en charge de plus de 70 langues.

Les bibliothèques fournies sont presque identiques à celles exécutées dans l'application de production Live Transcribe. Elles ont été testées sur le terrain, et ce, de manière approfondie. Cependant, les tests eux-mêmes ne sont pas à source ouverte pour le moment.