C’est l’itinéraire d’un homme fasciné depuis toujours par la technologie. Et c’est peu dire que la synthèse vocale est une passion pour Marco Barnig, ancien ingénieur à l’Administration des P&T, devenue par la suite Post Luxembourg. Son intérêt pour le domaine l’a conduit à publier un livre sur le sujet, « Synthèse de la parole : histoire de la synthèse vocale mécanique, électrique, électronique et informatique ».
Car les premiers essais en la matière datent d’avant l’électronique et l’informatique, notamment dès les années 1940. Mais c’est en 1976 que naît chez M. Barnig une véritable appétence pour ce champ : il supervise un travail à l’École polytechnique de Zurich, qui consiste à faire dire à un synthétiseur, commandé par un des premiers microprocesseurs de l’époque : « Ich bin ein Computer ».
Près de cinquante ans plus tard, les synthèses vocales proposées par les GAFAM proposent une qualité telle que toute tonalité robotique a disparu. Mais, dans cette course technologique, beaucoup de langues restent sur le bord de la route. Ainsi est-il du luxembourgeois.
Pourtant, l’intérêt est réel, notamment dans le cas des technologies d’assistance numérique, qui vocalisent les contenus présents à l’écran.
2015, la première voix synthétique luxembourgeoise
L’aventure des pionniers de la synthèse vocale en luxembourgeois est un itinéraire contrarié. Il prend d’abord la direction d’un projet nommé MaryTTS, développé en 2000 à l’université de la Sarre. Il intègre des voix allemande, française et anglaise. Quinze ans plus tard, et sur cette base, le projet MaryLux est présenté : c’est la première voix synthétique luxembourgeoise.
Un an auparavant, et alors qu’il peut enfin goûter aux joies de la retraite, Marco Barnig s’était mis au travail de son côté, de façon à inclure la langue luxembourgeoise dans le moteur eSpeak. Cette application open source jouissait dans les années 2000 – 2010 d’une communauté très active.
eSpeak utilisait la méthode de synthèse par formants, soit la mise bout à bout d’éléments sonores caractéristiques de la vocalisation humaine. Il convenait de spécifier la génération des sons dans l’application, de définir des règles de conversion des graphèmes en phonèmes, de lister les exceptions par rapport aux règles définies (noms, abréviations...). Un dernier fichier listait même la prononciation des émojis.
Malheureusement, le coordinateur d’eSpeak cesse brutalement de donner tout signe de vie et le temps passe avant de lui trouver un successeur. Au même moment, la présentation de MaryLux, fin 2015, dissuade M. Barnig de continuer.
2021, NVDA parle luxembourgeois
Pourtant, six ans plus tard, il remet le projet sur l’établi, pour donner suite à la demande d’un utilisateur d’eSpeak – devenu entretemps eSpeakNG – qui souhaite le support de la langue luxembourgeoise dans l’outil. Or eSpeakNG est compatible avec NVDA, largement utilisé par les aveugles et les malvoyants pour restituer à l’oral les textes. Le 11 novembre 2021, Lëtzebuergesch devient la 127e langue disponible dans eSpeakNG.
Le progrès est notable, la perfection pas encore atteinte. Dès 2022, Marco Barnig se base cette fois sur d’autres technologies (Google Tacotron, Coqui AI) et modèles TTS (text to speech) neuronaux, notamment le modèle VITS, considéré par M. Barnig comme le plus performant parmi ceux proposés dans le domaine public. Pour obtenir des résultats proches de la qualité d’une voix humaine, il convenait d’explorer deux pistes : augmenter considérablement la base de données d’enregistrements en luxembourgeois, mais aussi profiter d’un modèle pré-entraîné en d’autres langues. Une page de démonstration, publiée à l’été 2022, propose cinq langues et, pour chacune d’entre elles, huit voix de langue maternelle.
Ce travail se retrouve au cœur de la liesmaschinn.lu, inaugurée en février dernier. Malheureusement, la start-up Coqui AI a mis la clé sous la porte, ce qui rend les futurs développements délicats.
Mais Marco Barnig n’est pas homme à se décourager. Il est revenu à la communauté eSpeak, toujours active, et « joue » désormais avec un modèle TTS nommé Piper, toujours au service de la langue luxembourgeoise. L’occasion d’entraîner une voix non-binaire. Ce système va jouer un rôle dans le cadre d’un projet présélectionné par le ministère de la Digitalisation. Son but : créer un portail pour apprendre à utiliser l’intelligence artificielle.