Communication publiée dans un ouvrage (Colloques, congrès, conférences scientifiques et actes)
ASRLUX: AUTOMATIC SPEECH RECOGNITION FOR THE LOW-RESOURCE LANGUAGE LUXEMBOURGISH
GILLES, Peter; HILLAH, Léopold Edem Ayité; HOSSEINI KIVANANI, Nina
2023In Skarnitzl, Radek; Volín, Jan (Eds.) Proceedings of the 20th International Congress of Phonetic Sciences
Peer reviewed
 

Documents


Texte intégral
Lux-ASR - ICPhS_2023_PROCEEDINGS.pdf
Postprint Éditeur (147.26 kB)
Télécharger

Tous les documents dans ORBilu sont protégés par une licence d'utilisation.

Envoyer vers



Détails



Mots-clés :
Luxembourgish; automatic speech recognition (ASR); low-resource language
Résumé :
[en] We have developed an automatic speech recognition (ASR) system tailored to Luxembourgish, a low-resource language that poses distinct challenges for conventional ASR approaches due to the limited availability of training data and inherent multilingual nature. By employing transfer learning, we meticulously fine-tuned an array of models derived from pre-trained wav2vec 2.0 and Whisper checkpoints. These models have been trained on an extensive corpus of various languages and several hundred thousand hours of audio data, utilizing unsupervised and weak supervised methodologies, respectively. This includes linguistically related languages such as German, Dutch, and French, which expedite the cross-lingual training process for Luxembourgish-specific models. Fine-tuning was executed utilizing 67 hours of annotated Luxembourgish speech data sourced from a diverse range of speakers. The optimal word error rate (WER) achieved for wav2vec 2.0 and Whisper models were 9.5 and 12.1, respectively. The remarkably low WERs obtained serve to substantiate the efficacy of transfer learning in the context of ASR for low-resource languages.
Disciplines :
Sciences informatiques
Auteur, co-auteur :
GILLES, Peter  ;  University of Luxembourg > Faculty of Humanities, Education and Social Sciences (FHSE) > Department of Humanities (DHUM)
HILLAH, Léopold Edem Ayité  ;  University of Luxembourg > Faculty of Science, Technology and Medecine (FSTM)
HOSSEINI KIVANANI, Nina  ;  University of Luxembourg > Faculty of Science, Technology and Medicine (FSTM) > Department of Computer Science (DCS)
Co-auteurs externes :
no
Langue du document :
Anglais
Titre :
ASRLUX: AUTOMATIC SPEECH RECOGNITION FOR THE LOW-RESOURCE LANGUAGE LUXEMBOURGISH
Date de publication/diffusion :
2023
Nom de la manifestation :
20. International Conference of Phonetic Sciences (ICPhS)
Organisateur de la manifestation :
University of Prague
Date de la manifestation :
from 07-08-2023 to 11-08-2023
Manifestation à portée :
International
Titre de l'ouvrage principal :
Proceedings of the 20th International Congress of Phonetic Sciences
Editeur scientifique :
Skarnitzl, Radek
Volín, Jan
Maison d'édition :
Guarant International, Prague, Inconnu/non spécifié
ISBN/EAN :
978-80-908114-2-3
Pagination :
3091-3095
Peer reviewed :
Peer reviewed
Focus Area :
Computational Sciences
Disponible sur ORBilu :
depuis le 21 août 2023

Statistiques


Nombre de vues
394 (dont 23 Unilu)
Nombre de téléchargements
214 (dont 10 Unilu)

Bibliographie


Publications similaires



Contacter ORBilu