Communication publiée dans un ouvrage (Colloques, congrès, conférences scientifiques et actes)
LuxemBERT: Simple and Practical Data Augmentation in Language Model Pre-Training for Luxembourgish
LOTHRITZ, Cedric; LEBICHOT, Bertrand; ALLIX, Kevin et al.
2022In Proceedings of the Language Resources and Evaluation Conference, 2022
Peer reviewed
 

Documents


Texte intégral
LuxemBERT_LREC.pdf
Postprint Auteur (642.82 kB)
Télécharger

Tous les documents dans ORBilu sont protégés par une licence d'utilisation.

Envoyer vers



Détails



Mots-clés :
language modelling; natural language processing; data augmentation
Résumé :
[en] Pre-trained Language Models such as BERT have become ubiquitous in NLP where they have achieved state-of-the-art performance in most NLP tasks. While these models are readily available for English and other widely spoken languages, they remain scarce for low-resource languages such as Luxembourgish. In this paper, we present LuxemBERT, a BERT model for the Luxembourgish language that we create using the following approach: we augment the pre-training dataset by considering text data from a closely related language that we partially translate using a simple and straightforward method. We are then able to produce the LuxemBERT model, which we show to be effective for various NLP tasks: it outperforms a simple baseline built with the available Luxembourgish text data as well the multilingual mBERT model, which is currently the only option for transformer-based language models in Luxembourgish. Furthermore, we present datasets for various downstream NLP tasks that we created for this study and will make available to researchers on request.
Disciplines :
Sciences informatiques
Auteur, co-auteur :
LOTHRITZ, Cedric  ;  University of Luxembourg > Interdisciplinary Centre for Security, Reliability and Trust (SNT) > TruX
LEBICHOT, Bertrand ;  University of Luxembourg > Interdisciplinary Centre for Security, Reliability and Trust (SNT) > TruX
ALLIX, Kevin ;  University of Luxembourg > Interdisciplinary Centre for Security, Reliability and Trust (SNT) > TruX
VEIBER, Lisa ;  University of Luxembourg > Interdisciplinary Centre for Security, Reliability and Trust (SNT) > TruX
BISSYANDE, Tegawendé François D Assise  ;  University of Luxembourg > Interdisciplinary Centre for Security, Reliability and Trust (SNT) > TruX
KLEIN, Jacques  ;  University of Luxembourg > Interdisciplinary Centre for Security, Reliability and Trust (SNT) > TruX
Boytsov, Andrey;  Banque BGL BNP Paribas
Goujon, Anne;  Banque BGL BNP Paribas
Lefebvre, Clément;  Banque BGL BNP Paribas
Co-auteurs externes :
no
Langue du document :
Anglais
Titre :
LuxemBERT: Simple and Practical Data Augmentation in Language Model Pre-Training for Luxembourgish
Date de publication/diffusion :
juin 2022
Nom de la manifestation :
13th Language Resources and Evaluation Conference (LREC 2022)
Organisateur de la manifestation :
European Language Resources Association
Lieu de la manifestation :
Marseille, France
Date de la manifestation :
20.06.2022-25.06.2022
Manifestation à portée :
International
Titre de l'ouvrage principal :
Proceedings of the Language Resources and Evaluation Conference, 2022
Pagination :
5080-5089
Peer reviewed :
Peer reviewed
Focus Area :
Computational Sciences
Disponible sur ORBilu :
depuis le 01 août 2022

Statistiques


Nombre de vues
759 (dont 100 Unilu)
Nombre de téléchargements
401 (dont 49 Unilu)

citations Scopus®
 
13
citations Scopus®
sans auto-citations
9

Bibliographie


Publications similaires



Contacter ORBilu