Communication publiée dans un périodique (Colloques, congrès, conférences scientifiques et actes)
Text Generation Models for Luxembourgish with Limited Data: A Balanced Multilingual Strategy
PLUM, Alistair; Ranasinghe, Tharindu; PURSCHKE, Christoph
2025In International Conference on Computational Linguistics (COLING), p. 93–104
Peer reviewed
 

Documents


Texte intégral
2025.vardial-1.7.pdf
Postprint Éditeur (270.46 kB) Licence Creative Commons - Attribution
Télécharger

Tous les documents dans ORBilu sont protégés par une licence d'utilisation.

Envoyer vers



Détails



Mots-clés :
CuCo Lab
Résumé :
[en] This paper addresses the challenges in developing language models for less-represented languages, with a focus on Luxembourgish. Despite its active development, Luxembourgish faces a digital data scarcity, exacerbated by Luxembourg`s multilingual context. We propose a novel text generation model based on the T5 architecture, combining limited Luxembourgish data with equal amounts, in terms of size and type, of German and French data. We hypothesise that a model trained on Luxembourgish, German, and French will improve the model`s cross-lingual transfer learning capabilities and outperform monolingual and large multilingual models. To verify this, the study at hand explores whether multilingual or monolingual training is more beneficial for Luxembourgish language generation. For the evaluation, we introduce LuxGen, a text generation benchmark that is the first of its kind for Luxembourgish.
Disciplines :
Langues & linguistique
Sciences informatiques
Auteur, co-auteur :
PLUM, Alistair  ;  University of Luxembourg > Faculty of Humanities, Education and Social Sciences (FHSE) > Department of Humanities (DHUM) > Luxembourg Studies
Ranasinghe, Tharindu
PURSCHKE, Christoph  ;  University of Luxembourg > Faculty of Humanities, Education and Social Sciences (FHSE) > Department of Humanities (DHUM) > Luxembourg Studies
Co-auteurs externes :
yes
Langue du document :
Anglais
Titre :
Text Generation Models for Luxembourgish with Limited Data: A Balanced Multilingual Strategy
Date de publication/diffusion :
janvier 2025
Nom de la manifestation :
VarDial @ COLING
Date de la manifestation :
2025
Manifestation à portée :
International
Titre du périodique :
International Conference on Computational Linguistics (COLING)
Maison d'édition :
Association for Computational Linguistics, Abu dhabi uae
Pagination :
93–104
Peer reviewed :
Peer reviewed
Disponible sur ORBilu :
depuis le 29 janvier 2025

Statistiques


Nombre de vues
124 (dont 9 Unilu)
Nombre de téléchargements
44 (dont 3 Unilu)

Bibliographie


Publications similaires



Contacter ORBilu