Méisproochegen Iwwersetzungskorpus fir d'Lëtzebuergescht
Description
LËTZEBUERGESCH BESCHREIWUNG:
Méisproochegen Iwwersetzungskorpus fir d’Lëtzebuergescht (Tech-in-GOV 2025)
Dësen Datesaz ass e (parallellen) Iwwersetzungskorpus vu ronn 150.000 Wierder op Lëtzebuergesch, déi vu professionellen Iwwersetzerinne jeeweils op Franséisch, Englesch an Däitsch iwwersat goufen. De lëtzebuergeschen Ausgangstext staamt aus verschiddenen ëffentlech zougängleche Quellen (Noriichtenartikelen, Chamber, Lëtzebuerger Online Dictionnaire etc.) a gouf orthografesch standardiséiert.
Inhalt a Format
D’Iwwersetzunge sinn op zwou Manéieren accessibel, déi jee no Besoin kënne genotzt ginn.
a) Eenzel Sproochekombinatiounen (zweesproocheg Fichieren):
• Lëtzebuergesch-Franséisch (LU-FR)
• Lëtzebuergesch-Däitsch (LU-DE)
• Lëtzebuergesch-Englesch (LU-EN)
b) Méisproochege parallelle Korpus (déi véier Sproochen alignéiert):
• Lëtzebuergesch-Franséisch-Däitsch-Englesch (LU-FR-DE-EN)
All dës Ressourcen (d. h. esouwuel déi dräi zweesproocheg Fichieren ewéi och de méisproochege Masterfichier) gi jeeweils an dräi Formater zur Verfügung gestallt:
• TMX (Versioun 1.4): ideal, fir mat Iwwersetzungssoftware (z. B. memoQ, Trados, OmegaT …) ze schaffen.
• XLSX: ideal fir manuell Workflowen.
• JSONL: ideal fir NLP/ML an Data Science.
Ausriichtung vum parallelle Korpus (“Alignment“)
All Segment/Rei enthält deen nämmlechte Passage an deene véier Sproochen.
Ee Segment entsprécht esouwäit wéi méiglech engem Saz. A ville Fäll ass eng 1:1-Alignéierung op Sazniveau wéinst syntakteschen oder stilisteschen Ënnerscheeder tëscht deene verschiddene Sprooche awer net méiglech. An dësem Fall goufe Sätz esou regruppéiert, datt déi parallel Struktur erhale bleift. Mat anere Wierder: Och wann d‘Unzuel u Sätz jee no Segment variéiert, huet all Segment an deene véier Sproochen déi nämmlecht Bedeitung.
Mercien
Dëse Projet gouf erméiglecht duerch déi finanziell Ënnerstëtzung vum Ministère fir Digitaliséierung am Kader vun der Initiativ Tech-in-GOV 2025 esouwéi duerch onzieleg Stonnen Aarbecht, déi vu professionellen Iwwersetzerinne geleescht gouf.
ENGLISH DESCRIPTION:
Multilingual Translation Corpus for Luxembourgish (Tech-in-GOV 2025)
This dataset is a (parallel) translation corpus of approximately 150,000 Luxembourgish source words translated into French, German, and English. The Luxembourgish source content, taken from publicly available resources (news articles, Chambre des Députés, Lëtzebuerger Online Dictionnaire etc.), was cleaned up and orthographically standardized. Translations were done by professional translators.
Content and format
The translations are made available in two forms that cater to different use cases.
a) Individual language pairs (bilingual files):
• Luxembourgish- French (LU-FR)
• Luxembourgish-German (LU-DE)
• Luxembourgish-English (LU-EN)
b) Multilingual parallel corpus (all four languages aligned):
• Luxembourgish- French-German-English (LU-FR-DE-EN)
Each of these resources (i.e. the three bilingual sets and the multilingual master file) is provided in three formats:
• TMX (version 1.4): ideal for direct import into CAT tools (e.g. memoQ, Trados, OmegaT …).
• XLSX: ideal for manual workflows.
• JSONL: ideal for NLP/ML and data science.
Alignment of the parallel corpus
Each segment/row contains the same passage in all four languages.
Wherever possible, individual segments correspond to single sentences. Where syntactic or stylistic differences between the languages made strict one-to-one sentence alignment impossible, sentences were grouped together as needed in order to preserve alignment in all four languages. Therefore, while the sentence count per segment may differ, each segment in the parallel corpus conveys the same semantic meaning.
Acknowledgements
This project was made possible thanks to financial support from the Ministry of Digitalisation, through the 2025 edition of its Tech-in-GOV initiative, as well as countless hours of effort by professional translators.
Producer
Latest update
May 8, 2026
License
Metadata quality:
Data description filled
Files documentation missing
License filled
Update frequency followed
File formats are open
Temporal coverage not set
Spatial coverage not set
Metadata quality
Files documentation missing
Temporal coverage not set
Spatial coverage not set
There are no reuses for this dataset yet.
There are no discussions for this dataset yet.
There are no community resources for this dataset yet.
Information
Tags
License
ID
69fde8cc151a9fdd1ce92769
Temporality
Creation
May 8, 2026
Frequency
Punctual
Latest update
May 8, 2026