Méisproochegen Iwwersetzungskorpus fir d'Lëtzebuergescht

Name: Méisproochegen Iwwersetzungskorpus fir d'Lëtzebuergescht
Creator: Zenter fir d'Lëtzebuerger Sprooch
License: https://creativecommons.org/publicdomain/zero/1.0/
Keywords: apprentissage-automatique,artificial-intelligence,intelligence-artificielle,machine-learning,memoire-de-traduction,traduction,translation,translation-memory

Description

LËTZEBUERGESCH BESCHREIWUNG:

Méisproochegen Iwwersetzungskorpus fir d’Lëtzebuergescht (Tech-in-GOV 2025)

Dësen Datesaz ass en (parallellen) Iwwersetzungskorpus vu ronn 150.000 Wierder op Lëtzebuergesch, déi vu professionellen Iwwersetzerinne jeeweils op Franséisch, Englesch an Däitsch iwwersat goufen. De lëtzebuergeschen Ausgangstext staamt aus verschiddenen ëffentlech zougängleche Quellen (Noriichtenartikelen, Chamber, Lëtzebuerger Online Dictionnaire etc.) a gouf orthografesch standardiséiert.

Inhalt a Format

D’Iwwersetzunge sinn op zwou Manéieren accessibel, déi jee no Besoin kënne genotzt ginn.

a) Eenzel Sproochekombinatiounen (zweesproocheg Fichieren):
• Lëtzebuergesch-Franséisch (LU-FR)
• Lëtzebuergesch-Däitsch (LU-DE)
• Lëtzebuergesch-Englesch (LU-EN)

b) Méisproochege parallelle Korpus (déi véier Sproochen alignéiert):
• Lëtzebuergesch-Franséisch-Däitsch-Englesch (LU-FR-DE-EN)

All dës Ressourcen (d. h. esouwuel déi dräi zweesproocheg Fichieren ewéi och de méisproochege Masterfichier) gi jeeweils an dräi Formater zur Verfügung gestallt:
• TMX (Versioun 1.4): ideal, fir mat Iwwersetzungssoftware (z. B. memoQ, Trados, OmegaT …) ze schaffen.
• XLSX: ideal fir manuell Workflowen.
• JSONL: ideal fir NLP/ML an Data Science.

Ausriichtung vum parallelle Korpus (“Alignment“)

All Segment/Rei enthält deen nämmlechte Passage an deene véier Sproochen.
Ee Segment entsprécht esouwäit wéi méiglech engem Saz. A ville Fäll ass eng 1:1-Alignéierung op Sazniveau wéinst syntakteschen oder stilisteschen Ënnerscheeder tëscht deene verschiddene Sprooche awer net méiglech. An dësem Fall goufe Sätz esou regruppéiert, datt déi parallel Struktur erhale bleift. Mat anere Wierder: Och wann d‘Unzuel u Sätz jee no Segment variéiert, huet all Segment an deene véier Sproochen déi nämmlecht Bedeitung.

Metadaten

De Metadate-Fichier enthält eng Iwwersiicht vun der Zesummesetzung vum Ausgangstext an eng detailléiert Opschlësselung, an där all Segment mat hirer jeeweileger Quell verlinkt ass.

Mercien

Dëse Projet gouf erméiglecht duerch déi finanziell Ënnerstëtzung vum Ministère fir Digitaliséierung am Kader vun der Initiativ Tech-in-GOV 2025 esouwéi duerch onzieleg Stonnen Aarbecht, déi vu professionellen Iwwersetzerinne geleescht gouf.

ENGLISH DESCRIPTION:

Multilingual Translation Corpus for Luxembourgish (Tech-in-GOV 2025)

This dataset is a (parallel) translation corpus of approximately 150,000 Luxembourgish source words translated into French, German, and English. The Luxembourgish source content, taken from publicly available resources (news articles, Chambre des Députés, Lëtzebuerger Online Dictionnaire etc.), was cleaned up and orthographically standardized. Translations were done by professional translators.

Content and format

The translations are made available in two forms that cater to different use cases.

a) Individual language pairs (bilingual files):
• Luxembourgish- French (LU-FR)
• Luxembourgish-German (LU-DE)
• Luxembourgish-English (LU-EN)

b) Multilingual parallel corpus (all four languages aligned):
• Luxembourgish- French-German-English (LU-FR-DE-EN)

Each of these resources (i.e. the three bilingual sets and the multilingual master file) is provided in three formats:
• TMX (version 1.4): ideal for direct import into CAT tools (e.g. memoQ, Trados, OmegaT …).
• XLSX: ideal for manual workflows.
• JSONL: ideal for NLP/ML and data science.

Alignment of the parallel corpus

Each segment/row contains the same passage in all four languages.
Wherever possible, individual segments correspond to single sentences. Where syntactic or stylistic differences between the languages made strict one-to-one sentence alignment impossible, sentences were grouped together as needed in order to preserve alignment in all four languages. Therefore, while the sentence count per segment may differ, each segment in the parallel corpus conveys the same semantic meaning.

Metadata

The metadata folder contains an overview of the source text's composition, as well as a detailed breakdown linking each individual segment to its original source.

Acknowledgements

This project was made possible thanks to financial support from the Ministry of Digitalisation, through the 2025 edition of its Tech-in-GOV initiative, as well as countless hours of effort by professional translators.

Producer

Zenter fir d'Lëtzebuerger Sprooch

Latest update

May 15, 2026

License

Creative Commons Zero (CC0)

Metadata quality

100.0%

5 Main files

metadaten.zip

Updated on May 15, 2026

zip (7.3MB)

0 downloads

URL: https://download.data.public.lu/resources/meisproochegen-iwwersetzungskorpus-fir-dletzebuergescht/20260515-074840/metadaten.zip
Permalink: https://data.public.lu/en/datasets/r/8d24ebd8-ed6c-4d9a-af54-ec12232a9769
md5: 93afd9bd8a0f058351bc2a1ba64ba0fc-2
MIME Type: application/zip

Created on: May 15, 2026
Modified on: May 15, 2026

Size: 7.3MB

Iwwersiicht vun der Zesummesetzung vum Ausgangstext an eng detailléiert Opschlësselung, an där all Segment mat hirer jeeweileger Quell verlinkt ass.

Overview of the source text’s composition, as well as a detailed breakdown linking each individual segment to its original source.

LU-FR-DE-EN

Updated on May 15, 2026

zip (5.3MB)

0 downloads

URL: https://download.data.public.lu/resources/meisproochegen-iwwersetzungskorpus-fir-dletzebuergescht/20260508-134457/lu-fr-de-en.zip
Permalink: https://data.public.lu/en/datasets/r/4f85f421-89d5-4494-a42a-d9eb0af78995
md5: 3aa7524959348147e0422952f807c96b-2
MIME Type: application/zip

Created on: May 8, 2026
Modified on: May 15, 2026

Size: 5.3MB

Parallelle Korpus / Parallel corpus.

LU-EN.zip

Updated on May 15, 2026

zip (2.6MB)

0 downloads

URL: https://download.data.public.lu/resources/meisproochegen-iwwersetzungskorpus-fir-dletzebuergescht/20260508-134458/lu-en.zip
Permalink: https://data.public.lu/en/datasets/r/454176c9-f688-465f-9d11-eec286b61a5d
md5: 8dba0fdb3266a15ae5e718b79eaea884
MIME Type: application/zip

Created on: May 8, 2026
Modified on: May 15, 2026

Size: 2.6MB

Iwwersetzung aus dem Lëtzebuergeschen an d'Englescht.

Translation from Luxembourgish into English.

LU-FR.zip

Updated on May 15, 2026

zip (2.7MB)

0 downloads

URL: https://download.data.public.lu/resources/meisproochegen-iwwersetzungskorpus-fir-dletzebuergescht/20260508-134457/lu-fr.zip
Permalink: https://data.public.lu/en/datasets/r/348e25a5-2333-4e76-bb43-dae11d46b3d5
md5: eefbbfe7eb135d3824a96e44ac840b89
MIME Type: application/zip

Created on: May 8, 2026
Modified on: May 15, 2026

Size: 2.7MB

Iwwersetzung aus dem Lëtzebuergeschen an d'Franséischt.

Translation from Luxembourgish into French.

LU-DE.zip

Updated on May 15, 2026

zip (2.6MB)

0 downloads

URL: https://download.data.public.lu/resources/meisproochegen-iwwersetzungskorpus-fir-dletzebuergescht/20260508-134455/lu-de.zip
Permalink: https://data.public.lu/en/datasets/r/d2a9e2cb-e44d-47da-8a7a-1b55bacebd7b
md5: f694d1968094c5048230366643d53e60
MIME Type: application/zip

Created on: May 8, 2026
Modified on: May 15, 2026

Size: 2.6MB

Iwwersetzung aus dem Lëtzebuergeschen an d'Däitscht.

Translation from Luxembourgish into German.

There are no reuses for this dataset yet.

Publish a reuse What's a reuse ?

There are no discussions for this dataset yet.

There are no community resources for this dataset yet.

Share your resources Learn more about the community

Information

License

Creative Commons Zero (CC0)

ID

69fde8cc151a9fdd1ce92769

Temporality

Creation

May 8, 2026

Frequency

Punctual

Temporal coverage

2002/07/16 to 2025/10/14

Latest update

May 15, 2026

Spatial coverage

Territorial coverage granularity

Luxembourg

Actions

Embed

<div data-udata-dataset="69fde8cc151a9fdd1ce92769"></div><script  src="https://data.public.lu/static/oembed.js" async defer></script>

The luxembourgish open data platform

Méisproochegen Iwwersetzungskorpus fir d'Lëtzebuergescht

Description

LËTZEBUERGESCH BESCHREIWUNG:

Méisproochegen Iwwersetzungskorpus fir d’Lëtzebuergescht (Tech-in-GOV 2025)

ENGLISH DESCRIPTION:

Multilingual Translation Corpus for Luxembourgish (Tech-in-GOV 2025)

Producer

Latest update

License

Metadata quality:

Metadata quality

Information

Tags

License

ID

Temporality

Creation

Frequency

Temporal coverage

Latest update

Spatial coverage

Territorial coverage granularity

Actions

Embed

Subscribe to our newsletter