Fiche d’information – Publication de qualité de jeux de données

Introduction

Cette notice d’information a été élaborée pour vous aider à publier des jeux de données de qualité, permettant une réutilisation facilitée des données et cela surtout dans le contexte d'une initiative d'ouverture des données.

La qualité des données est essentielle pour assurer leur utilité et leur impact. Voici les 3 étapes clés et les meilleures pratiques pour garantir que vos données répondent aux normes de qualité.

Évaluer le niveau de qualité d’un jeu de données

= Nettoyer, structurer et formater les données pour garantir leur exactitude et leur utilité.

  • S’assurer que les données soient correctes
  • S’assurer que les jeux de données soient complets

Les données doivent être exhaustives, dans la limite des contraintes légales liées à la protection des données personnelles.

  • S’assurer de structurer les données (par exemple : une colonne par variable)
  • Essayer de publier des données primaires

Il s'agit de données collectées directement à la source, non agrégées, et fournies avec le plus haut niveau de granularité possible.

Préparer un jeu de données de qualité

= Fournir des descriptions détaillées, des métadonnées et des instructions d'utilisation pour rendre les données compréhensibles et faciles à utiliser.

Il s’agit de structurer les données :

  • S’assurer d’utiliser des en-têtes clairs : un titre explicite et concis
  • S’assurer de fournir une description du contenu, voire éventuellement une description de la source et de la méthode de collecte des données

Exemple :

  • S’assurer d’ajouter des mots-clés pertinents pour faciliter la recherche (plusieurs langues sont possibles)

Exemple :

  • S’assurer de spécifier la licence sous laquelle les données sont publiées (par exemple, Creative Commons). La politique gouvernementale préconise le choix de la licence CC-0.

Les données doivent être fournies dans des formats ouverts et réutilisables. Par exemple, le format PDF n'est pas considéré comme réutilisable car il ne permet pas une intégration directe dans des logiciels pour traitement ultérieur. Pour le Luxembourg, l'application de la famille de licences Creative Commons est fortement recommandée, avec une nette préférence pour la licence Creative Commons Zero CC0 : il s'agit de l'option "aucun droit d'auteur réservé" de la boîte à outils Creative Commons, qui signifie effectivement l'abandon de tous les droits d'auteur et droits similaires que vous détenez sur une œuvre et l'affectation de ces droits au domaine public.

Pour en savoir plus, consultez notre fiche d'information Open data sur l'usage de licences.

Le format de la donnée :

  • S’assurer d’utiliser des formats ouverts et largement acceptés (par exemple ; CSV, JSON, XML,...) Eviter les PDF qui rendent des réutilisations difficiles. Pour les données géospatiales, utilisez des formats comme (par exemple ; GeoJSON, KML, Shapefile,...).

Améliorer la qualité d’un jeu de données en continu

= Mettre en place des processus de révision et de mise à jour réguliers pour maintenir la pertinence et l'exactitude des données.

  • S’assurer que les données soient actualisées régulièrement

Les données doivent être actuelles, idéalement en temps réel, pour maximiser leur pertinence. Pour ce faire il est par exemple possible d’envisager des révisions périodiques des données. Cette démarche permettra d’assurer la continuité du flux des données et par conséquent leur pertinence.

  • S’assurer de maintenir un canal de communication ouvert pour les retours et les mises à jour.

Impliquez-vous dans la relation avec les usagers, qu'il s'agisse de citoyens, d'entreprises ou de développeurs, aussi souvent que possible. Cela permettra de garantir que la prochaine itération du service sera aussi pertinente que possible. Il est essentiel de garder à l'esprit qu'une grande partie des données n'atteindront pas directement les utilisateurs finaux, mais plutôt par l'intermédiaire de personnes qui utilisent les données et les transforment ou les remixent pour les présenter à d'autres.

  • Bonus : ne pas hésiter à utiliser les réseaux sociaux ou d’autres canaux pour promouvoir vos jeux de données.
  • Bonus : ne pas hésiter à collaborer avec d’autres organismes pour élargir la portée des données.

Conclusion

En suivant ces lignes directrices, vous contribuerez à la création et à la maintenance de jeux de données de haute qualité sur data.public.lu. Des données bien préparées et documentées sont essentielles pour soutenir la recherche, l'innovation et la transparence au Luxembourg.

Pour de plus amples informations n’hésitez pas à consulter les pages suivantes :