Bonnes pratiques et recommandations

Bonnes pratiques et recommandations

Format des données

Dans le cas général, il est recommandé de privilégier les formats standards afin d’assurer la conformité aux principes FAIR (Findable, Accessible, Interoperable, Reusable).
Le format NetCDF, recommandé par les pôles de données AERIS et ODATIS, présente plusieurs atouts :

  1. Est auto-descriptif et permet de stocker des données multidimensionnelles de manière structurée et efficace.
  2. Offre des fonctionnalités avancées, notamment la compression, avec un taux de réduction pouvant atteindre un facteur 10 selon la nature des données.
  3. Facilite l’interopérabilité via les conventions CF (Climate and Forecast).
  4. Est largement utilisé par les communautés scientifiques (atmosphère, océan, climat, etc.).
  5. Est compatible avec un large éventail d’outils (Python, MATLAB, R, NCO, CDO…).

Recommandations spécifiques pour les fichiers NetCDF

Voici quelques recommandations pour le formatage des données netCDF :

FormatUtiliser NetCDF‑4 pour bénéficier de la compression intégrée et d’une taille quasi illimitée (limite de ~2 Go par variable).
CompressionNiveau 5 (sur 0 à 9) : bon compromis entre taille réduite et temps de traitement.
ConcaténationGrouper les données par période (mensuelle, annuelle, par plateforme, etc.) pour améliorer la gestion, le stockage et la découverte.
Attributs GlobauxInclure cinq attributs globaux essentiels pour répondre aux critères de la convention CF.
DimensionUtiliser le même nom pour chaque dimension et la variable associée.
Nom des variablesEmployer des lettres minuscules pour éviter les confusions, surtout dans les systèmes sensibles à la casse.
Attributs des variablesInclure au minimum standard_name ou long_name, idéalement les deux.
Type des variablesPrivilégier le type float (simple précision, 32 bits) si cela suffit — volume réduit de moitié par rapport au double.
_FillValueUtiliser NaN pour l’attribut _FillValue des variables flottantes (float, double).
Options de formatage des données netCDF

Distribution des données

Granulométrie des données

La granulométrie des données doit être définie de manière pertinente afin d’éviter une multiplication excessive des fiches de métadonnées et des identifiants (DOI), ce qui pourrait nuire à la lisibilité, à la maintenance et à la cohérence des catalogues de données.

L’utilisation du format NetCDF permet de stocker de grandes quantités de données multidimensionnelles dans un seul fichier.
Cela facilite à la fois l’analyse des données et la gestion des fichiers, en centralisant les informations et en assurant une structure cohérente et normalisée.

Catalogue et fiche de métadonnées

Dans les catalogues développés au SEDOO les métadonnées sont présentées sous forme de 5 rubriques :

Information, Download, Statistics, Visualisation, Interoperability (cliquer pour voir le détail)

Information

  • Spatial extent
  • Temporal extent
  • Platforms
  • Sites
  • Instruments
  • Parameters
  • Contacts
  • Keywords
  • Process level
  • Milestones
  • Information links
  • References
  • Gallery
  • Projects
  • Relationships
  • Resource type
  • Dataset
  • Identifiers
  • Modifications

Download

  • DOI
  • How to cite
  • Data policy
  • Data Download (total size)
  • Data Access Permissions
  • Opensearch links
  • Data Maintenance
  • Versions
  • Data access
  • Formats
  • Acknowledgements

Visualisation

  • Time series, WMS

Statistics

  • Download by day/month/year
    • Selected/Total period
    • Volume/Total volume
    • Total downloader(s) in the period / Total downloaders
  • Sources of downloads during this period

Interoperability (FAIR Principles)

  • UUID persistent identifier
  • Data API
  • Catalogue and Metadata API

  • le titre de la fiche de métadonnées doit être précis et compréhensible
  • une description aussi précise et exhaustive que possible des métadonnées est souhaitable afin de rendre les données pleinement exploitables.
  • Une fiche de métadonnées bien renseignée est essentielle pour rendre les données Findable, Accessible, Interoperable et Reusable (FAIR).
  • les éléments par rubrique sont souvent optionnels et leur ordre dans la fiche laissé à l’appréciation de la personne qui créer la fiche de métadonnées.
  • les mots-clés sont importants (voir indispensables) pour une exploration efficace et ciblée des données.
  • Compression
  • Taille minimale des fichiers (>4 Mo)

Rechercher