Format des données
Dans le cas général, il est recommandé de privilégier les formats standards afin d’assurer la conformité aux principes FAIR (Findable, Accessible, Interoperable, Reusable).
Le format NetCDF, recommandé par les pôles de données AERIS et ODATIS, présente plusieurs atouts :
- Est auto-descriptif et permet de stocker des données multidimensionnelles de manière structurée et efficace.
- Offre des fonctionnalités avancées, notamment la compression, avec un taux de réduction pouvant atteindre un facteur 10 selon la nature des données.
- Facilite l’interopérabilité via les conventions CF (Climate and Forecast).
- Est largement utilisé par les communautés scientifiques (atmosphère, océan, climat, etc.).
- Est compatible avec un large éventail d’outils (Python, MATLAB, R, NCO, CDO…).
Pour aller plus loin et répondre à toutes vos question :
Recommandations spécifiques pour les fichiers NetCDF
Voici quelques recommandations pour le formatage des données netCDF :
Format | Utiliser NetCDF‑4 pour bénéficier de la compression intégrée et d’une taille quasi illimitée (limite de ~2 Go par variable). |
Compression | Niveau 5 (sur 0 à 9) : bon compromis entre taille réduite et temps de traitement. |
Concaténation | Grouper les données par période (mensuelle, annuelle, par plateforme, etc.) pour améliorer la gestion, le stockage et la découverte. |
Attributs Globaux | Inclure cinq attributs globaux essentiels pour répondre aux critères de la convention CF. |
Dimension | Utiliser le même nom pour chaque dimension et la variable associée. |
Nom des variables | Employer des lettres minuscules pour éviter les confusions, surtout dans les systèmes sensibles à la casse. |
Attributs des variables | Inclure au minimum standard_name ou long_name , idéalement les deux. |
Type des variables | Privilégier le type float (simple précision, 32 bits) si cela suffit — volume réduit de moitié par rapport au double . |
_FillValue | Utiliser NaN pour l’attribut _FillValue des variables flottantes (float , double ). |
Distribution des données
Granulométrie des données
La granulométrie des données doit être définie de manière pertinente afin d’éviter une multiplication excessive des fiches de métadonnées et des identifiants (DOI), ce qui pourrait nuire à la lisibilité, à la maintenance et à la cohérence des catalogues de données.
L’utilisation du format NetCDF permet de stocker de grandes quantités de données multidimensionnelles dans un seul fichier.
Cela facilite à la fois l’analyse des données et la gestion des fichiers, en centralisant les informations et en assurant une structure cohérente et normalisée.
Catalogue et fiche de métadonnées
Dans les catalogues développés au SEDOO les métadonnées sont présentées sous forme de 5 rubriques :
Information, Download, Statistics, Visualisation, Interoperability (cliquer pour voir le détail)
Information
- Spatial extent
- Temporal extent
- Platforms
- Sites
- Instruments
- Parameters
- Contacts
- Keywords
- Process level
- Milestones
- Information links
- References
- Gallery
- Projects
- Relationships
- Resource type
- Dataset
- Identifiers
- Modifications
Download
- DOI
- How to cite
- Data policy
- Data Download (total size)
- Data Access Permissions
- Opensearch links
- Data Maintenance
- Versions
- Data access
- Formats
- Acknowledgements
Visualisation
- Time series, WMS
Statistics
- Download by day/month/year
- Selected/Total period
- Volume/Total volume
- Total downloader(s) in the period / Total downloaders
- Sources of downloads during this period
Interoperability (FAIR Principles)
- UUID persistent identifier
- Data API
- Catalogue and Metadata API
- le titre de la fiche de métadonnées doit être précis et compréhensible
- une description aussi précise et exhaustive que possible des métadonnées est souhaitable afin de rendre les données pleinement exploitables.
- Une fiche de métadonnées bien renseignée est essentielle pour rendre les données Findable, Accessible, Interoperable et Reusable (FAIR).
- les éléments par rubrique sont souvent optionnels et leur ordre dans la fiche laissé à l’appréciation de la personne qui créer la fiche de métadonnées.
- les mots-clés sont importants (voir indispensables) pour une exploration efficace et ciblée des données.
- Compression
- Taille minimale des fichiers (>4 Mo)