Les données de la recherche sont des documents factuels (notes numériques, documents textuels, images, sons…) utilisés comme sources primaires pour la recherche scientifique et qui sont communément acceptés dans la communauté scientifique comme étant nécessaires pour valider les résultats de la recherche. Les métadonnées sont un ensemble d’informations structures qui décrit, explicite, localise une ressource informationnelle dans le but d’en faciliter la recherche, l’usage et la gestion. Les données FAIR regroupent un ensemble de principes visant à soutenir la recherche en facilitant la réutilisation des données, facile à trouver (Findable), accessibles (Accessible), interopérables (Interoperable), réutilisables (Reusable).
Cycle de la donnée
Le cycle de la donnée scientifique décrit les étapes clés qu’un jeu de données traverse, de sa conception initiale jusqu’à sa réutilisation. Chaque phase contribue à garantir la qualité, la traçabilité et l’impact maximal des résultats de recherche.
1. Planification et conception
Avant toute collecte, il faut :
– Définir les objectifs de recherche
– Établir un protocole expérimental ou d’observation
– Rédiger un Plan de Gestion des Données (PGD)
– Choisir les formats et standards de métadonnées
Cette phase anticipe les besoins en traitement, stockage et partage.
2. Collecte et acquisition
Les données sont générées ou rassemblées via :
– Expériences en laboratoire ou terrain
– Dispositifs de mesure et capteurs
– Sondages, questionnaires ou interviews
– Importation depuis bases existantes
L’enregistrement doit être horodaté et documenté avec des métadonnées complètes.
3. Traitement et nettoyage
Objectif : transformer les données brutes en données prêtes pour l’analyse.
– Validation de cohérence et contrôle qualité
– Correction d’erreurs et suppression des doublons
– Normalisation des formats (unités, encodages)
– Documentation des scripts et workflows
4. Analyse et interprétation
Les chercheurs explorent et extraient des connaissances :
– Analyses statistiques, modélisation ou apprentissage automatique
– Visualisations graphiques (diagrammes, cartes, réseaux)
– Interprétation des résultats et formulation d’hypothèses
– Rédaction de rapports, publications et présentations
5. Préservation et archivage
Pour assurer la pérennité et l’intégrité :
– Stockage dans des dépôts sécurisés (institutionnels ou thématiques)
-Application des principes FAIR (Findable, Accessible, Interoperable, Reusable)
– Sauvegardes redondantes et contrôles d’intégrité
– Documentation complète du contexte et des méthodes
6. Partage et diffusion
– Faciliter l’accès et la visibilité :
– Dépôt de données dans des plateformes ouvertes ou sur demande
– Attribution de DOI ou identifiants pérennes
– Respect des licences et des conditions d’accès
– Promotion via conférences, réseaux sociaux et publications
7. Réutilisation et valorisation
Les données peuvent servir à :
– Analyser avec de nouvelles méthodes
– Contribuer à des méta-analyses ou des revues systémiques
– Alimenter des bases de données agrégées
– Générer des collaborations interdisciplinaires
Chaque réutilisation doit citer la source et respecter les droits associés.
Plan de gestion de données
Un plan de gestion des données (PGD) précise comment les données d’un projet de recherche seront créées, traitées, partagées et archivées. Il favorise la transparence, la reproductibilité et la pérennité des résultats scientifiques. Ce document structure l’ensemble des pratiques autour des données, de la planification initiale jusqu’à leur réutilisation.
1. Contexte et objectifs du projet
Ce volet décrit le cadre général du projet et la nature des données attendues.
– Présenter l’objectif scientifique ou technologique principal.
– Identifier les types de données (expérimentales, observationnelles, simulations, enquêtes).
– Expliquer l’importance et l’usage prévu des données.
2. Origine et collecte des données
– Détailler les méthodes pour générer ou acquérir les données.
– Protocoles expérimentaux, capteurs ou instruments utilisés.
– Critères d’échantillonnage et calendrier de collecte.
– Normes et formats choisis pour assurer l’interopérabilité.
3. Documentation et métadonnées
– Assurer que chaque jeu de données est compréhensible et réutilisable.
– Définir les schémas de métadonnées (Dublin Core, DataCite, JSON-LD…).
– Élaborer un dictionnaire de données décrivant variables, unités et codages.
– Décrire les workflows et scripts de traitement passés ou à venir.
4. Stockage et sauvegarde
– Garantir la disponibilité et la sécurité des données en cours de projet.
– Localisation des serveurs ou clouds utilisés.
– Fréquence des sauvegardes et redondance des copies.
– Mesures de sécurité (chiffrement, contrôle d’accès, authentification).
5. Partage et accessibilité
– Déterminer comment et quand les données seront rendues accessibles.
– Choix de la plateforme (dépot institutionnel, Zenodo, Dataverse, etc.).
– Licences et conditions d’utilisation (CC-BY, CC0, licence sur mesure).
– Calendrier de publication (données brutes, traits préparés, jeux finis).
6. Sécurité et confidentialité
– Protéger les données sensibles et respecter les réglementations.
– Identification des données à caractère personnel ou confidentielles.
– Mesures de pseudonymisation ou anonymisation.
– Conformité au RGPD et aux protocoles éthiques.
7. Archivage et préservation à long terme
– Planifier la conservation post-projet pour garantir la pérennité.
– Choix d’un dépôt pérenne avec DOI ou identifiant pérenne.
– Formats de fichiers favorisant l’ouverture future (CSV, NetCDF, TIFF).
– Stratégie de migration périodique et vérification d’intégrité (checksums).
8. Responsabilités et gouvernance
– Attribuer clairement les rôles et responsabilités au sein de l’équipe : coordination du PGD, suivi du respect des bonnes pratiques, mise en place des infrastructures de stockage et de sauvegarde, validation des métadonnées et des protocoles de partage, conseil sur la protection des données personnelles et conformité
9. Budget et ressources
– Estimer les coûts et ressources nécessaires pour mettre en œuvre le PGD.
– Licences de logiciels ou services cloud.
– Temps-personne pour documentation, formation et maintenance.
– Matériel de stockage ou infrastructures supplémentaires.
10. Suivi, révision et mise à jour
– Prévoir comment le PGD évoluera avec le projet.
– Fréquence des réunions de suivi (mensuelles, trimestrielles).
– Procédure de modification formelle du PGD.
– Indicateurs de conformité et tableaux de bord de suivi.
Entrepôt de données
Les entrepôts de données sont des plateformes sur lesquelles sont déposés, décrits et conservés des jeux de données de la recherche. Les entrepôts peuvent être généralistes ou disciplinaires. Les fonctionnalités d’un entrepôt de données sont :
– l’assignation d’un identifiant pérenne de type DOI qui permet de citer les données et qui constitue une brique de base pour établir le lien avec d’autres produits de la recherche comme les publications
– la description des données à un niveau suffisant pour en faciliter la découverte, la compréhension et la réutilisation
– l’utilisation de licences et la définition de règles d’accès permettant d’inscrire la réutilisation dans un cadre légal bien défini et compatible avec le droit français et européen,
– une durée de conservation minimale de plusieurs années, cohérente avec la politique des données de l’établissement de rattachement.
La plateforme Recherche Data Gouv peut également orienter les dépôts vers les entrepôts thématiques certifiés.
L’entrepôt de données Inserm (EDI) est un espace dédié sur la plateforme Recherche Data Gouv qui permet de préserver, partager et ouvrir les données de recherche de l’Inserm selon les principes FAIR (Findable, Accessible, Interoperable, Reusable). Cette infrastructure, mise à disposition par le ministère de la Recherche, s’inscrit dans la stratégie de science ouverte de l’Institut. Les avantages pour les chercheurs sont la structuration et sauvegarde sécurisée des données à moyen et long terme, la visibilité accrue des projets grâce à l’exposition des métadonnées, la reconnaissance de l’engagement en science ouverte lors des évaluations internes et la possibilité de valoriser la collaboration et la réutilisation par d’autres équipes.