Baromètre Inserm de la Science Ouverte

Contenu :

Le Baromètre des Publications

Conformément à son engagement dans la politique de Science Ouverte, l’Inserm propose son baromètre.

Mis en place par le Ministère de l’Enseignement supérieur et de la Recherche (MESR) dans le cadre du Plan National pour la Science Ouverte, le baromètre de la science ouverte (BSO) illustre le pourcentage et l’évolution des publications en accès ouvert, c’est-à-dire mises en ligne sans barrière technique ou financière.

Le BSO Inserm a été mesuré par le Département de la Science Ouverte (DSO) à partir du code et des données mis à disposition par le MESR dans la nouvelle version du baromètre national 2024.

L’année principalement illustrée ici est 2023. L’évolution globale est présentée de 2018 à 2023. Seules les publications scientifiques dont au moins un auteur est affilié à l’Inserm et qui possèdent un DOI ont été prises en compte.

L’accent a été mis pour distinguer ce qui relève d’un accès ouvert immédiat avec licence libre (gold) d’un accès ouvert potentiellement différé (libre éditeur et archive ouverte).

Les données sur les dépenses en frais de publication Open Access ou Article Processing Charges (APC) proviennent de sources internes à l’Institut, de même que le nombre de preprints dans bioRxiv et medRiv.

Proportion des publications en accès ouvert en 2023 (mesuré en décembre 2024)

84.2% des publications Inserm sont en accès ouvert

Commentaire

Le flow illustre, pour l’ensemble des publications Inserm, les proportions en accès ouvert et fermé et s’affine par la suite pour discriminer la présence en archives ouvertes et chez les éditeurs ainsi que le type d’ouverture.

Evolution de l’accès ouvert 2018-2023

Commentaire

Ce graphique présente, pour chaque année d’observation depuis 2019, le taux d’accès ouvert des publications scientifiques de l’Inserm, avec un DOI Crossref, parues durant l’année précédente.
Ainsi, 83.5 % des publications scientifiques de l’Inserm, avec un DOI Crossref, publiées en 2022 étaient en accès ouvert en 2023 (date d’observation). Pour l’année de publication 2023, ce taux s’élève à 84.5 %. Le taux d’accès a donc évolué de 1.0 point(s) en une année.

Commentaire

Ce graphique présente, pour chaque date d’observation, le taux d’accès ouvert des publications scientifiques de l’Inserm, avec un DOI Crossref, par date de publication. Chaque courbe représente les taux d’ouverture constatés pour une date d’observation, et les taux d’ouverture sont exprimés en fonction de l’année de parution des publications. Pour chaque année de publication, on observe que le taux d’accès ouvert augmente en fonction de la date à laquelle est effectuée l’observation. Cela est dû au processus de libération des publications les plus récentes par l’expiration des barrières mobiles ou les dépôts sur archives ouvertes après une période d’embargo.
Ainsi, le taux d’accès ouvert des publications parues en 2020 est passé de 74.9 % en 2021 à 81.1 % en 2024. Lorsque le taux d’accès ouvert est plus élevé pour la dernière année de publication que pour les années précédentes, cela témoigne d’un raccourcissement des délais dans la mise à disposition en accès ouvert.

Taux d’accès ouvert par éditeur et par année d’observation

Commentaire

Pour chaque d’année d’observation depuis 2019, ce graphique représente la part des publications scientifiques de l’Inserm, avec un DOI Crossref, parues durant l’année précédente qui sont mises à disposition en accès ouvert par leur éditeur. Certaines de ces publications peuvent être hébergées simultanément sur une archive ouverte. En revanche, les publications qui sont hébergées uniquement sur une archive ouverte ne sont pas prises en compte.
Ainsi, en 2024, 73 % des publications scientifiques de l’Inserm, avec un DOI Crossref, parues en 2023 étaient mises à disposition en accès ouvert par leur éditeur.
Le graphique permet d’effectuer un tri en fonction de l’éditeur ou de la plateforme de publication, lorsque celle-ci agrège les contenus de plusieurs éditeurs : il est alors possible de visualiser, pour chaque éditeur ou plateforme, la part des publications qu’il met à disposition en accès ouvert.

Commentaire

Ce graphique présente, pour chaque année d’observation et par date de parution, la part des publications scientifiques de l’Inserm, avec un DOI Crossref, qui sont mises à disposition en accès ouvert par leur éditeur. Chaque courbe représente les taux constatés à une date d’observation, et les taux sont exprimés en fonction du volume de publications parues dans l’année observée. On observe que, pour les publications parues une année donnée, le taux de mise à disposition en accès ouvert par l‘éditeur varie d’une date d’observation à l’autre. Cela est dû par exemple au processus de libération des publications les plus récentes par l’expiration des barrières mobiles.
Ainsi, entre 2021 et 2024, la part des publications parues en 2018 qui sont mises à disposition en accès ouvert par leur éditeur est passé de 50% à 73%.

Taux d’accès ouvert par discipline en 2023

Commentaire

Le graphique illustre les taux d’accès ouvert ou fermé par discipline et par type d’accès ouvert pour l’année 2023.
La majorité des publications affiliées Inserm se trouvent dans les domaines de la Biologie et des Sciences Médicales.
Il est intéressant de relever que parmi ces deux champs disciplinaires, les proportions de publications en accès ouvert varient de manière significative. En particulier, la proportion d’articles gold est plus élevée en biologie : 46,5%, qu’en sciences médicales : 38%.

Présence en archives ouvertes par année d’observation

Commentaire

Pour chaque d’année d’observation depuis 2019, le graphique représente la part des publications scientifiques de l’Inserm, avec un DOI Crossref, parues durant l’année précédente qui sont hébergées sur une archive ouverte. Certaines de ces publications peuvent être simultanément mises à disposition en accès ouvert par leur éditeur.
Ainsi, en 2024, 70 % des publications scientifiques de l’Inserm, avec un DOI Crossref, parues en 2023 étaient hébergées sur une archive ouverte.
Le graphique permet de sélectionner une plateforme d’archives ouvertes et de visualiser la part des publications scientifiques de l’Inserm, avec un DOI Crossref, parues durant l’année précédente qui y sont hébergées.

Commentaire

Ce graphique présente, pour chaque date d’observation et par année de publication, le taux de publications scientifiques de l’Inserm, avec un DOI Crossref, qui sont hébergées sur une archive ouverte. Chaque courbe représente les taux constatés pour une date d’observation et chaque taux est exprimé en fonction du volume de publications parues dans l’année observée. On observe que, pour les publications parues durant une année donnée, les taux de disponibilité sur une archive ouverte progressent d’une année d’observation à l’autre. Cela est dû au fait que les auteurs des publications procèdent progressivement à leur dépôt en archive ouverte, en particulier lorsque les embargos imposés par les éditeurs ont expiré.
Ainsi, entre 2019 et 2024, le taux des publications parues en 2018 qui sont hébergées sur une archive ouverte est passé de 58% à 70%.

Evolution des frais de publications Open Access


Commentaire

Les dépenses en APC issues d’auteurs correspondants Inserm sont évaluées depuis 2015 jusqu’à 2023. D’avantage d’informations sur le site Inserm

Evolution des dépôts de preprints dans bioRxiv et medRxiv

Commentaire

Le nombre de preprints dont au moins un auteur est affilié à l’Inserm est présenté.
Les DOI des preprints ont été répertoriés en fonction de l’année du dépôt de la première version avant toute publication potentielle.

La méthodologie

Les sources de données

Les données des publications 2013 à 2023 dont au moins un auteur est affilié à l’Inserm et possédant un DOI, sont issues d’extractions réalisées en décembre 2024, à partir des plateformes HAL, Web of Science et PubMed.
Les données sur les dépenses Inserm en frais de publication Open Access ou Article Processing Charges (APC) ont été recueillies a partir des données comptables dans le cadre de l’enquête nationale du réseau Couperin et ont été versées sur la plateforme OpenAPC.
Les données de preprints (2013 à 2023 pour bioRxiv et 2019 à 2023 pour medRxiv) dont au moins un auteur est affilié à l’Inserm sont répertoriées dans un fichier Excel en fonction de l’année du dépôt de la première version.

La procédure

Après extraction depuis les bases de données citées précédemment, les DOI de toutes les publications 2013-2023 sont isolés conformément à la méthode indiquée dans le BSO de l’Université de Lorraine.
Ces données sont ensuite croisées et enrichies par le MESR grâce à l’API UnPaywall qui permet d’établir une correspondance entre le DOI et divers champs d’informations qui permettront les traitements ultérieurs et donc la génération d’indicateurs pertinents.
Le MESR, après traitement des données transmises par les institutions, met également à disposition de ces dernières les visualisations élaborées pour réutilisation dans le cadre de leur propre baromètre.

Dans une perspective d’uniformité, seules les publications de type « article de revue » identifiées par un DOI sont prises en compte.

Le code du baromètre

Le code utilisé s’appuie sur celui de l’Université de Lorraine. Les catégories et les requêtes ont cependant été modifiées pour distinguer : 1) l’accès fermé, 2) le gold, 3) le libre éditeur et 4) la présence en archives ouvertes, notamment sur le graphique relatif aux champs disciplinaires.
La visualisation relative à la proportion des publications en accès ouvert pour 2023, s’appuie quant à elle sur les classifications d’Unpaywall.
Avec la publication du nouveau baromètre du MESR et des nouvelles procédures mises en place, certaines visualisations ont été générées à partir du baromètre Français de la Science Ouverte.
Les visualisations produites par le DSO Inserm ont été élaborées à partir des librairies Highcharts et Plotly.

Une mention au bas des graphiques précise la source.

Le code, les données et les requêtes sont en ligne sur GitHub : https://github.com/Inserm-IST/BSO-Inserm.

Dates de mise à jour

  • Données : décembre 2024
  • Code : février 2025

Le Baromètre Santé

Le deuxième Plan national pour la Science Ouverte ambitionne de promouvoir l’ouverture de la science au-delà des publications.
Il prévoit ainsi de développer le baromètre de la science ouverte en introduisant de nouveaux indicateurs, en particulier, le suivi des études en santé, notamment des essais cliniques.

Actuellement, le Ministère de l’enseignement supérieur de la recherche publie le Baromètre santé de la Science Ouverte, celui-ci couvre l’ensemble des études en santé en France.

Suivant cette initiative, l’Inserm a décidé de créer sa déclinaison du baromètre santé, couvrant les études en santé dont il est le promoteur, en portant une attention particulière aux points suivants :

  • L’inclusion de tous les types d’études en santé :
    Les essais cliniques (y compris non-médicamenteux) ainsi que les études observationnelles.
  • La Prise en compte des résultats d’études négatifs :
    Comme le souligne le MESR :« … les résultats d’essais cliniques négatifs ou peu concluants, qui sont difficiles à valoriser dans une publication scientifique, soient bien rendus publics et correctement diffusés. Ils constituent en effet des apports précieux sur le plan scientifique et les essais dont ils découlent ne devraient pas être ignorés ou inutilement dupliqués. »

La méthodologie

Les données utilisées pour élaborer ces graphiques ont été extraites de la plateforme ClinicalTrials, mise en place par le NIH et sur laquelle l’Inserm s’est engagé à déclarer l’ensemble des essais cliniques et études observationnelles dont il est le promoteur.

Les requêtes ont été lancées sur l’API Clinical Trials pour récupérer les études satisfaisant les critères suivants :

  • Ayant pour sponsors l’INSERM, l’ANRS et leurs variations possibles.
  • Qui sont terminées.
  • Dont la date de fin se situe entre le 01/01/2013 et le 31/12/2022.

Dans une perspective d’homogénéité, seules les études dont le statut est « COMPLETED » ont été prises en compte.
Ce sont les essais qui se sont terminés sans encombre et comme prévu, les patients ne sont plus traités ni suivis.

Après la collecte des études et des PMID des publications associées, nous avons utilisé les API de :

  • PubMed pour enrichir ces publications avec le titre, les auteurs, le DOI, etc.
  • Unpaywall pour récupérer le statut Open Access de ces publications.
  • OpenAlex pour retrouver le domaine de recherche des publications.

Enfin, un traitement manuel a été effectué afin de vérifier la nature de ces publications collectées automatiquement et d’exclure celles ne correspondant pas à un résultat (backgrounds, protocoles, lettres aux éditeurs, erratum, etc.).

Les requêtes et le traitement des données sont exécutés au sein d’un Notebook Jupyter accessible à l’adresse: https://github.com/Inserm-IST/BSO-Inserm-Sante.
Les visualisations ont été élaborées à partir des bibliothèques Highcharts for Python et Plotly.

Taux de publications faisant suite à des études dont le promoteur est l’Inserm

Parmi ces études, 78 ont donné lieu à au moins une publication de résultats dans une revue, soit un taux de publication de 41%.

15 études (7,9 %) ont publié des résultats négatifs.

Nombre d’études avec communication de résultats par année de fin

Les chiffres des dernières années sont susceptibles d’évoluer, car les chercheurs déclarent souvent la fin de leurs études sur les plateformes après la date réelle de conclusion.

Nombre d’études avec communication de résultats par type d’étude


Nous nous intéressons au nombre d’études ayant donné lieu à au moins publication de résultats dans un journal, en fonction de leur nature (essai clinique ou étude observationnelle).

Nous constatons que les essais cliniques sont majoritaires par rapport aux études observationnelles.

Nous observons également un léger avantage en termes de publication pour les essais cliniques, avec un taux de publication de 43%, contre 37% pour les études observationnelles.

Délai entre la fin de l’étude et la première publication dans un journal

Nous nous intéressons au délai entre la fin de l’étude et la première publication de résultats dans un journal.

Une valeur négative indique que la première publication de résultats a eu lieu avant la fin de l’étude.
Il est courant pour les études de longue durée de donner lieu à plusieurs publications au fil de l’étude.
Par exemple, si une étude dure 20 ans mais publie des résultats 5 ans après son début, on obtiendra une valeur de -15 ans.

À l’autre extrême, nous remarquons une étude dont la première publication de résultats s’est faite 9,5 ans après sa fin.

Durée des études

Nous nous intéressons à la durée des études en fonction de la nature de l’étude (essai clinique ou étude observationnelle).

L’étude la plus courte a une durée de 61 jours, la plus longue 21,3 années.
La durée moyenne des études est de 3,67 ans.

Nous constatons que les études les plus longues sont des études observationnelles.

Statut OpenAccess des résultats publiés :

Les statuts Open Access sont définies de la manière suivante par OpenAlex et Unpaywall :

  • Gold : Publication en accès libre dans une revue indexée par le Directory of Open Access Journals (DOAJ).
    Principe de l’auteur payeur : ce dernier s’acquitte de frais, appelés APC (Article Processing Charge), liés à la publication de son article, qui devient immédiatement accessible à tous, gratuitement.
  • Green : Publication dans une revue à accès payant, mais une copie gratuite est disponible dans une archive Open Access, par exemple HAL.
  • Hybrid : Publication lisible gratuitement dans une revue à accès payant.
    Ce modèle, basé sur un double paiement (abonnement + frais pour publication en Open Access), est fortement déconseillé.
  • Bronze : Publication lisible gratuitement sur la page de l’éditeur, sans licence accordant d’autres droits.
    Il peut y avoir un délai entre la publication et la disponibilité en lecture, et les articles peuvent être retirés unilatéralement par l’éditeur.
  • Closed : Tous les autres articles qui ne sont pas en accès libre.

Sur les 236 publications de résultats dans un journal à la suite d’une étude, 159 sont en accès libre, soit un taux d’ouverture 67,37%.

Domaines de recherche

Les publications sont étiquetées avec des sujets par OpenAlex, à l’aide d’un système automatisé qui prend en compte les informations disponibles sur la publication, y compris le titre, le résumé, le nom de la source (revue) et les citations.

Chaque publication recoit un domaine, un champ, sous-champ et un sujet, du moins spécifique au plus spécifique.

Par exemple: Health Sciences > Medicine > Infectious Diseases > Efficacy and Safety of Antiretroviral Therapy for HIV

Parmi les publications considérées comme des résultats, nous nous intéressons aux sous-champs d’OpenAlex les plus populaires, avec au minimum 3 publications.