Le Système national des données de santé comprend principalement les bases de données
de l’Assurance maladie (Système national d’information inter-régimes de l’Assurance
maladie ou SNIIRAM) et la base de données des hospitalisations issues du Programme
de médicalisation des systèmes d’informations (PMSI). Les études reposant sur le
SNDS peuvent inclure uniquement les données du PMSI, la totalité des données du
SNIIRAM chaînées avec les données du PMSI (datamart consommation
inter-régimes, DCIR), ou un échantillon de ce dernier appelé
échantillon généraliste des bénéficiaires (EGB).
Les études qui reposent sur le SNDS sont de trois types : (1) des rapports destinés
aux autorités de santé (littérature grise) ; (2) des publications scientifiques qui
ne sont pas référencées, en langue française ; et (3) des publications scientifiques
référencées et publiées dans des revues à comité de lecture. Dans le cadre de notre
étude, nous avons limité notre analyse à la série d’articles portant sur tout ou
partie du SNDS et publiés dans la Revue d’épidémiologie et de santé
publique (RESP) de l’éditeur Elsevier, entre 2008 et
2017. Cette revue a été choisie car elle constitue l’un des principaux canaux de
communication de la communauté d’information médicale et en santé publique en
France.
Nous nous proposions dans cette étude de répondre à deux questions : (1) les données
publiées sont-elles suffisantes pour reproduire l’étude considérée (critère C1) ?
(2) les programmes d’extraction et d’analyses de données sont-ils mis à disposition
dans la publication (critère C2) ? Si les programmes d’extraction et d’analyses ont
été mis à disposition (critère C2), alors les données publiées sont suffisantes pour
reproduire l’étude (critère C1). À noter que la réciproque n’est pas forcément
vraie. Le Tableau I présente
8 mesures correspondant, pour ces deux critères de sélection, à des questions dont
les réponses peuvent être soit oui, soit non.
Tableau I
Critère |
Mesure |
Description |
C1 |
M1 |
Les dates d’inclusion sont-elles suffisamment
précises ? (jour, mois, année) |
|
C1 |
M2 |
Les dates d’extraction sont-elles précisées ? (liés
à l’historicisation) |
|
C1 |
M3 |
La population de l’étude est-elle précisée ? (âge,
caisses de remboursement, région) |
|
C1 |
M4 |
Les listes des codes issues des terminologies
internationales et nationales sont-elles à disposition ? |
|
C2 |
M5 |
Les programmes d’extraction des données sont-ils
disponibles ? |
|
C2 |
M6 |
Les programmes d’analyse des données extraites
sont-ils disponibles ? |
Mesures de reproductibilité méthodologique. |
Parmi les 363 numéros de la Revue d’épidémiologie et de santé
publique publiés entre 2008 et 2017 (hors numéro spécial et hors
résumé), 42 répondent aux critères d’inclusion (C1 et C2). Cinq études, qui ont été
menées en région Provence-Alpes-Côte d’Azur (PACA), concernent des études sur le
SNIIRAM. Dix-neuf études sur 39 (soit 49 %), qui concernent toutes des études
portant sur le PMSI, combinent toutes les critères de reproductibilité
méthodologique (M1-4). Aucune étude ne propose un partage des codes (M5-6)
(Tableau II).
Tableau II
|
Études publiées dans RESP (N=42)
|
Données :
|
|
PMSI |
24 (57 %) |
EGB |
2 (5 %) |
DCIR-PMSI |
16 (38 %) |
|
Années de publication :
|
|
2008-2012 |
19 (45 %) |
2014-2017 |
23 (55 %) |
|
M1
|
38 (97 %) (NA = 3) |
|
M2
|
2 (12%) (NA = 25) |
|
M3
|
38 (97%) (NA = 3) |
|
M4
|
29 (74 %) (NA = 3) |
|
M5
|
0 (NA = 4) |
|
M6
|
0 (NA = 3) |
Description des publications et des mesures de
reproductibilité. RESP : Rev
Épidémiol Santé Publique ; PMSI : Programme de
médicalisation des systèmes d’informations ; DCIR : datamart
consommation inter-regimes ; EGB : échantillon généraliste
des bénéficiaires. Certains critères n’étaient pas adaptés aux objectifs
des articles, nous les avons indiqués comme « non applicable » (NA) |
Ces résultats suggèrent que seules 49 % des études publiées dans
RESP et portant sur le SNDS pourraient être reproduites sans le
recours aux auteurs initiaux. Ils sont particulièrement marquants pour les études
portant sur l’échantillon généraliste des bénéficiaires (EGB) et les données du
SNIIRAM chaînées avec celles du PMSI (DCIR). La reproductibilité méthodologique ne
semble pas s’améliorer avec le temps. Nous avons identifié cinq études portant sur
la région PACA, qui auraient pu être généralisées à l’ensemble du territoire
français. Néanmoins, si elles avaient satisfait les critères M5 (les programmes
d’extraction des données sont-ils disponibles ?) et M6 (les programmes d’analyse des
données extraites sont-ils disponibles ?), cette généralisation aurait pu être
immédiate. La plupart des études ne reproduisant pas régulièrement leurs analyses,
cela diminue leur intérêt en santé publique (indicateurs obsolètes).
La principale limite de notre étude concerne le mode de sélection des articles. Nous
n’en avons, en effet, pas réalisé une revue systématique. Cette étude n’a donc que
la valeur que lui donne l’analyse d’une série de cas. Une autre limite concerne le
nombre de relecteurs, puisqu’elle n’a pas bénéficié d’une double relecture. Enfin,
bien que la base de données ayant servi à cette étude soit disponible en accès
ouvert2, les mesures de reproductibilité
méthodologique que nous proposons n’ont pas fait l’objet d’une validation
scientifique.
Les deux principales composantes de la reproductibilité méthodologique, énoncées par
Peng et al [6], sont le partage des données (data sharing) et le
partage des programmes (code sharing). Dans le cadre des études
portant sur le SNDS, seule la question du partage des programmes demeure. Il
n’existe pas d’argument technique expliquant le non-partage des programmes [7, 8].
Or, de nombreuses solutions permettant de partager le code existent. Nous sommes
probablement en présence d’un « dilemme du prisonnier ». Cette situation a déjà été
formalisée dans le cadre du partage des données [9]. Les chercheurs sont en compétition et ne
perçoivent pas l’intérêt de partager leurs programmes. Pour autant, s’ils les
rendaient accessibles, s’exposant ainsi à la critique, tous pourraient améliorer
leurs pratiques et les enrichir des expériences des autres. Un probable gain
découlerait de cette coopération. Les résultats seraient plus compréhensibles et
plus transparents vis-à-vis des décideurs, notamment.