Logo of MSmédecine/sciences : m/s
Med Sci (Paris). 34(10): 849–851.
doi: 10.1051/medsci/2018203.

Le next-generation biobanking
Un défi des données numériques

Georges Dagher,1* Maria Luisa Lavitrano,2 and Paul Hofman3

1Biobanques, Inserm US013, Hôpital de la Salpêtrière, 47, boulevard de l’Hôpital, 75651Paris, France
2Université Milano-Bicocca, Piazza dell’Ateneo Nuovo, 1, 20126Milan, Italie
3Université Côte d’Azur, BB-0033-00025, Campus Valrose, 28, avenue de Valrose, 06108Nice, France
Corresponding author.
 

inline-graphic msc180207-img1.jpg

Le nombre de sujets atteints de pathologies à dimension globale ou systémiques ou de pathologies chroniques a nettement augmenté au cours des dernières décennies. Ceci est illustré par le Sida (syndrome d’immunodéficience acquise), le SRAS (syndrome respiratoire aigu sévère), la résurgence d’infections comme la dengue, la fièvre jaune, le chikungunya, ou encore par l’accroissement constant du nombre de patients atteints de maladies métaboliques ou de cancer. L’impact de ces pathologies en termes de santé publique et de conséquences sociales et économiques est en fait dramatique. Le vieillissement de la population mondiale fait également de ces pathologies un véritable fléau.

Pour répondre aux enjeux biomédicaux et socio-économiques que ces maladies posent et mieux les combattre, la recherche déploie de nouvelles technologies fondées sur des analyses d’échantillons biologiques provenant de patients. Ces échantillons sont collectés, transformés et conservés dans des structures dédiées : les biobanques. En utilisant ces ressources, la génomique a permis des progrès significatifs au cours des dernières décennies [1, 2] concourant à une meilleure compréhension de la pathogénie et de l’épidémiologie d’agents microbiens, notamment dans le cas de la méningite, de la maladie du légionnaire, de la diphtérie, de la fièvre typhoïde, de la grippe, du paludisme, de la dengue, du SIDA, etc. Une des clés principales de ce progrès a été le développement de la génomique, qui a permis de préciser les variations génétiques des agents pathogènes et de révolutionner ainsi le développement de vaccins.

Le séquençage du génome humain, réalisé en 2001, a ouvert la voie à l’identification de gènes spécifiques impliqués dans des pathologies particulières et a constitué le fondement d’une stratégie qui consiste à rechercher et analyser des variants génétiques qui prédisposent l’individu au développement de ces pathologies. Les études genome wide scan ont ainsi permis d’identifier des associations génétiques à des pathologies complexes. La clé de ce succès a été la mise en place de consortiums internationaux et de méta-analyses portant sur de grandes séries de patients permettant ainsi de comprendre la complexité des maladies et de détecter les variants génétiques « d’effet modeste ». Cette stratégie s’est avérée fructueuse pour de nombreuses maladies chroniques, comme le diabète de type 1 [3] et de type 2 [4, 5], les coronaropathies [6, 7], les cancers du sein [8, 9], du côlon [10, 11] et de la prostate [11, 12], la dégénérescence maculaire liée à l’âge [13, 14], la maladie de Crohn [7, 15], l’autisme [16], les maladies neurodégénératives.

Cette stratégie de recherche a abouti à la promesse d’une « médecine personnalisée » ou « stratifiée » qui repose notamment sur la prévision du risque de développer une pathologie, et ce sur la base de données génomiques, le choix du traitement approprié, l’évaluation de la réponse et des effets secondaires liés à la thérapie. Certaines instances et certains chercheurs considèrent ainsi la médecine personnalisée comme une médecine génomique.

Dans son dernier rapport, l’European science foundation (ESF) note cependant que l’étendue de l’information qui pourrait être utile dans la définition et le diagnostic d’une pathologie est bien plus vaste que celui des données génomiques. La définition par cette instance de la médecine personnalisée inclut les différences individuelles à tous les stades de la pathologie, de la prévention au traitement et à son suivi. Les différences génétiques peuvent en effet déterminer la prédisposition des individus à certaines pathologies et leur réponse thérapeutique. Cependant, la plupart des pathologies sont polygéniques. Elles peuvent aussi être influencées par une diversité de facteurs dits « environnementaux ». La pathologie et le tableau clinique sont ainsi la résultante de l’interaction entre gènes et environnement. Les différences de caractéristiques biologiques, biochimiques, physiologiques sont donc à prendre en considération dans le choix du traitement personnalisé.

L’Établissement français du sang (ESF) préconise ainsi le recueil de plusieurs types de données : environnementales, génomiques, épigénomiques, protéomiques, métabolomiques, lipidomiques, microbiome et imagerie. Ces données nécessitent d’être intégrées, analysées et interprétées afin de mieux préciser le diagnostic et de conduire à un traitement approprié au patient. Le terme « médecine de précision » a été ainsi introduit pour préciser et élargir ceux déjà largement utilisés de « médecine personnalisée » ou de « médecine guidée par la génomique ». La médecine de précision implique une meilleure compréhension de l’étiologie de la maladie et des mécanismes moléculaires afin d’assoir le bien-fondé de la future thérapeutique. Garraway et al. [17] en propose une définition fondée sur trois critères : (1) une résolution moléculaire accrue, (2) une clarté mécanistique et (3) une thérapeutique bien fondée.

Au cours de la dernière décennie, la médecine de précision a investi progressivement différentes pathologies communes complexes, parmi lesquelles l’oncologie en constitue l’avant-garde [18]. On retrouve ainsi aujourd’hui dans différents domaines de recherche médicale des jeux de données associées à des ressources biologiques pour lesquelles les observations sont décrites selon différentes modalités (-omiques, biochimie, environnementales, etc.). Les observations histopathologiques et radiologiques, analysées et interprétées visuellement par des experts, sont désormais de plus en plus quantifiées [19, 20]. Le défi actuel réside dans l’analyse de ces données très complexes et l’extraction de nouvelles connaissances. La progression d’une pathologie ou d’une tumeur est un processus biologique dynamique et évolutif. Il implique différents tissus et biofluides avec un génome façonné par des aberrations de gènes, par des facteurs épigénétiques, un contexte biologique cellulaire, et des données spécifiques au mode de vie de l’individu et à son environnement [21, 22]. Des méthodes statistiques et mathématiques sophistiquées ont été développées pour l’analyse, l’interprétation et la validation des données biologiques. Des techniques et outils de calcul sont ainsi en constant développement. Cette approche a permis en particulier d’identifier les vulnérabilités et les processus mis en œuvre dans le développement des tumeurs [21, 23].

La multiplicité des spécialités nécessaires pour générer ces données, leur intégration et leur analyse, nécessitent de repenser l’organisation et la structuration des biobanques afin d’y rattacher les spécialistes de différents domaines : médecine, biologie, imagerie, statistique, bioinformatique, mathématiques, etc. Cette évolution nécessiterait, au niveau national et international, une liaison étroite avec les biobanques déjà impliquées dans la maîtrise de la collecte, l’intégration et l’analyse des données, ce qui participerait à la mise en place d’une nouvelle génération de biobanques [24, 25]. Elle devrait associer les bases de données capables d’héberger des données biologiques, de -omiques, phénotypiques, d’imagerie, de radiomiques, mais aussi comportementales et familiales provenant de différents centres à des fins d’analyses [26]. Elle nécessite de relever plusieurs défis. Le premier est celui d’infrastructures de calcul capables de traiter des tera, penta et exabytes [27]. À ceci s’ajoute le besoin de développement d’une suite de méthodes d’analyses et d’algorithmes appropriés. Cette évolution s’accompagnera également d’un changement de paradigme de l’analyse de données provenant d’un grand nombre de patients à celle d’un grand volume de données qui, lui, sera issu d’un seul sujet. Ainsi la notion de fat data pourra progressivement compléter les approches portant sur les données massives ou de big data. Il devient ainsi important de développer les formations et les compétences sur le deep learning et de créer de nouveaux champs d’expertise pluridisciplinaires.

Liens d’intérêt

Les auteurs déclarent n’avoir aucun lien d’intérêt concernant les données pubiées dans cet article.

References
1.
Topol EJ, Murray SS, Frazer KA. The genomics gold rush . JAMA. 2007; ; 298 : :218.–221.
2.
Towbin JA, Bowles NE. Molecular diagnosis of myocardial disease . Expert Rev Mol Diagn. 2002; ; 2 : :587.–602.
3.
Todd JA, Walker NM, Cooper JD, et al. Robust associations of four new chromosome regions from genome-wide analyses of type 1 diabetes . Nat Genet. 2007; ; 39 : :857.–864.
4.
Grant SF, Thorleifsson G, Reynisdottir I, et al. Variant of transcription factor 7-like 2 (TCF7L2) gene confers risk of type 2 diabetes . Nat Genet. 2006; ; 38 : :320.–323.
5.
Zeggini E, Weedon MN, Lindgren CM, et al. Replication of genome-wide association signals in UK samples reveals risk loci for type 2 diabetes . Science. 2007; ; 316 : :1336.–1341.
6.
Helgadottir A, Thorleifsson G, Manolescu A, et al. A common variant on chromosome 9p21 affects the risk of myocardial infarction . Science. 2007; ; 316 : :1491.–1493.
7.
Strausberg RL, Simpson AJ, Old LJ, Riggins GJ. Oncogenomics and the development of new cancer therapies . Nature. 2004; ; 429 : :469.–474.
8.
Easton DF, Pooley KA, Dunning AM, et al. Genome-wide association study identifies novel breast cancer susceptibility loci . Nature. 2007; ; 447 : :1087.–1093.
9.
Stacey SN, Manolescu A, Sulem P, et al. Common variants on chromosomes 2q35 and 16q12 confer susceptibility to estrogen receptor-positive breast cancer . Nat Genet. 2007; ; 39 : :865.–869.
10.
Gudmundsson J, Sulem P, Manolescu A, et al. Genome-wide association study identifies a second prostate cancer susceptibility variant at 8q24 . Nat Genet. 2007; ; 39 : :631.–637.
11.
Zanke BW, Greenwood CM, Rangrej J, et al. Genome-wide association scan identifies a colorectal cancer susceptibility locus on chromosome 8q24 . Nat Genet. 2007; ; 39 : :989.–994.
12.
Haiman CA, Le Marchand L, Yamamato J, et al. A common genetic risk factor for colorectal and prostate cancer . Nat Genet. 2007; ; 39 : :954.–956.
13.
Haines JL, Hauser MA, Schmidt S, et al. Complement factor H variant increases the risk of age-related macular degeneration . Science. 2005; ; 308 : :419.–421.
14.
Klein RJ, Zeiss C, Chew EY, et al. Complement factor H polymorphism in age-related macular degeneration . Science. 2005; ; 308 : :385.–389.
15.
Rioux JD, Xavier RJ, Taylor KD, et al. Genome-wide association study identifies new susceptibility loci for Crohn disease and implicates autophagy in disease pathogenesis . Nat Genet. 2007; ; 39 : :596.–604.
16.
Leboyer M, Bellivier F, , Nosten-Bertrand M, et al. Psychiatric genetics: search for phenotypes . Trends Neurosci. 1998; ; 21 : :102.–105.
17.
Garraway LA, Verweij J, Ballman KV. Precision oncology: an overview . J Clin Oncol. 2013; ; 31 : :1803.–1805.
18.
Kristensen VN, Lingjaerde OC, Russnes HG, et al. Principles and methods of integrative genomic analyses in cancer . Nat Rev Cancer. 2014; ; 14 : :299.–313.
19.
Kumar V, Gu Y, Basu S, et al. Radiomics: the process and the challenges . Magn Reson Imaging. 2012; ; 30 : :1234.–1248.
20.
Yuan Y, Failmezger H, Rueda OM, et al. Quantitative image analysis of cellular heterogeneity in breast tumors complements genomic profiling . Sci Transl Med. 2012;; 4 : 157ra43..
21.
Cheung HW, Cowley GS, Weir BA, et al. Systematic investigation of genetic vulnerabilities across cancer cell lines reveals lineage-specific dependencies in ovarian cancer . Proc Natl Acad Sci USA. 2011; ; 108 : :12372.–12377.
22.
Martin M. Rewriting the mathematics of tumor growth . J Natl Cancer Inst. 2011; ; 103 : :1564.–1565.
23.
Senft D, Leiserson MDM, Ruppin E, Ronai ZA. Precision oncology: the road ahead . Trends Mol Med. 2018; ; 23 : :874.–898.
24.
Basik M, Aguilar-Mahecha A, Rousseau C, et al. Biopsies: next-generation biospecimens for tailoring therapy . Nat Rev Clin Oncol. 2013; ; 10 : :437.–450.
25.
Samuels S, Balint B, , von der Leyen H, et al. Precision medicine in cancer: challenges and recommendations from an EU-funded cervical cancer biobanking study . Br J Cancer. 2016; ; 115 : :1575.–1583.
26.
Alberich-Bayarri A, Hernandez-Navarro R, , Ruiz-Martinez E, et al. Development of imaging biomarkers and generation of big data . Radiol Med. 2017; ; 122 : :444.–448.
27.
McIntyre RS, Cha DS, Jerrell JM, et al. Advancing biomarker research: utilizing ‘Big Data’ approaches for the characterization and prevention of bipolar disorder . Bipolar Disord. 2014; ; 16 : :531.–547.