Logo of MSmédecine/sciences : m/s
Med Sci (Paris). 39: 22–27.
doi: 10.1051/medsci/2023136.

Les omiques au service de la myologie

Alix Simon1*

1IGBMC - CNRS UMR 7104 - Inserm U 1258 , 1 rue Laurent Fries , BP 10142 , 67404Illkirch Cedex , France
Corresponding author.
 

© A. Simon

À chaque omique, sa méthodologie

Les études omiques sont réalisées à l’échelle du génome, de l’épigénome, du transcriptome, du protéome ou du métabolome. Pour chacune d’entre elles, différentes approches méthodologiques sont à la disposition des chercheurs afin de répondre à des questions biologiques variées ( Tableau I ).

Génomique

La génomique étudie le génome d’un organisme grâce au séquençage qui détermine l’ordre et la nature des nucléotides dans des molécules d’ADN. Le séquençage par la méthode Sanger a été largement utilisé depuis les années 1980, et est longtemps resté la technique de référence bien que limité au séquençage d’un seul fragment d’ADN à la fois.

Les technologies de séquençage à haut débit ( next generation sequencing ) sont aujourd’hui privilégiées pour l’étude à moindre coût du génome entier ( whole genome sequencing ) ou de l’exome entier (exome sequencing : séquençage des parties codantes de l’ADN, soit environ 1 % du génome). Deux types de séquençage à haut débit existent : à courtes lectures ( short read sequencing ) et à longues lectures ( long read sequencing ).

Le premier est une méthode hautement parallèle qui permet de séquencer simultanément des millions de petits fragments d’ADN (50-300 paires de bases). Cette parallélisation est rendue possible par l’amplification in vitro des fragments immobilisés sur une surface en deux dimensions, suivie d’un séquençage par synthèse simultanée sur toute cette surface. L’alignement des lectures sur un génome de référence permet de détecter des variations nucléotidiques et du nombre de copies, ainsi que des insertions ou des délétions de moins de 50 paires de bases [ 1 , 2 ].

Comme son nom l’indique, le séquençage à longues lectures génère quant à lui des lectures de séquences d’ADN plus longues (10 000-1 000 000 paires de bases), sans amplification. Les données obtenues permettent un meilleur assemblage de novo des génomes, la caractérisation des chromosomes de télomère à télomère, la résolution de régions hautement répétées et l’identification des variants structuraux complexes (> 50 paires de bases). Certaines technologies de séquençage à longues lectures incluent le séquençage par synthèse SMRT ( Single Molecule Real-Time ) de PacBio et le séquençage Nanopore d’Oxford Nanopore Technologies [ 3 ].

Épigénomique

L’épigénomique étudie les modifications chimiques qui affectent l’expression des gènes sans modifier la séquence de l’ADN. Ce sont principalement la méthylation de cytosines spécifiques de l’ADN, les modifications chimiques des histones et les variations de compaction de la chromatine. Ces modifications peuvent être héritées ou influencées par des facteurs environnementaux.

Pour caractériser la méthylation de l’ADN au niveau du génome entier, la méthode de référence est le séquençage bisulfite. Elle consiste à convertir, avant séquençage, toutes les cytosines non méthylées en uraciles, ce qui permet d’obtenir une résolution au nucléotide près. On peut également choisir de séquencer préférentiellement les régions méthylées de l’ADN en utilisant des enzymes de restriction sensibles à la méthylation ou des anticorps spécifiques des cytosines méthylées.

Pour étudier les modifications chimiques sur les histones telles que l’acétylation, la méthylation, la phosphorylation ou l’ubiquitination, la méthode la plus répandue est le ChIP-seq ( Chromatin ImmunoPrecipitation followed by sequencing ). Elle utilise des anticorps spécifiques d’une modification d’intérêt pour isoler et séquencer les fragments d’ADN de la chromatine qui présentent cette modification.

Enfin, pour déterminer les régions accessibles de la chromatine, la méthode de référence est l’ATAC-seq ( Assay for Transposase-Accessible Chromatin using sequencing ), qui consiste à utiliser la transposase Tn5 pour fragmenter et isoler uniquement les régions ouvertes de la chromatine, avant séquençage [ 4 ].

Transcriptomique

La transcriptomique a pour but de caractériser l’ensemble des ARN transcrits à partir du génome d’un organisme. Ceci permet notamment l’identification de gènes ou de transcrits différentiellement exprimés selon plusieurs conditions. En fonction de la question biologique posée, on peut choisir de quantifier l’expression des ARN messagers par capture des queues polyadénylées ou de caractériser le transcriptome entier par déplétion des ARN ribosomaux. Les ARN isolés à partir d’un échantillon sont ensuite fragmentés et rétro-transcrits en ADN complémentaires, avant d’être séquencés par des méthodes à courtes ou longues lectures. Ces dernières offrent une meilleure identification des différents isoformes et des variations d’épissage. Les analyses transcriptomiques peuvent être réalisées à plusieurs échelles.

Le séquençage de l’ARN total ( bulk RNA-seq ) quantifie l’ensemble des transcrits présents dans un tissu ou dans une population de cellules. Ceci informe sur les niveaux moyens d’expression des gènes et de leurs différentes isoformes dans un échantillon donné. Cette méthode de séquençage est utile pour la découverte de biomarqueurs et de mécanismes moléculaires globaux dans un contexte pathologique, mais elle ne permet pas l’étude des profils d’expression propres à certaines populations de cellules.

Le séquençage de l’ARN sur cellules ou noyaux isolés ( scRNA-seq ou snRNA-seq ) permet de quantifier simultanément les transcrits de plusieurs milliers de cellules ou noyaux individuels. L’hétérogénéité intra-tissulaire est prise en compte et des sous-populations d’intérêt peuvent être mises en évidence et étudiées au sein de ces échantillons [ 5 ]. La microfluidique est la technique la plus établie pour isoler et séquencer jusqu’à 20 000 cellules ou noyaux, mais de nouvelles approches basées sur la combinaison de codes-barres ( split-pool barcoding ) permettent aujourd’hui le séquençage de plus de 100 000 cellules ou noyaux à la fois [ 6 ].

La transcriptomique spatiale fait le lien entre information spatiale et quantification des transcrits. Par exemple, la technologie Visium, développée par 10X Genomics, consiste à imager une coupe de tissu congelé par microscopie et à la placer sur une lame avec des milliers de régions contenant des codes-barres spatiaux uniques. Après séquençage, les données d’expression génique peuvent ainsi être reliées à un contexte morphologique dans un tissu. Une autre technique de transcriptomique spatiale, le profileur spatial digital ( DSP pour Digital Spatial Profiler ) GeoMx ® de nanoString, consiste à marquer des types cellulaires d’intérêt par fluorescence en vue de sélectionner les régions d’intérêt à séquencer sur coupe de tissu [ 5 ].

Protéomique

La protéomique est l’étude des protéines présentes dans un échantillon biologique à un moment donné. La spectrométrie de masse associée à la chromatographie liquide ( LC/ MS) est actuellement la méthode privilégiée pour identifier et quantifier ces protéines. La chromatographie liquide sépare les analytes qui sont ensuite ionisés et fragmentés afin de les isoler en fonction de leur ratio masse/charge par le spectromètre de masse [ 7 ]. Les études de protéomique par spectrométrie de masse peuvent être réalisées de manière globale pour quantifier des milliers de protéines, ou ciblée en concentrant l’analyse sur quelques protéines d’intérêt isolées à partir d’un échantillon. La protéomique globale s’inscrit dans une démarche exploratoire et présente des avantages pour la découverte de biomarqueurs. La protéomique ciblée permet la quantification précise et absolue de quelques protéines d’intérêt avec une meilleure sensibilité. Deux stratégies existent pour réaliser des études ciblées ou globales.

Les approches basées sur la quantification des peptides, dites bottom-up , consistent à réaliser une digestion protéolytique des protéines pour obtenir des peptides courts. Ceux-ci sont plus aisément fragmentés que les protéines complètes, ce qui facilite l’analyse par spectrométrie de masse et conduit à une bonne sensibilité. Les protéines sont ensuite identifiées à partir des pics du spectre de masse, chaque pic représentant un fragment de peptide ionisé. Cependant, les approches bottom-up ne permettent pas la distinction des différentes protéoformes, qui sont les produits protéiques d’un gène unique résultant des variations génétiques, de l’épissage alternatif des ARN, ou de modification post-traductionnelles (phosphorylation, glycosylation, acétylation, ubiquitination…) [ 8 ].

Pour la quantification relative des modifications des protéines, les approches dites top-down sont privilégiées. Elles consistent à introduire les protéines intactes dans le spectromètre de masse, ce qui permet une caractérisation complète des protéoformes. Cependant, les protéines intactes sont moins bien ionisées et détectées que les peptides, ce qui restreint leur quantification. Les analyses ciblées ou l’enrichissement des protéines d’intérêt avant l’analyse top-down permettent l’obtention de meilleurs résultats [ 9 ].

Métabolomique

La métabolomique étudie les métabolites de manière qualitative et quantitative. Les métabolites sont de petites molécules (masse moléculaire < 1 500 Da) qui reflètent les variations génomiques, transcriptomiques, protéomiques et environnementales qui ont eu lieu dans l’organisme, et les relient au phénotype [ 10 , 11 ]. De plus, les métabolites pouvant être mesurés dans les tissus, mais aussi dans les fluides biologiques tels que le sang et l’urine, ce sont d’excellents candidats pour la recherche de biomarqueurs. Comme pour la protéomique, les études de métabolomique peuvent être réalisées de manière globale ou ciblée. Pour séparer et identifier les différentes classes d’espèces chimiques présentes dans le métabolome, plusieurs outils analytiques complémentaires sont utilisés : la spectrométrie par résonnance magnétique nucléaire (RMN), la spectroscopie infrarouge à transformée de Fourier, la spectrométrie de masse associée à la chromatographie liquide ou gazeuse, ou à l’électrophorèse capillaire [ 10 ].

La lipidomique est une discipline émergente issue de la métabolomique. Tandis que la métabolomique « classique » vise à quantifier les composés hydrophiles (carbohydrates, acides nucléiques, acides aminés), la lipidomique cible les composés hydrophobes tels que les acides gras, les glycérides, les phosphoglycérides, les sphingolipides, les prénols et les stérols [ 12 ].

L’intégration multi-omique

Chaque omique apporte des informations extrêmement détaillées au niveau moléculaire. Cependant, les omiques sont souvent considérés individuellement, ce qui n’est pas suffisant pour comprendre la complexité biologique de la plupart des maladies humaines [ 13 ]. Une intégration des différentes couches de données omiques – approche dite multi-omique – qui prend en compte les mécanismes reliant génome, épigénome, transcriptome, protéome et métabolome, pourrait améliorer la compréhension du lien entre la mutation causant une maladie et ses conséquences fonctionnelles ( Figure 1 ) [ 14 ].

L’intégration multi-omique étant un domaine relativement récent, il n’existe pas encore d’approche de référence. Les principales méthodes d’intégration reposent sur des analyses multifactorielles, l’intelligence artificielle, en particulier les méthodes d’apprentissage profond ( deep learning) , et sur l’intégration des données dans des réseaux biologiques complexes.

Les analyses multifactorielles

Les analyses multifactorielles décomposent les données issues de chaque niveau omique en facteurs permettant de réduire la dimensionalité des données, tout en capturant les sources majeures de variations. Le modèle MOFA ( Multi-Omics Factor Analysis ) utilise une représentation matricielle des données omiques et les probabilités bayésiennes. Ceux-ci peuvent ensuite être utilisés pour l’identification de sous-types de maladies, et des analyses d’enrichissement peuvent relier chaque facteur à des fonctions biologiques pour une meilleure interprétation des résultats. [ 15 ]

L’apprentissage profond ou deep learning

Le deep learning présente des avantages pour l’intégration de données multi-omiques complexes, en particulier pour réaliser des prédictions et identifier des caractéristiques non linéaires. Les approches non supervisées d’apprentissage profond telles que les auto-encodeurs permettent de réduire la dimensionalité importante des jeux de données multi-omiques et de sélectionner les caractéristiques sous-jacentes les plus pertinentes. Ces approches sont particulièrement utiles pour la découverte de sous-types de maladies. Les approches supervisées comme la classification et la régression basées sur des réseaux de neurones profonds, peuvent permettre de prédire des résultats cliniques ou d’estimer la survie dans une population à partir de co-variables. Cependant, ces approches sont limitées par la nécessité d’avoir un jeu de données d’entraînement et de validation de plusieurs milliers d’échantillons, ce qui est peu compatible dans le contexte des recherches sur les maladies rares [ 16 ].

L’intégration dans des réseaux biologiques complexes

Les réseaux, quant à eux, sont utilisés pour représenter toutes les interactions pertinentes dans un système biologique. Les molécules (gènes, transcrits, protéines, métabolites) sont représentées par des nœuds. Les interactions moléculaires sont représentées par des arrêtes reliant les nœuds deux à deux. Elles peuvent relier des nœuds de même nature ou relier différents niveaux omiques ( Figure 2 ). Pour construire les réseaux biologiques, on identifie les interactions entre nœuds à partir de données expérimentales, en analysant par exemple la co-expression des molécules, mais en intégrant également des connaissances issues de bases de données publiques comme les interactions entre protéines ou encore les voies moléculaires associées. Une fois le réseau construit, il est possible d’identifier des modules de nœuds hyperconnectés reliant différents niveaux omiques , ce qui peut conduire à la découverte de nouvelles hypothèses mécanistiques pour le phénotype étudié [ 17 ].

L’intégration multi-omique en myologie

L’intégration multi-omique a trois champs d’application principaux pour l’étude des maladies : l’identification de sous-types de maladies, la découverte de biomarqueurs et l’exploration des mécanismes pathologiques [ 14 ].

Des sous-types de maladies peuvent en effet être identifiés et catégorisés grâce à des profils multi-omiques, en particulier en cancérologie [ 18 ], mais aussi pour les myopathies inflammatoires idiopathiques [ 19 ]. Ces profils peuvent également permettre l’identification de biomarqueurs dans un but diagnostique et/ou pour le suivi des patients.

Des études multi-omiques ont par exemple permis de prédire la réponse de patients atteints de myopathies inflammatoires à différents traitements [ 20 ], d’identifier des biomarqueurs dans la dystrophie facio-scapulo-humérale [ 21 ], la sclérose latérale amyotrophique [ 22 ] et les myopathies centronucléaires [ 23 ]. Enfin, l’intégration de différents niveaux omiques peut permettre de mieux comprendre les mécanismes reliant cause génétique et conséquences phénotypiques dans l’étude de la sarcopénie [ 24 ], de la dystrophie musculaire de Duchenne [ 25 , 26 ] ou de la forme sporadique de myosite à inclusions [ 27 ].

Conclusion

Les approches omiques offrent des perspectives très prometteuses dans le domaine de la myologie, avec en ligne de mire une compréhension approfondie des mécanismes moléculaires impliqués dans les différentes maladies du nerf et du muscle. L’intégration multi-omique émerge comme une approche puissante pour examiner de manière holistique les multiples niveaux d’informations biologiques tels que le génome, l’épigénome, le transcriptome, le protéome et le métabolome. Ceci permet l’identification précise des biomarqueurs et des voies métaboliques perturbées dans ces maladies, fournissant ainsi des informations précieuses pour le suivi des patients, la compréhension des mécanismes pathologiques et le développement de nouvelles thérapies ciblées. Cependant, il reste encore de nombreux défis techniques et conceptuels à relever. L’intégration et l’analyse des données omiques complexes nécessitent des approches bioinformatiques de pointe et des efforts collaboratifs entre de nombreuses disciplines scientifiques.

Prix SFM

Ces travaux ont été récompensés par le Prix Master de la Société Française de Myologie décerné lors des JSFM 2021.

Liens d’intérêt

L’auteure déclare n’avoir aucun lien d’intérêt concernant les données publiées dans cet article.

References
1.
Hu T , Chitnis N , Monos D , et al. Next-generation sequencing technologies: An overview. . Hum Immunol . 2021; ; 82 : :801. – 11 .
2.
Gorokhova S , Biancalana V , Lévy N , et al. Clinical massively parallel sequencing for the diagnosis of myopathies. . Rev Neurol (Paris) . 2015; ; 171 : :558. – 571 .
3.
Logsdon GA , Vollger MR , Eichler EE . Long-read human genome sequencing and its applications. . Nat Rev Genet . 2020; ; 21 : :597. – 614 .
4.
Mehrmohamadi M , Sepehri MH , Nazer N , et al. A comparative overview of epigenomic profiling methods. . Front Cell Dev Biol . 2021; ; 9 : :714687. .
5.
Li X , Wang CY . From bulk, single-cell to spatial RNA sequencing. . Int J Oral Sci . 2021; ; 13 : :36. .
6.
Rosenberg AB , Roco CM , Muscat RA , et al. Single-cell profiling of the developing mouse brain and spinal cord with split-pool barcoding. . Science . 2018; ; 360 : :176. – 182 .
7.
Aebersold R , Mann M . Mass-spectrometric exploration of proteome structure and function. . Nature . 2016; ; 537 : :347. – 355 .
8.
Smith LM , Agar JN , Chamot-Rooke J et al. The human proteoform project: Defining the human proteome. . Sci Adv . 2021; ; 46 : :eabk0734. .
9.
Rozanova S , Barkovits K , Nikolov M et al. Quantitative mass spectrometry-based proteomics: An overview. . Methods Mol Biol . 2021; ; 2228 : :85. – 116 .
10.
Aderemi AV , Ayeleso AO , Oyedapo OO , et al. Metabolomics: A scoping review of its role as a tool for disease biomarker discovery in selected non-communicable diseases. . Metabolites . 2021; ; 11 : :418. .
11.
Wishart DS . Metabolomics for investigating physiological and pathophysiological processes. . Physiol Rev . 2019; ; 99 : :1819. – 1875 .
12.
Wang R , Li B , Lam SM , et al. Integration of lipidomics and metabolomics for in-depth understanding of cellular mechanism and disease progression. . J Genet Genomics . 2020; ; 47 : :69. – 83 .
13.
Karczewski KJ , Snyder MP . Integrative omics for health and disease. . Nat Rev Genet . 2018; ; 19 : :299. – 310 .
14.
Subramanian I , Verma S , Kumar S , et al. Multi-omics data integration, interpretation, and its application. . Bioinforma Biol Insights . 2020; ; 14 : :1177932219899051. .
15.
Argelaguet R , Velten B , Arnol D , et al. Multi-omics factor analysis–a framework for unsupervised integration of multi-omics data set. . Mol Syst Biol . 2018; ; 14 : :e8124. .
16.
Kang M , Ko E , Mersha TB A roadmap for multi-omics data integration using deep learning. . Brief Bioinform . 2022; ; 23 : :bbab454. .
17.
Bodein A , Scott-Boyer MP , Perin O et al. Interpretation of network-based integration from multi-omics longitudinal data. . Nucleic Acids Res . 2022; ; 50 : :e27. .
18.
Brière G, E. Darbo É, P. Thébault P , et al. Consensus clustering applied to multi-omics disease subtyping. . BMC Bioinformatics . 2021; ; 22 : :361. .
19.
Eng SWM , Olazagasti JM , Goldenberg A , et al. A clinically and biologically based subclassification of the idiopathic inflammatory myopathies using machine learning. . ACR Open Rheumatol . 2020; ; 2 : :158. – 66 .
20.
Danieli MG , Tonacci A , Paladini A , et al. A machine learning analysis to predict the response to intravenous and subcutaneous immunoglobulin in inflammatory myopathies. A proposal for a future multi-omics approach in autoimmune diseases. . Autoimmun Rev . 2022; ; 21 : :103105. .
21.
Heier CR , Zhang A , Nguyen NY , et al. Multi-omics identifies circulating miRNA and protein biomarkers for facioscapulohumeral dystrophy. . J Pers Med . 2020; ; 10 : :236. .
22.
Mitropoulos K , Katsila T , Patrinos GP , et al. Multi-omics for biomarker discovery and target validation in biofluids for amyotrophic lateral sclerosis diagnosis. . OMICS . 2018; ; 22 : :52. – 64 .
23.
Djeddi S , Reiss D , Menuet A , et al. Multi-omics comparisons of different forms of centronuclear myopathies and the effects of several therapeutic strategies. . Mol Ther . 2021; ; 29 : :2514. – 34 .
24.
Liu JC , Dong SS , Shen H , et al. Multi-omics research in sarcopenia: Current progress and future prospects. . Ageing Res Rev . 2022; ; 76 : :101576. .
25.
Mournetas V , Massouridès E , Dupont JB , et al. Myogenesis modelled by human pluripotent stem cells: a multi-omic study of Duchenne myopathy early onset ». . J Cachexia Sarcopenia Muscle . 2021; ; 12 : :209. – 32 .
26.
Espinosa-Espinosa J , González-Barriga A , López-Castel A , et al. Deciphering the complex molecular pathogenesis of myotonic dystrophy type 1 through omics studies. . Int J Mol Sci . 2022; ; 23 : :1441. .
27.
Murakami A , Noda S , Kazuta T , et al. Metabolome and transcriptome analysis on muscle of sporadic inclusion body myositis. . Ann Clin Transl Neurol . 2022; ; 9 : :1602. – 15 .