Logo of MSmédecine/sciences : m/s
Med Sci (Paris). 2002 June; 18(6-7): 767–774.
Published online 2002 June 15. doi: 10.1051/medsci/20021867767.

Cartographie génomique comparée chez les mammifères
Bio-informatique (4)

Gisèle Bronner, Bruno Spataro, and Christian Gautier

Laboratoire de Biométrie et de Biologie Évolutive, Université Claude Bernard Lyon I, 43, boulevard du 11 novembre 1918, 69622 Villeurbanne Cedex, France
 

La cartographie génomique peut être définie comme l’identification de la position de tout élément du génome pouvant être caractérisé de façon non ambiguë. Ces éléments, appelés marqueurs, sont très divers. Il peut s’agir de simples fragments d’ADN sans caractérisation fonctionnelle (segments anonymes), d’éléments répétés (microsatellites en particulier), ou de gènes. La nature du positionnement des marqueurs et la définition de la distance qui les sépare ont conduit à l’existence de plusieurs types de cartes que l’on peut schématiquement présenter en trois groupes.

Les différentes cartes génomiques
  • Les cartes génétiques reposent sur l’existence, au cours de la méiose, de recombinaisons qui aboutissent à des échanges réciproques de matériel génétique (crossing-over) entre les chromosomes homologues. Lorsque deux marqueurs sont suffisamment proches, la probabilité d’une recombinaison entre eux se comporte comme une distance au sens mathématique et permet ainsi la construction de cartes des chromosomes. Ces cartes génétiques résultent donc de la prise en compte d’un mécanisme biologique, ce qui n’est pas réellement le cas pour les cartes des deux groupes suivants.
  • De nombreuses cartes sont construites à partir de l’appartenance de marqueurs à un même segment génomique. Différentes approches expérimentales permettent de découper les génomes en segments, soit en les colorant (bandes chromosomiques), soit en les fragmentant physiquement (digestion de séquences d’ADN par des enzymes de restriction, fragmentation par irradiation). Des techniques expérimentales reposant sur l’hybridation entre acides nucléiques permettent de repérer l’appartenance de marqueurs à un même segment. Dans le cas de la fragmentation du génome, lessegments obtenus sont le plus souvent chevauchants, ce qui permet d’affiner le positionnement des marqueurs. Enfin, les cartes qui utilisent la coloration en bandes des chromosomes occupent une place particulière, d’une part parce qu’il s’agit des plus anciennes et d’autre part, parce qu’elles mettent en jeu une propriété intrinsèque des chromosomes, même si la signification biologique de cette propriété est loin d’être claire.
  • Enfin, la séquence complète du génome constitue en elle même une carte particulière. C’est la plus fine de toutes les cartes.

L’ensemble des cartes qui utilisent, directement (séquence) ou indirectement (banques génomiques1), une distance correspondant au nombre de nucléotidesséparant deux marqueurs constitue ce qu’on appelle les cartes physiques. Les cartes d’hybrides d’irradiation constituent un troisième groupe de cartes. Issues de la fragmentation par irradiation de séquences génomiques, ces cartes sont calculées sur la base de modèles de liaison entre marqueurs, semblables aux modèles des cartes génétiques. Contrairement à ces dernières, les cartes d’hybrides d’irradiation ne reflètent cependantaucune propriété biologique associée au génome. Les différentes cartes, génétiques, physiques et les cartes d’hybrides d’irradiation ne sont pas interchangeables car elles reposent sur des notions de distances différentes. En outre, les relations entre cartes physiques et génétiques sont difficiles à établir notamment en raison de la nature différente des marqueurs utilisés. Les cartes physiques contiennent, en effet, une majorité de marqueurs uniques et conservés, par exemple des gènes. En revanche, l’établissement des cartes génétiques nécessite l’utilisation de marqueurs hautement polymorphes comme les microsatellites. Les cartes de Marey (Figure 1) qui permettent une représentation simultanée desmarqueurs communs à deux cartes d’un même chromosome, comme par exemple des gènes à la fois polymorphes et conservés, montrent que distances physique et génétique ne sont pas proportionnelles, mettant ainsi en lumière l’existence de régions génomiques dont les taux de recombinaison sont plus ou moins élevés. Cette observation conduit à prendre en compte une variabilité du « paysage génomique » suivant des régions de tailles diverses. Les plus connues de ces régions sont les isochores (voir glossaire) caractérisés par la variabilité de critères divers : fréquences des bases, structure des gènes, densité en gènes, nature des éléments répétés [1, 2].

Comparaison entre cartes génomiques de différentes espèces

Afin de réaliser une analyse comparative, il faut à la fois qu’une diversité existe dans les structures étudiées et que cette diversité n’excède pas un seuil au-delà duquel les structures biologiques n’ont plus de point commun. Le mécanisme évolutif clé de la cartographie comparée est le réarrangement chromosomique, qui consiste dans le déplacement de segments d’ADN, soit de manière locale (modification de l’ordre des gènes), soit à l’échelle des chromosomes eux-mêmes (translocations). La première étude évolutive systématique de ces modifications à fait l’objet d’un numéro spécial de Mammalia en 1986 [3]. Fondée sur la comparaison des chromosomes et l’estimation, par comparaison de leur coloration en bandes, des événements mettant en jeu un réarrangement, cette étude a clairement montré la pertinence phylogénétique de la cartographie comparée. Ce travail pionnier a été suivi de nombreuses études sur l’évolution de l’organisation desgénomes, études qui ont intégré d’autres types de données, en particulier l’ordre des gènes le long des chromosomes (voir en particulier [4, 5]).

La comparaison des « paysages génomiques » est également apparue fructueuse. Malgré les remaniements importants subis par les génomes au cours de l’évolution, le contexte génomique des gènes reste largement conservé au sein des mammifères. La classe d’isochore d’un gène est ainsi, sauf rare exception, conservée au sein des mammifères et, au-delà, chez la plupart des vertébrés. De plus, l’établissement de liens entre les cartes de deux organismes permet l’étude de la régionalisation de paramètres évolutifs. Ainsi, on peut montrer que des gènes voisins dans les cartes de l’homme et de la souris présentent des vitesses de substitutions silencieuses (glossaire) proches : schématiquement, la vitesse d’évolution d’un gène dépend de sa position dans le génome.

De manière encore plus globale, on peut comparer la longueur totale des génomes. Si la longueur physique des génomes de mammifères présente peu de différences, il n’en est pas de même de leur longueur génétique. Par exemple, la longueur physique des génomes de l’homme et de la souris est de l’ordre de 3x109 pb, alors que leurs longueurs génétiques sont d’environ 3 700 et 1 600 cM respectivement. L’analyse de ces différences de longueurs génétiques a conduit à deux hypothèses très différentes. La première repose sur l’observation que le facteur le mieux corrélé à la longueur génétique d’un génome est le nombre total de bras chromosomiques (R2 = 0,79, voir [6] pour une revue). Cela plaide en faveur de la nécessité d’au moins un chiasma par bras chromosomique -et non par chromosome comme il est classiquement attendu - pour permettre une disjonction correcte des chromosomes lors de la méiose [6, 10]. Cependant, d’autres auteurs ont remarqué une forte corrélation de la longueur génétique du génome avec l’âge de première reproduction au sein d’une espèce. Ceci a conduit à émettre une seconde hypothèse sur l’existence d’un facteur en relation avec le brassage de l’information génétique qui serait sélectionné, permettant ainsi d’assurer une variabilité génétique suffisante des espèces lorsque celles-ci ont un temps de génération élevé. On retrouve ici un débat classique concernant l’évolution des structures génomiques qui peut résulter soit d’une sélection sur la valeur sélective des organismes, soit du fonctionnement même de la machinerie cellulaire.

Ces quelques résultats, qui concernent le fonctionnement global du génome, ne doivent pas occulter le fait que les efforts actuels portent essentiellement sur l’utilisation de la cartographie pour la localisation et l’interprétation fonctionnelle de l’information génétique.

L’approche expérimentale permettant de comparer les cartes génomiques d’espèces différentes repose largement sur la similarité entre des séquences homologues et donc sur les possibilités d’hybridations entre les séquences des deux génomes. L’approche la plus globale consiste à hybrider, après marquage fluorescent, des fragments d’un chromosome d’une espèce avec le génome complet de la seconde espèce. Ce dernier sera donc « peint » avec les zones similaires, et donc supposés homologues, du chromosome sonde. Cette technique, appelée « zoo-FISH », permet d’identifier rapidement des synténies entre espèces (→). Une des représentations classiques est constituée par les grilles d’Oxford (Figure 2). Ce type d’approche présente cependant deux limitations importantes : la première est sa relative imprécision, due en particulier à la mauvaise définition des extrémités des segments génomiques « colorés » et la seconde, l’absence de détection des modifications locales des cartes, comme les inversions courtes.

(→) m/s 2002, n°2, p. 237

L’identification de marqueurs orthologues (qui résultent d’un événement de spéciation, et non de duplication) entre cartes permet un ancrage plus précis. Mais une des difficultés est due à la nature même des processus évolutifs qui combinent, d’une part, l’accumulation de mutations le long des branches de l’arbre phylogénétique des espèces et, d’autre part, des événements de duplications des gènes. Une similarité de séquences entre marqueurs, en particulier des gènes, peut donc aussi être la conséquence de régions dupliquées (paralogie). La discrimination entre les orthologies (pas de duplication dans l’histoire évolutive reliant les deux gènes) et les paralogies est difficile (→). L’approche la plus efficace à ce jour consiste à reconstruire la phylogénie de la famille des gènes impliqués (par exemple en utilisant la base Hovergen http://pbil.univ-lyon1.fr). Lorsque ce problème est résolu, on peut alors envisager de construire des correspondances entre les cartes - éventuellement de types différents -d’espèces différentes. La Figure 2 illustre cette possibilité en présentant une correspondance entre la carte génomique humaine, déduite de la séquence du génome, et les synténies chez la souris.

Les données actuellement disponibles concernent essentiellement, d’une part l’homme et/ou la souris et d’autrepart, des mammifères soit d’importance économique (porc, bœuf, mouton), soit permettant la recherche de gènes responsables de maladies génétiques humaines. Dans ce dernier cadre se trouvent notamment les animaux dits compagnons (chien, chat, cheval) qui ont été soumis à une forte sélection conduisant à l’existence de races multiples fortement homozygotes où peuvent s’exprimer des gènes récessifs. La démarche classique, utilisée par exemple en agronomie, consiste à localiser génétiquement des gènes intervenant pour des traits quantitatifs économiquement intéressants, à associer à la région génomique obtenue la région homologue chez l’homme et à utiliser les connaissances (séquences, EST) pour déterminer des gènes candidats. Un exemple typique de cette démarche est fourni par la caractérisation d’un gène (RN) impliqué dans la qualité de la viande de porc [7]. Dans le cas des animaux compagnons, la cartographie comparée peut également aider à associer aux gènes impliqués dans des maladies génétiques du chien leurs homologues humains (voir la très complète revue sur le chien dans [8] et l’article de Lyons [9]).

Bio-informatique et cartographie comparée

La bio-informatique joue un rôle central dans le domaine de la cartographie comparée. Elle y intervient essentiellement à deux niveaux : le premier concerne la représentation des connaissances et le second l’analyse des données proprement dites.

Représentation des connaissances
L’accès aux données est désormais largement facilité par l’utilisation d’Internet. Le Tableau I donne quelques points d’accès ainsi que des indications sur l’état des connaissances pour chacun des génomes concernés. Ces bases peuvent être interrogées sur le réseau au travers de formulaires de requêtes par le biais d’un navigateur. Dans la plupart des cas, ces formulaires permettent de réaliser des requêtes sur des critères génomiques ou cartographiques. De telles requêtes permettent d’obtenir des listes d’éléments biologiques répondant aux critères précisés ainsi qu’un lien hypertexte donnant accès à la description détaillée des éléments individuels. L’exploration d’informations complémentaires se fait généralement par l’intermédiaire de liens hypertextes qui permettent d’atteindre les bases de données appropriées (séquences, homologies, etc.). Les données cartographiques sont disponibles sous forme textuelle, graphique ou au travers d’outils de visualisation spécifiques.

La plupart des bases de données publiques distribuent leurs données sous la forme de fichiers dits « plats », c’est-à-dire sans structure de données explicite. Ceci permet aux bioinformaticiens de constituer aisément desjeux de données nécessaires à leurs analyses. En revanche, les données sont faiblement structurées et généralement dispersées dans de nombreux fichiers.

Force est de constater qu’en pratique, les bases de données dédiées à la cartographie comparée des génomes sont rares. On peut citer la Animal Genome Database of Japan (Tableau I) qui permet de naviguer au sein des cartes génomiques de différentes espèces de mammifères. De même, la base de données ArkDB pour la génomique comparative propose une intégration, au sein d’une structure commune, de données génomiques pour différentes espèces de vertébrés. La MGD consacrée à la souris permet en outre de visualiser, sur des cartes et sous forme de grilles d’Oxford, des homologies avec d’autres mammifères. Enfin, l’INRA propose également des outils de comparaison impliquant les génomes d’organismes de rente (http://www.tou-louse.inra.fr/lgc/pig/com-pare/compare.htm).

Le problème particulier de la modélisation des données biologiques a fait l’objet récemment d’un article dans médecine/ sciences (→). On peut souligner que dans le cas des génomes d’invertébrés (D. melanogaster, C. elegans) ou des plantes (A. thaliana), le système de gestion de bases de données génomiques AceDB (http://www.acedb.org//), basé sur un modèle à objets, est le plus largement utilisé. En revanche, la majorité des bases de données dédiées à la cartographie génomique des vertébrés repose sur le modèle relationnel, à l’exception de la base IGD consacrée au génome humain qui utilise également AceDB (ftp://genome.dkfzheidelberg.de/igd). Les systèmes de gestion de bases de données qui reposent sur le modèle relationnel offrent à la fois un langage d’interrogation puissant sur des systèmes robustes et des démarches de construction des bases largement validées. Le revers de la médaille est que le modèle mathématique sous-jacent reste relativement pauvre et ne permet pas la modélisation des structures complexes. Or, les protéines, séquences, cartes et citations de la littérature forment un corps de données cohérent dont la complexité doit être explicitée au même titre que les entités du domaine elles-mêmes. Cette complexité peut en revanche être explicitée par les modèles à objet, comme le montre la Figure 3 qui présente un fragment de la modélisation réalisée pour le système GeM (Genomic Mapping) développé dans notre laboratoire. Cette modélisation-objet utilise un formalisme dérivé d’UML (Unified Modeling Language), qui fait jouer un rôle central aux relations existant entre les entités biologiques et est implémenté en utilisant le système de représentation des connaissances AROM (Allier Relations et Objets pour Modéliser) (http://www.inrialpes.fr/romans/pub/arom/). La Figure 4 illustre un exemple de l’organisation des données du système GeM suivant ce modèle.

(→) m/s 2002, n°3, p. 366

Analyse des données
L’analyse des données de cartographies implique à la fois la mise en œuvre de méthodes statistiques classiques et des développements informatiques originaux, en particulier pour la comparaison de permutations. La mise en évidence de l’aspect régional de caractéristiques génomiques fait appel à des approches statistiques qui dépendent de la nature même des données. Si des méthodes de corrélation entre séquences voisines ont été longtemps l’approche statistique privilégiée (par exemple dans l’analyse des isochores), la disponibilité de longues séquences, voire de chromosomes entiers, ouvre la possibilité d’utiliser des méthodes qui parcourent ces longues séquences afin de rechercher de changements de structures statistiques. Actuellement les processus de Markov cachés constituent les méthodes les plus populaires du domaine. Enfin, lorsque les analyses portent sur des gènes, des méthodes d’auto-corrélation spatiale ont également été mises en œuvre [11].

Comparer la disposition de marqueurs homologues sur deux cartes revient à comparer des permutations d’objets. L’objectif est de construire, entre ces permutations, une distance qui ait un sens en tant que distance évolutive, par exemple qui puisse s’exprimer en nombre d’événements permettant d’atteindre ces deux permutations à partir d’une configuration ancestrale commune. De très nombreuses études ont été réalisées dans le cadre de petits génomes (bactéries, organelles). Une très bonne revue pourra être trouvée dans [12]. L’utilisation de ces méthodes dans le cadre de la cartographie comparée de mammifères reste néanmoins à développer, mais il convient de remarquer que les données sont encore peu nombreuses. Il est raisonnable, cependant, de penser que ces approches pourront rapidement se développer et permettront de donner un nouvel éclairage sur la variabilité, le long du génome, des différents mécanismes de réarrangement et de leur relation avec les caractéristiques fonctionnelles du génome.

Conclusions

Les cartes génomiques sont des objets biologiques complexes qui positionnent de plusieurs façon, sur une même structure spatiale, des entités biologiques très différentes (gènes, marqueurs anonymes mais auss propriétés statistiques, évolutives ou structurales). La comparaison de tels objets entre espèces implique la manipulation de concepts très divers, et il ne paraît plus possible désormais d’échapper à une modélisation sophistiquée permettant une manipulation « intelligente » de ces données. De nombreux projets sont actuellement en cours, mais aucun n’a encore le degré d’achèvement permettant de tirer au mieux parti de la richesse et l’abondance des données qui s’accumulent très rapidement (séquences génomiques, cartes physiques, génétiques, EST, etc.). D’une manière plus générale, dans l’optique d’une modélisation intégrée de l’ensemble des connaissances liées aux génomes, la cartographie comparée jouera certainement un rôle majeur par les possibilités qu’elle offre de relier information génétique, fonctionnement cellulaire et évolution.

 
Glossaire
Isochore Région (de taille variable) d’un chromosome caractérisée par une homogénéité du taux de G + C. On distingue ainsi traditionnellement les isochores « lourds » (fort taux de G + C), « moyens » et « légers » (faible taux G + C).
Substitution silencieuse On considère traditionnellement deux types de mutations sur l’ADN (et affectant le produit des gènes) : les insertions/délétions (un ou plusieurs nucléotides ont été ajoutés/perdus) et les substitutions (un ou plusieurs nucléotides ont été remplacés). Dans le cas où la substitution ne modifie pas la séquence protéique codée par le gène (mutation vers un codon synonyme), elle est qualifiée de silencieuse. Très souvent, une substitution sur la troisième position d’un codon est silencieuse. Vitesse de substitution : vitesse à laquelle les substitutions s’accumulent.
 
Footnotes
1 L’ADN génomique est fragmenté et inséré dans des vecteurs pour former une banque génomique, image fragmentée de la séquence du génome.
* Ce livre est intégralement consacré à la cartographie comparée, avec une forte composante informatique. Outre les deux articles cités liés à la présente revue, de très nombreux articles sont consacrés à l’algorithmie et à la statistique de la comparaison de l’ordre des gènes entre espèces.
References
1.
Bernardi G. Isochores and the evolutionary genomics of vertebrates. Gene 2000; 241 : 3–17.
2.
D’Onofrio G, Mouchiroud D, Aïssani B, Gautier C, Bernardi G. Correlations between the compositional properties of human genes, codon usage and amino acid composition of proteins. J Mol Evol 1991; 32 : 504–10.
3.
Numéro spécial sous la direction de B. Dutrillaux. Mammalia 1986; 50 : 1-203. Ce numéro spécial regroupe 9 articles consacrés à l’analyse chromosomique appliquée à la phylogénie des mammifères.
4.
Anderson L, Archibald A, Ashburner M, et al. Comparative genome organization of vertbrates. Mamm Genome 1996; 7 : 717–34.
5.
Murphy WJ, Stanyon R, O’Brien SJ. Evolution of mammalian genome organization inferred from comparative gene mapping. Genome Biol 2001; 2 : 1–8.
6.
De Villena FPM, Sapienza C. Recombination is proportional to the number of chromosome arms in mammals. Mamm Genome 2001; 12 : 318–22.
7.
Robic A, Jeon TT, Rey V, et al. Construction of a highresolutionRH map of the human 2q35 region on TNG panel and comparisoon with a physical map of the porcine homologous region 15q25. Mamm Genome 2001; 12 : 380–6.
8.
Ostrander EA, Galibert F, Patterson DF. Canine genetics comes of age. Trends Genet 2000; 16 : 117–24.
9.
Lyons LA. Companion animals genetics. In : Sankoff D, Nadeau JH, eds. Comparative genomics: empirical and analytical approaches to gene order dynamics, map alignment and the evolution of gene families. Computational Biology Series*. Dordrecht: Kluwer Academic Publishers, 2000: 367–400.
10.
Faraut T, Demongeot J. Benefits of a model of segregation for the understanding of chromosomal evolution. In : Sankoff D, Nadeau JH, eds. Comparative genomics : Empirical and analytical approaches to gene order dynamics, map alignment and the evolution of gene families. Computational Biology Series*. Dordrecht: Kluwer Academic Publishers, 2000: 13–8.
11.
Matassi G, Sharp O, Gautier C. Chromosomal location effects on gene sequences evolution in mammals. Curr Biol 1999; 9 : 786–91.
12.
Sankoff D, Nadeau JH. Comparative genomics: empirical and analytical approaches to gene order dynamics, map alignment and the evolution of gene families. Computational Biology Series*. Dordrecht: Kluwer Academic Publishers, 2000: 558 p.