Divers stimulus relevant de mécanismes physiologiques fondamentaux comme la survie, la prolifération, la différenciation cellulaire ou le développement embryonnaire, entraînent la modulation de nombreux gènes au sein des cellules concernées. Dans le but d’identifier les gènes-clé de ces phénomènes, des outils permettant leur analyse à grande échelle ont été développés, qui se fondent sur l’isolement de transcrits dont l’expression varie selon que la cellule est ou n’est pas stimulée. Au vu du nombre restreint de gènes dont la fonction est identifiée, des stratégies d’analyse fonctionnelle du génome deviennent nécessaires.
Une de ces approches, « le piégeage de gènes », permet de révéler des locus dont la transcription est activée lors d’une stimulation donnée, indépendamment de leur régulation posttranscriptionnelle. Cette technique offre l’avantage de coupler l’étude de la modulation d’un transcrit et la conséquence fonctionnelle de cette variation, elle-même directement liée au stimulus appliqué. Ce couplage est le fondement même de la technique du « piégeage de gènes ». Le principe (Figure 1) est fondé sur l’insertion aléatoire, dans le génome cellulaire, d’un vecteur plasmidique ou rétroviral dépourvu de promoteur propre, et contenant un gène révélateur immédiatement précédé d’un site accepteur d’épissage. Lorsque l’insertion survient dans un locus « actif », en présence du stimulus étudié, un transcrit de fusion composé d’une partie 5’ du gène « piégé » et du gène révélateur, s’exprime sous le contrôle du promoteur du gène « piégé ». L’analyse de la modulation de l’expression de ce gène de fusion révèle ainsi celle du gène piégé dont l’identification est accessible par 5’RACE (rapid amplification of cDNA ends). Si l’insertion est aléatoire, l’expression de la protéine « révélatrice », elle, sera d’autant plus efficace que le vecteur est inséré en 5’ du gène. En effet, la protéine révélatrice peut être traduite à partir de l’ATG du gène révélateur. Pour que celui-ci fonctionne en dehors de l’ATG de l’exon « piégé », les intégrations doivent prendre place avant l’exon codant du gène « piégé », de fait en 5’ du gène. Si les intégrations ont lieu après cet exon, c’est l’ATG de l’exon codant qui permettra la traduction de la protéine chimérique et, dans ce cas, la traduction de la protéine du gène révélateur ne se produirait que dans environ 30 % des cas, et la protéine chimérique pourrait être moins stable que la protéine sauvage. Quant à l’utilisation de rétrovirus, dont les LTR (long terminal repeat) contiennent des régions riches en CG, fréquentes dans les parties 5’ des gènes, elle augmente potentiellement le nombre d’intégrations dans les parties 5’ des gènes. Il faut signaler le développement récent d’un vecteur lentiviral, dont l’utilité est surtout de pouvoir « piéger » des gènes impliqués dans l’engagement de cellules souches quiescentes vers différents lignages cellulaires [2].
Les différents vecteurs utilisés varient essentiellement par la nature des gènes révélateurs. Ceux-ci codent pour des activités enzymatiques particulièrement sensibles comme le gène β-gal codant pour la β-galactosidase ou le gène geo codant pour un produit de fusion entre l’activité β-galactosidase et la néomycine-phosphotransférase conférant la résistance au G418. Cette sensibilité permet l’identification de transcrits faiblement exprimés et faiblement modulés, mais dont les produits peuvent avoir cependant des fonctions majeures, et leur variation d’expression entraîner un changement de comportement cellulaire très important. Récemment, l’utilisation comme gène révélateur du gène codant pour la GFP (green fluorescent protein) [1] permet un criblage direct du niveau d’expression des gènes piégés, proportionnel à l’intensité de fluorescence, visualisable par cytométrie de flux selon une cinétique en temps réel. Un autre vecteur, dans lequel un domaine transmembranaire de type II est fusionné en N-terminal du gène géo, permet de « piéger » des locus codant pour un large éventail de molécules transmembranaires comme des molécules d’adhérence ou des récepteurs membranaires [3].
L’application de cette technique à des cellules ES a permis de mettre en évidence des gènes critiques pour le développement embryonnaire non seulement lors d’étapes précoces, mais également tardives [4]. L’intégration des vecteurs de « piégeage de gènes » conduit à une mutation insertionnelle du gène dans lequel l’intégration a eulieu, et l’analyse phénotypique des embryons mutants obtenus révèle directement le rôle des produits des gènes piégés au cours du développement. De plus, l’expression spatio temporelle des gènes piégés est directement visualisable, indépendamment de leur identification, par le suivi de l’expression du gène révélateur. Un exemple bien répertorié est celui du gène Shrm, un déterminant critique de l’architecture cellulaire nécessaire à la neurulation dont la fonction requiert sa liaison à la F-actine [5].
Dans les cellules plus spécialisées, le « piègeage de gènes » permet d’identifier des gènes liés à des événements de différenciation ou d’activation cellulaire. Citons ceux qui sont induits lors de réponses cellulaires spécifiques à des cytokines comme le HGF (hepatocyte growth factor) [1], le TGF-β (transforming growth factorβ) [6], le GM-CSF (granulocyte-macrophage colony-stimulating factor) [7] ou à des facteurs apoptotiques [8] ou encore liés à l’activation des lymphocytes B par les lipo-polysacharides [9] et ont pu être révélés grâce à cette approche. Il est important de remarquer que, dans chacune de ces études, plusieurs nouveaux gènes ont été découverts à partir d’une séquence courte identifiée par 5’ RACE, complétée ensuite par la détection d’une séquence codante complète présente dans les banques de données. D’autres ont révélé de nouvelles fonctions pour des gènes déjà identifiés, ou de nouvelles combinaisons de domaines protéiques [10] du produit de gènes connus. C’est le cas par exemple de la sémaphorine 6, de l’EPH4 [11], de la neuropiline [12]. Certains intermédiaires dans des voies de transduction pourtant largement explorées ont aussi été mis en évidence. Ce dernier exemple est illustré par l’analyse du phénotype des embryons résultant de l’implantation de cellules dont le gène piégé est la molécule LD6, un nouveau membre d’une famille de récepteur de type LDL. Ces animaux présentent les mêmes défauts de développement embryonnaire que ceux qui sont observés pour des mutants de différents gènes Wnt démontrant l’implication de LDL6 dans de nouveaux aspects de la signalisation par Wnt [13].
L’ensemble de ces résultats montre la puissance de cet outil dans l’analyse fonctionnelle du génome à grande échelle. Plusieurs milliers de gènes sont accessibles par cette technique expérimentale, au vu du grand nombre d’intégrations aléatoires révélées. L’analyse des gènes qui en résulte reste encore loin d’une saturation de la stratégie. Bien que les données de l’ensemble du génome de différents organismes, dont le génome humain, soient disponibles dans les banques de données, les informations fonctionnelles ne concernent pas plus de 15 % des 35 000 gènes humains répertoriés ou potentiels. Les informations que nous offre cette analyse génomique, associées à l’analyse des produits des gènes « piégés », augmenteront le nombre de gènes auxquels les informations fonctionnelles pourront être assignées.
Ainsi, outre son application spécifique à la recherche de gènes exprimés de façon variable, cette technique est complémentaire de celles qu’utilise l’analyse du génome. Notamment, la révélation des intégrations ayant pris place dans la région 5’ des gènes peut permettre de mettre en évidence l’expression d’exons spécifiques d’un tissu donné, ou d’exons alternatifs spécifiques à la fonction des isoformes résultantes [14]. Les ADNc correspondants peuvent alors compléter la constitution de « bio-puces » spécifiques. De plus, les modulations observées sont indépendantes de régulations post-transcriptionnelles des ARN qui, pour certaines, pourraient ne pas être mises en évidence lors de ces recherches par l’utilisation des « bio-puces » [15]. Une étude menée sur la recherche de gènes impliqués dans les phénomènes d’apoptose par privation en facteur de croissance a démontré par l’approche du « piégeage de gènes », que les gènes YB1 et Rad 50 sont sur-exprimés alors qu’aucune modulation n’a été observée par l’utilisation de puces à ADN.
Enfin, la mise en place d’un crible répondant à la recherche de variations de gènes par l’utilisation du piégeage de gènes représente peu d’investissement en terme de matériel expérimental.