Recherche et annotation de gène

INTRODUCTION

Les projets de séquençage de génomes de divers organismes sont relativement nombreux et conduisent à une publication de données publiques de plus en plus importante. Ainsi, le séquençage du génome humain a pris fin en septembre 2001 et a généré une masse de données considérable dont il faut extraire l'information (localisation des gènes codants et non codants, sites régulateurs de l'expression génétique...)... sachant que plus de 95% de ce génome est constitué de junk DNA (séquences non codantes). L'application directe et pratique de la connaissance de tous les gènes constituant le génome humain réside en la multiplication des cibles thérapeutiques potentielles. Connaissant l'implication d'un gène dans une maladie, on pourra agir directement sur lui, son transcrit ou sa protéine.

L'étude du génome consiste en un repérage des gènes potentiels, dans un premier temps. Ensuite, on cherche à vérifier si le gène putatif à un rôle fonctionnel par comparaison de cette séquence contre des bases de données d'autres séquences connues. C'est l'étape de l'annotation génique qui consiste à déterminer le rôle d'un gène par homologie de séquences. Une autre méthode beaucoup plus directe consiste à utiliser des logiciels de prédiction de gène. Dans ce sens la bioinformatique est un outil puissant pour une annotation rapide des gènes, et un outil qui s'avère nécessaire puisque le nombre de gènes à étudier ne cesse d'augmenter.

Des outils disponibles sur internet ont été mis en place afin de permettre ce type d'étude. Le but de ces travaux pratiques a donc été de nous familiariser avec ces outils, afin de caractériser un gène au sein d'un fragment contigü d'ADN humain.

Les objectifs du TP sont de récupérer ce fragment génomique, d'identifier le gène qui y est contenu, et notamment de mettre en évidence sa structure introns-exons, les différents signaux fonctionnels tels que le promoteur, le site de polyadénylation.... Ceci nous permettra par la suite de déterminer le ou les ARNm issus de la transcription et la séquence protéique correspondante. Ensuite, nous étudierons l'expression de ce gène à savoir les formes alternatives de l'ARNm suite à l'épissage ainsi que sa spécificité tissulaire.

Le protocole de ce TP est basé sur le supplément de Nature genetics de septembre 2002.

I/ MATERIEL ET METHODES

1. Récupération du fragment génomique

Nous avons travaillé sur le contig ZNF3 présent sur le chromosome 7 humain. Ce contig se situe entre les positions 98196244 et 98214105 sur le chromosome 7. Afin d'être sûrs de récupérer la totalité du gène, nous avons étendu la taille du fragment génomique de 1000 bases en amont et en aval.

Nous avons pu récupérer sa séquence nucléotidique grâce au serveur UCSC (http://genome.ucsc.edu) qui contient les séquences génomiques de l'Homme et de la souris.

La séquence étudiée a une taille inférieure à 20 kB, pour des raisons de manipulation de données dans windows. De plus, le gène doit présenter des EST afin de permettre l'étude de son expression, et nous travaillerons sur le brin +.

2. Identification et reconstruction du gène

Lesobjectifs de cette étape est de déterminer la position des exons et introns au sein de la séquence, d'annoter le promoteur, les UTR et le site de polyadénylation. Nous pourrons ainsi en déduire la séquence du ou des ARNm. Cette étape a été réalisée suivant deux approches parallèles.

Une approche entièrement automatique avec l'utilisation d'un programme spécialisé, GENSCAN (http://genes.mit.edu/GENSCAN.html) et une approche par homologie avec l'utilisation de BLAST (http://www.ncbi.nlm.nih.gov/BLAST/).

GENSCAN est un logiciel de prédiction des positions des introns et exons d'un gène. Il est basé sur les modèles de Markov cachés (HMM). On soumet la séquence du contig au logiciel via l'interface web et celui-ci nous donne le résultat sous forme graphique.

L'approche par homologie va nous permettre de déterminer les régions codantes du contig en faisant un alignement de la séquence nucléotidique contre une banque d'EST (BLASTN). Cette première détermination de la position des exons sera affinée par un alignement de la séquence nucléotidique contre une banque non redondante de protéines (BLASTX).

3. Traduction

Le but est de générer la séquence finale de la protéine en utilisant un outil de traduction disponible sur BioCommons (http://biocommons.bcc.washington.edu/services/psoftware/dnatranslator/index.html).

4. Etude de l'expression

Nous tenterons de déterminer une éventuelle spécificité tissulaire de l'expression du gène étudié en regardant l'origine tissulaire des EST ayant servi à la détermination des exons du gène. Cette origine tissulaire est précisée dans les fiches Genbank des EST.

II/ RESULTATS-DISCUSSION

1.Récupération du fragment génomique

La séquence génomique du contig ZNF3 peut être visualisée ici.

2. Identification et reconstruction du gène

2.a. Résultat obtenu grâceà GENSCAN

Les positions des exons déterminées par GENSCAN sont consultables ici.

La sortie graphique de GENSCAN pour notre contig est présentée ci-dessous:

Le tableau ci-dessous, présente les différents exons prédits par le logiciel ainsi que leur position sur la séquence soumise.

EXONS	POSITIONS
1	692-928
2	3136-3172
3	7078-7166
4	7447-7573
5	10496-11565

La position 1 correspond au début de la séquence soumise.

GENSCAN a prédit la présence de cinq exons et d'un site de polyadénylation (14323 - 14326). Cependant, on peut remarquer que GENSCAN n'a pas repéré d'exon initial. Il n'a pas non plus repéré de séquence promotrice

2.b. Résultat obtenu par homologie (BLAST)

La première étape consistant à aligner la séquence contre une banque d'EST humains fournit les résultats suivants en sortie de BLASTN :

Nous avons sélectionné au départ les EST qui semblaient matcher sur la quasi-totalité de la longueur de notre séquence. Ainsi l'EST 4 semblait correspondre à ce critère. Mais il s'est avéré que sur la fin de notre séquence les alignements ne se faisaient pas avec la fin correspondante de cet EST, mais avec des séquences répétées de l'EST. De plus le pourcentage de similitude entre les séquences alignées était mauvais.

Par contre, les EST 1, 2 et 3 correspondent au critère précédemment défini. Ils ne s'alignent par contre pas avec la totalité de la séquence étudiée.

Les résultats obtenus sont présentés dans le tableau suivant:

Exon	Position	EST correspondant
1	382 - 408	1
2	981 - 1073	2 et 3
3	3051 - 3168	2 et 3
4	3135 - 3172	1
5	5272 - 5405	1, 2 et 3
6	7077 - 7167	2 et 3
7	7444 - 7573	2 et 3
8	10495 - 11224	2 et 3

Ainsi trois EST nous on permis de déterminer les positions des exons constituant le gène. Il semblerait que l'on ait ici un indice d'épissage alternatif au vue des exons 3 et 4 car ils présentent une large zone de chevauchement. Donc il y aurait deux ARNm correspondant au gène étudié.

Ci-dessous est présenté le modèle d'épissage alternatif proposé. Nous avons émis l'hypothèse que les deux formes d'ARNm possibles avaient en commun les 4 derniers exons.

image

L'ARNm 1 est constitué des exons 1, 4, 5, 6, 7, 8 (6 exons au total). L'ARNm 2 est constitué des exons 2, 3, 5, 6, 7, 8 (6 exons au total).

Détermination des UTR et confirmation de la position des exons:

Pour cette étape nous avons aligné notre séquence nucléotidique contre la banque nr. Ceci nous a permis de déterminer la partie des ARNm qui sera traduite. Les exons n'apparaissant pas sur l'alignement de séquence correspondent donc aux UTR.

La sortie graphique du blast est présentée ci-après:

Le tableau ci-dessous présente la comparaison entre les exons précédemment déterminés et ceux présentés sur l'alignement ci-dessus:

Exon déterminé par blastn	Présence suite au blastx
1	non
2	non
3	non
4	non
5	Seulement pour la partie correspondant aux positions 5351 à 5405
6	oui
7	oui
8	oui

Ainsi les exons 1 à 4, ainsi que le début de l'exon 5, n'apparaissent plus après le blastx. Pour chaque forme d'ARNm, les deux premiers exons et une partie du troisième exon correspond à l'UTR 5'.

Nous n'avons pas déterminé d'UTR 3'. Il est possible que nous n'ayons pas réussi à déterminer la fin du gène. Par contre la fin de la séquence alignée issu de la banque nr apparaît bien sur notre séquence. Nous avons donc bien la séquence protéique entière. Celle-ci est présentée ci-dessous :

METQADLVSQEPQALLDS SALPSKVPAFSDKDSLGDEMLAAALLKAKSQ (exon 5) QELVTFEDVAVYFIRKEWKRLEPAQRDLYRDVMLENYGNVFSLGKE (exon 6) DRETRTENDQEISEDTRSHGVLLGRFQKDISQGLKFKEAYEREVSLKRPLGNSPGERLNR (exon 7) KMPDFGQVTVEEKLTPRGERSEKYNDFGNSFTVNSNLISHQRLPVGDRPHKCDECSKSFN RTSDLIQHQRIHTGEKPYECNECGKAFSQSSHLIQHQRIHTGEKPYECSDCGKTFSCSSA LILHRRIHTGEKPYECNECGKTFSWSSTLTHHQRIHTGEKPYACNECGKAFSRSSTLIHH QRIHTGEKPYECNECGKAFSQSSHLYQHQRIHTGEKPYECMECGGKFTYSSGLIQHQRIH TGENPYECSECGKAFRYSSALVRHQRIHTGEKPLNGIGMSKSSLRVTTELNIREST (exon 8)

Détermination de la position des sites fonctionnels:

Détermination de la séquence promotrice : Genscan n'a pas détecté de séquence promotrice.

Détermination du site de polyadénylation : il existe trois signaux présents sur le préARNm qui permettent de déterminer la position d'un site de polyadénylation. On a un héxamère de type AAUAAA ou AUUAAA,10 à 30 bases en amont du site de clivage. Au site de clivage on a un dinucléotide CA , puis 20 à 40 bases après le site de clivage on peut trouver une région riche en GU, de séquence variable. Nous n'avons pas trouvé l'ensemble de ces trois éléments sur notre dernier exon.

3. Traduction de la séquence :

Nous avons traduit grâce au logiciel précédemment cité la totalité de la séquence du fragment étudié. La traduction s'est faite dans les trois cadres de lecture possibles et nous a permis d'affiner la position des exons, en déterminant les jonctions intron/exons et le codon-stop.

Les jonctions intron/exons sont caractérisées par la présence d'un site donneur et d'un site accepteur. A la fin d'un exon on doit retrouver un dinucléotide AG, et au début d'un intron on doit retrouver un dinucléotide GT. Ce sont ces dinucléotides que nous avons recherchés afin de déterminer la position exacte des exons sur notre séquence.

Le tableau ci-dessous présente les résultats obtenus, comparés à ceux déterminés précédemment :

Exon	Position d'après Blast	Position d'après la recherche des jonctions intron/exon
1	382-408	382-499
2	981-1073	981-1074
3	3051-3168	3050-3073
4	3135-3172	3050-3073
5	5272-5405	5273-5404
6	7077-7167	7076-7158
7	7444-7573	7445-7582
8	10495-11224	10494-11563

Nous avons recherché des informations sur le gène ZNF3 sur le site d'Ensembl (http://www.ensembl.org/Homo_sapiens/geneview?gene=ENSG00000166526). C'est un logiciel de prédiction de transcription et de traduction basé entre autres sur Genscan ou Genewise. L'information sur ce site prévoit la traduction du gène en trois protéines, toutes étant des protéines à doigts de zinc de 392, 131 et 446 acides aminés respectivement. Cette dernière correspond à la protéine que nous avons déterminée par homologie. Les renseignements collectés sont les suivants :

protéine HZF3.1 ayant un domaine KRAB, protéine à doigts de zinc 38 impliquée dans la différenciation cellulaire et/ou la prolifération cellulaire. Elle serait localisée au niveau du noyau cellulaire, sans spécificité tissulaire.

On peut constater que la positon de début et de fin de certains exons est bien conservée entre les deux méthodes. Néanmoins pour un certain nombre d'exons la position diffère nettement, parfois de plusieurs centaines de bases.

La séquence protéique a déjà été précédemment déterminée grâce au blastx. Nous nous sommes servis de celle-ci pour déterminer les cadres de lectures dans lesquels se faisait la traduction de chaque exon, par rapport au début de la séquence. Le tableau ci-dessous présente les résultats correspondant :

Exon	Cadre de lecture de la traduction
5	2ème
6	3ème
7	1er
8	1er

4. Etude de l'expression

Nous avons regardé l'origine tissulaire (fiches GenBank) des EST alignés sur notre séquence par BLASTN. Voici quelques organes où sont exprimés ces EST :

utérus, coeur, foie,rate, rein, estomac, rétine, cerveau (hypothalamus), prostate, poumon, placenta...

Nous n'avons pas observé de prédominance d'un organe particulier, donc on en conclut qu'il n'y a pas de spécificité tissulaire.

CONCLUSION

Nous avons étudié un contig humain selon deux méthodes. La première basée sur le logiciel de prédiction Genscan nous a fourni une annotation automatique de cinq exons contenus dans le contig, ainsi que d'un site de polyadénylation. La deuxième basée sur l'homologie de séquences a conduit à l'annotation de huit exons, dont les quatre premiers ne sont pas traduits. En effet, nous avons détecté un épissage alternatif conduisant à deux formes d'ARNm, ne différant seulement qu'au niveau de la région non traduite. Ainsi, la traduction de ces deux ARNm conduit à la synthèse de la même protéine. Cependant, cette étude reste incomplète puisque nous n'avons pas pu mettre en évidence le site promoteur, l'UTR 3' et le site de polyadénylation.

Cependant, en recherchant des données sur notre contig sur Ensembl, nous nous sommes aperçus de la divergence de nos résultats. En effet, Ensembl prédit la synthèse de trois protéines différentes à partir du contig, dont celle que nous avons déterminée grâce au BLASTX (100% d'identité). Si on prend Ensembl comme référence, il nous manquerait deux protéines, correspondant à un épissage alternatif supplémentaire dans la région codante. On a aussi pu voir la limite du logiciel Genscan.