td .pdf
Nom original: td.pdfTitre: Microsoft PowerPoint - TD E-gène2Auteur: yasmine
Ce document au format PDF 1.4 a été généré par Microsoft PowerPoint - TD E-gène2 / ScanSoft PDF Create! 5, et a été envoyé sur fichier-pdf.fr le 10/12/2010 à 19:00, depuis l'adresse IP 41.107.x.x.
La présente page de téléchargement du fichier a été vue 4565 fois.
Taille du document: 4.3 Mo (53 pages).
Confidentialité: fichier public
Aperçu du document
République Algérienne Démocratique et Populaire
Ministère de l’enseignement supérieur et de la recherche scientifique
Université Saad Dahleb Blida
Département de biologie
Licence 3 B.C.M, génétique, microbiologie
Module: bioinformatique (annotation génomique)
Prof de module :Mohamed belhocine
Réalisé par Le groupe "BHK"
en coopération avec l'Université de BLIDA –
Département de Biologie
© 2008 - 2010
1
http://egene.dixkey.com/index.php?page=home
2
Pour ajouter les séquences a vos paniers ,cliquez
sur:
1
Mon Panier
2
Ajouter une nouvelle séquence à mon panier
3
Les étapes d’annotation d’une
séquence:
1-Recherche ORF
2-Traduction
3-Modélisation 3D
4-Domaines Protéiques
5-Analyse Blast
6-Rapport Taxonomique
7-Homologues
8-Alignement Multiple
9-Arbre Phylogénique
10-Classification Taxonomique
11-Conclusion
4
1-la recherche d’ORF:
• Open Reading Frame = cadre de lecture ouvert
5
On utilise le logiciel SMS
Séquence Manipulation Suite
PROTOCOLE:
• SMS ORF finder copier coller la séquence génomique
avec la forme fasta (ex: >EXEMPLE_1190010ADN
génomique (Polynesia Archipelagos: Tikehau Lagoon /code
génétique standard /cadre de lecture (1,2, 3) /any codon pour
l’initiation /nombre minimale d’a.a =60 1 et 2 .
6
•1
•
•
•
•
•
sens directsubmit résultats
Ex:
No ORFs were found in reading frame 1.
>ORF number 1 in reading frame 2 on the direct strand extends from base 266 to base 457.
CTACTGCTTTCTCCATTATGTCTTTTGGATAAACACGACCATTTCTGTTCTTCTTGT
TTG
TTTGTGCGAAGATACCTTGAATGGTGTAATCTTTTTCACCATTCTCTTTTTTCTCAA
CTA
AACATTCTATATGACTTTCGTTATACTCTGTTATTAACTTCATGTAAGTTCCTTTATA
GT TTGTTCTATTGA
>Translation of ORF number 1 in reading frame 2 on the direct strand.
LLLSPLCLLDKHDHFCSSCLFVRRYLEWCNLFHHSLFSQLNILYDFRYTLLLTSCKFL
YS LFY*
>ORF number 1 in reading frame 3 on the direct strand extends from base 477 to base 656.
TTCTTGAATGCGTCTAATTTGTCACCGTCAATATATGCGACAAAAGGTAATTTACC
AGTT
TCCTTGGTAATTACCGTATCAATTCGATTTATCTTCTTCTTGAAGACAACCTTACCT
TTT
GGTTTTACAGCTTCTCTTAAAGAAGAAAATGTTTTCATTACAAGAATCTCCGTTTT
GTAA >Translation of ORF number 1 in reading frame 3 on the direct strand.
FLNASNLSPSIYATKGNLPVSLVITVSIRFIFFLKTTLPFGFTASLKEENVFITRISVL*
7
2 :sens indirect submitrésultats.
EX:
No ORFs were found in reading frame 1.
>ORF number 1 in reading frame 2 on the reverse strand extends from base 284 to base 778.
CAAATTAGACGCATTCAAGAATCAAAAAGATGCGGAGAAGTCAATAGAACAAACTATAAA
GGAACTTACATGAAGTTAATAACAGAGTATAACGAAAGTCATATAGAATGTTTAGTTGAG
AAAAAAGAGAATGGTGAAAAAGATTACACCATTCAAGGTATCTTCGCACAAACAAACAAG
AAGAACAGAAATGGTCGTGTTTATCCAAAAGACATAATGGAGAAAGCAGTAGCTAAATAC
GACAAAGAACAAATTAAAACTAAAAGAGCAGTTGGAGAGTTAAATCACCCAGAAGGGCCA
ACTGTAAACTTAGATAAGGTTTCACACTTAATCACCAACCTTGAATTCAAGGGTGATGAT
ATAGTAGGAAAGGCACGAATACTTGATACGCCCAACGGGAAGATTGTAAAAGGTCTTCTT
GAAGGTGGTGTTCAACTAGGAGTGTCAACTCGTGGTATGGGTAGTCTTGAATCAAAGAAT
GGTGCTATGCAGGTA
>Translation of ORF number 1 in reading frame 2 on the reverse strand.
QIRRIQESKRCGEVNRTNYKGTYMKLITEYNESHIECLVEKKENGEKDYTIQGIFAQTNK
KNRNGRVYPKDIMEKAVAKYDKEQIKTKRAVGELNHPEGPTVNLDKVSHLITNLEFKGDD
IVGKARILDTPNGKIVKGLLEGGVQLGVSTRGMGSLESKNGAMQV
>ORF number 1 in reading frame 3 on the reverse strand extends from base 84 to base 356.
TACAGAACAAGTCTAAAAATCTTTGTTTTTATAAATAATAATTACAAAACGGAGATTCTT
GTAATGAAAACATTTTCTTCTTTAAGAGAAGCTGTAAAACCAAAAGGTAAGGTTGTCTTC
AAGAAGAAGATAAATCGAATTGATACGGTAATTACCAAGGAAACTGGTAAATTACCTTTT
GTCGCATATATTGACGGTGACAAATTAGACGCATTCAAGAATCAAAAAGATGCGGAGAAG
TCAATAGAACAAACTATAAAGGAACTTACATGA
>Translation of ORF number 1 in reading frame 3 on the reverse strand.
YRTSLKIFVFINNNYKTEILVMKTFSSLREAVKPKGKVVFKKKINRIDTVITKETGKLPF
VAYIDGDKLDAFKNQKDAEKSIEQTIKELT*
8
Copier -coller les résultats dans le champ
résultats bruts
Très bien!
9
10
PROTOCOLE:
L’ORF le plus long dans ce cas :
Taille de L'ORF:
début: 284
fin: 778
Sens:
direct
indirect
Etat:
Codant
Non Codant
Cliquez ici
Traduction: Actualiser
résultat:
>EXEMPLE_1190010Traduction [284-778 sens direct ]
QIRRIQESKRCGEVNRTNYKGTYMKLITEYNESHIECLVEKKENGEKDYTIQGIFAQTNKKNRNGRVYPKDIMEKAVAKY
DKEQIKTKRAVGELNHPEGPTVNLDKVSHLITNLEFKGDDIVGKARILDTPNGKIVKGLLEGGVQLGVSTRGMGSLESKN
GAMQV
[Pour info] 5' incomplet: ne commence pas par une Méthionine.
[Pour info] 3' incomplet: ne termine pas par un codon STOP.
NB:
Si la séquence traduite est complète (les deux cotés) calculer la masse moléculaire (KD)
11
3-Modélisation 3D:
12
PROTOCOLE:
On utilise le logiciel LOOP-3D
Learning, Observing and Outputting Protein Patterns
Job name
exemple@hotmail.fr
>EXEMPLE_1190010Traduction (la forme fasta)
Input sequence (amino acids one-letter code only, no names, numbers etc):
Copier-coller la traduction (sans la forme fasta)
EX:
QIRRIQESKRCGEVNRTNYKGTYMKLITEYNESHIECLVEKKENGEKDYTIQGIFAQTNKKNRNGRVYPKD
IMEKAVAKY
DKEQIKTKRAVGELNHPEGPTVNLDKVSHLITNLEFKGDDIVGKARILDTPNGKIVKGLLEGGVQLGVSTR
GMGSLESKN
GAMQV
submit
13
Vous allez recevoir un mail de validation (Your LOOPP job EXEMPLE_1190010T (179395) has been
SUBMITTED )
Après 1 jour vous allez recevoir l’E-mail (your job is finished.)
Your LOOPP job NCBI_HMP16S_READ_1118736745092Traduction (168756) FINISHED
EX:
here 1
You can view the current results
Your final result file will be available for download via http here or via ftp here
You may follow program's progress by viewing here
Timeout information and the current job status can be found here
You can delete job files by clicking here
For more information, please visit our FAQ page.
2 [PDB file (backbone only)] 3-enregistrer sous bureau
4dans le champ résultats bruts ,cliquez sur
parcourir bureauenvoyer
visualisez vos protéines en 3D.
Et n’oubliez pas d’interpréter ces résultats dans le champ vide a droite ???
14
Pour mieux comprendre
ouvrir avec le logiciel Rasmol
télécharger ICI http://www.rasmol.org/software/RasMol_2.7.5_Windows_Installer.exe
PDB: Protein Data Bank
15
4-Domaines Protéiques:
on utilise le logiciel INTERPRO
16
PROTOCOLE:
INTERPROtable view
17
La traduction
18
Cliquez sur
Résultats
19
20
Dans le champ résultats bruts
Désignation
E-value
début fin
Num. Acc
Source
Glycoside hydrolase,family15
8,0E-5
196
206
PS00820
prosite
Glycoside
hydrolase,carbohydratbinding
5.09998762524108E- 537
55
633
PF00686
PFAM
21
Cas exceptionnelle :
interproscan submit jobno hits
essayez avec les bases de données:
1- pfam http://pfam.jouy.inra.fr/
2- prosite http://www.expasy.org/prosite/
22
Basic Local Alignement search Tool
23
Existe-t-il des protéines similaires
(homologues) à ma protéine ?
Recherchez d'éventuels protéines similaires à
votre protéine traduite (protéines homologues)
en effectuant BLAST sur le site du NCBI
NCBI: National Center for Biotechnologie Information
24
PROTOCOLE:
NCBIblastpcopier, coller la séquence protéique (traduction)/contre NR/n° de
séquences ciblées =500
Non redundant protein séquences(nr)
25
Résultats
26
27
28
Copier coller dans le champ résultats bruts (analyse blast)
cochez les groupes choisi (groupe d’étude et groupe externe) pour obtenir les
homologues.
Le groupe d’étude: les hits qui ont les scores élevés et les E-values petits(20 30
homologues ou plus).
Le groupe externe :les hits qui ont des scores petits et des E-values élevés(5 a 6
homologues ). pour enrichir l’arbre phylogénétique.
29
6-Rapport Taxonomique:
trouver les hits qui synthétisent presque la même protéine
traduite (des séquence protéique similaires) .
Homologues :protéine ou gènes qui sont similaires et qui ont une origine
commune (découlent de la divergence de 2 gènes d’un ancêtre commun).
Plus de 25 a.a dans 100 a.a(25 ٪ de similarité) homologie par ce que la
similarité ne signifie pas forcément l’homologie .
Paralogues: protéines homologues qui ont des fonction différents mais liées
au sein d’un même organisme(espèce)
orthologues: protéines homologues qui des fonctions différents mais liées au
sein des organismes différents (espèces différentes)
30
PROTOCOLE:
NCBIblastp taxonomy repport
31
Résultats
32
Copier, coller ces résultats dans le
champ résultats bruts de Rapport
Taxonomique
33
7- Homologues:
cochez les groupes choisi (groupe d’étude et groupe externe)get selected
sequence display fasta send to text homologues .
34
35
36
37
résultats:
38
Copier ,coller ces homologues dans le champ résultats
bruts +la séquence protéique inconnu (traduction).
Mettez les étiquettes.
39
EXP:
>inconnu JCVI_READ_1093113500174 Traduction [3-842 sens direct ]
PLRDDLDTKVVKVKTVKDYQKLLLNNNIILNHEEREQKIIKKFESFYKVKNFKNLYDLKLLKEVTNIVEDPHVLLIDFDK
KYLELPKEIIISTLQNHQRYFPIIDKKDDITNFFLVVTNKKDTNNLIKDGNKRVVEARLADAKFFWDKDKSKNLIKQIAK
LKDVKFYEGLGSVYDKTQRLRKLSGMLADEFNLNKEKAEIAASISKSDLCSDLVNEYPDLQGLLGKYFALSQGFEDDVSN
AVSDHYLPLGNNSMTSKKPISYIVAISDKIDTLVGIFSN*
>pro1 a gi|71083322|ref|YP_266041.1| glycyl-tRNA synthetase subunit beta [Candidatus Pelagibacter ubique HTCC1062]
MSDFFIELFSEEIPAGLQSNSRNVLLENFQNLFEEKKILFKKSSSFSTPNRLIILFEGLSKEIIQKAEEI
KGPNVKAPEKAIEGFLRSNQIEKKDLLKKTLEKGEFYFFKKASSKINTIDLLQEYTPIILDKLQWKKSMT
WGNYNLSWARPLKSILAVFDDKSLNFKFHHLIASNSTFIDKEFEDKKKIFKNFKSYKDFFSQSGIIIDHV
LRKEFIVKEIEKISRKNNFIVEPNNKLLDEVTDIVEQPNILVCKFDQKFLNIPKEILIITMQYHQKYFPT
FDKKGKITNEFLVVANNNDEKGYIKMGNERVVEARLSDAQFFWEKNKSQNLVKQVSKLKNMNYFKGLGSY
FDKIQRMRKLGGIISDELLISKDQVELSASICKVDLVSDIVGEFPELQGIMGGHFAEVQGFDKEIALAIS
EHYQPVGLDSKTPKKPFSIALALTDKIDTLVGFFGINQKPTSSKDPYALRRSALGVIKLLIDNNKEFKIK
DLISYSTSLHKDQGFIFSNDSSQKELSDFLMDRLKYYMKEKKIRSEIIEASIKAHGLDHMNKIYKKASTL
NGLISKVIGEDIITSYKRAYSILESELKNTDLELSNTTDPGIFKNDYEKNLFKKINEIRKYFTNIGKDEN
YRETLEILAGAKKATSEFFDNVKVNDDDKNIKKNRLELLQMLCRTFDNYINFSNIDIKQ
>pro2 a gi|262277439|ref|ZP_06055232.1| glycyl-tRNA synthetase, beta subunit [alpha proteobacterium HIMB114]
MSDFFLELYSEEIPHGLQIHARKQIHELIFKELNENNIKFKGLDVFSTPKRLIVLIENITLNQKIESQEV
KGPKVGCNDQALEGFLKSKNALKEDLIQKSTDKGEFYFVKLPAKTLLTSDILRKKLPSILQTINWKKSMR
WSDHDCFWGRPLKSILCLLDNKVLDFSFFHINSSNSTYVNGPFEDKEVKIKNFKDYKKNLEKNKIEINHI
KRESKINIELEKLLKKNKCSFEINNALVDEVTNLVETPVILKGKFDSEYLVLPDELLNLTMVNHQRYFPM
KSEQENKMINSFLFVANNFDNKNLITKGNEKVIDARLSDAKFFWDKNKRQNLVKQVTKLNSIVFYQKLGT
LYDKTQRIRQLSSVIADTIGANKEDTEIAGSICKADLVSDLVGEYPELQGTIGRYFALEQGFSQEISNAI
QNHYLPLGPSGKVPKEKISIAVAVADKIDTLIGFFGIDEKPTSSKDPFALRRACFGVLRLITENKISLSL
KEILNNSKNLYLSQNYQLSNEKVIEDLFQFFIERFKINLKDKGARLDVTNSILGNNRSDDFYLIMKNINE
LSKCLKKSQGQDAISIYKRSKNILDQSNQEEEFFGNPDNVLFQHPSEDEILIKLNEARDYFTTPSRLRDN
EKTITLLSELKPMTDNFFDNVKVNDDNQQVRKNRLELLTLLCKTFEKFTDFSKLDGS
les étiquettes:>Pro1 ; >pro2 ; >inconnu
40
8-Alignement Multiple:
on utilise le logiciel EBI
European Bioinformatique Institute
se fait pour identifier les zones et les degrés de
similitudes entre les séquences homologues et la
séquence inconnu.
41
PROTOCOLE:
EBIcopier, coller les homologues submit
résultats
ex:
inconnu
pro2a
pro1a
pro3a
pro9a
pro5a
pro7a
pro6a
pro4a
pro8a
pro1b
pro2b
pro1g
fir1
fir3
fir4
fir5
fir2
DPHVLLIDFDKKYLELPKEIIISTLQNHQRYFPIIDKKDD-ITNFFLVVTNKKDT---NN 125
TPVILKGKFDSEYLVLPDELLNLTMVNHQRYFPMKSEQENKMINSFLFVANNFDN---KN 303
QPNILVCKFDQKFLNIPKEILIITMQYHQKYFPTFDKKGK-ITNEFLVVANNNDE---KG 302
WPVVLMGSIDESFMDVPSEVLITSMRTHQKYFAVLDAEG-RMAPCFIVVANTETL-DGGK 316
WPVVLVGGIDEQFMDVPAEVLTTSMRTHQRYFALETTQG-KLAPRFVVVANRPTV-DGGA 329
WPVPLVGSIDDKFMDVPAEVLITSMRAHQKYFSLLKADG-SLAPRFIVISNMETD-DGGK 304
WPVPLVGSIDDKFMDVPAEVLITSMRAHQKYFSLLKADG-SLASRFVVISNMETT-DGGS 304
WPVPMLGRIDAQFMGVPKEVLVTSMRSHQKYFALETADG-ALADRFVVVANMASEPTRDA 293
HPAPILGDMDPDFLDLPPEVIALTMKTHQKYFAVRDPKSQRLTSKFVVLANQDAP-DGGK 308
WPVPVLGDMDPAFLDLPPEVIRTSMRVHQRYFAVRDPAGGKLAPHFLTVANIAAR-DGGA 302
RPNVLIGQFEEAFLEVPQECLILTMKANQKYFPLLDSKG-GLSNKFLIVSNIRPA--DAS 325
RPNVLIGQFEETFLAVPQECLILTMKANQKYFPLLDSKG-NLSNKFLIVSNIRPA--DAS 333
WPVALAGSFDTAFLEVPAEALISSMQSHQKYFPVVDASG-TLMPNFVTVSNIESR--DPG 312
YPTVLSGNFEKEYLELPEEVLITTMKEHQRYFPVFSQED-ELLPHFVTVRNGNHEN--LN 309
YPTVLSGNFEKEYLELPEEVLITTMKEHQRYFPVFSQED-ELLPHFVTVRNGNHEN--LD 309
YPTVLSGNFEKEYLELPEEVLITTMKEHQRYFPVFSQED-ELLPHFVTVRNGNHEN--LD 309
YPTVLAGNFEKEYLELPEEVLITTMKEHQRYFPVFSQEG-ELLPHFVTVRNGNHEN--LD 309
YPTVLAGNFEKEYLELPEEVLITTMKEHQRYFPVFSKDE-ELLPHFVTVRNGNHEN--LD 309
* : :: :: :* * : :: :*:**. : *: : *
* conservatif
:semi-conservatif
. non conservatif
42
Copier ,coller dans le champ résultats
bruts
43
9-Arbre Phylogénique:
on utilise à la Carte
PROTOCOLE:
à la Carte copier ,coller les homologues et
supprimer les surplus des étiquetteschoisissez:
protdist/fastdis+Neighborstep by stepcreate work
flow .
44
45
Cliquez ici
46
Résultats:
ex:
fir5
!
+-5 +fir4
! ! +-3
! +-4 +fir1
! !
! +fir3
!
!
+----------------pro1a
!
+--7
!
+-----------8 +------------------inconnu
!
!
!
!
!
+----------------pro2a
!
!
!
! +-------------------pro1g
6-----------------------10 +---9
!
! ! !
+pro1b
!
! ! +-----------------1
!
! !
+pro2b
!
+-11
!
!
+-------------pro8a
!
! +--12
!
! ! +---------------pro4a
!
! !
!
+-----13
+-pro5a
!
! +-----------2
!
! !
+-pro7a
!
+-15
!
! +------------pro6a
!
+-16
!
! +-------pro3a
!
+-14
!
+----------pro9a
!
+fir2
La plus proche
Excellent!
47
Copier, coller ces résultats dans le champ résultats bruts
interprétez l’arbre :
1-votre séquence inconnu intègre bien dans l’arbre ?
2- Quelle est la séquence la plus proche a votre séquence
inconnu (c.à.d la séquence qu’elle a le même ancêtre avec l’inconnu « le
même bourgeon ancestral ) . …..etc.
48
10- Classification Taxonomique:
Cliquez ici
Le nom scientifique (la souche la plus proche)
chercher
Résultats:
Candidatus Pelagibacterrank: genus - geneticcode: Bacterial, Archaeal and Plant Plastid - ncbiid: 198251
kingdom: Bacteria - phylum: Proteobacteria - class: Alphaproteobacteria - order: Rickettsiales
Bacteria; Proteobacteria; Alphaproteobacteria; Rickettsiales; SAR11 cluster; Candidatus Pelagibacter;
49
11- Conclusion:
*synthétisez vos interprétations
*posez des hypothèses (la classification
taxonomique de l’organisme qui porte la séquence d’ADN
étudié)
.
50