| |
|
| Warum ist
dieses Wissen wichtig? |
Eine intensive Beschäftigung mit Dotplots lohnt sich auch deswegen, weil die Datenstruktur der 2D-Matrix
und das Konzept, Diagonalen auszuwerten, in den weiteren Algorithmen zum
Sequenzvergleich (Stichwort Bestimmung von Alignments) aufgegriffen
wird. Zudem erlauben Dotplots den einfachen Vergleich der
Zusammensetzung von Genomen nahe verwandter Arten. |
|
|
Bezug |
Diese Übungen ergänzen das Kapitel 9 "Paarweiser Sequenzvergleich". |
|
|
|
Lernziel |
Nach dem Bearbeiten der
Übung sollten sie verstanden haben:
- Das Prinzip der Dotmatrix
|
|
|
| |
Ein Teil der folgenden Beispiele ist dem
Dotlet-Paket von M. Pagni und
T. Junier entnommen.
|
|
| Übung |
Dotplot_1 |
|
|
| |
Gegeben seien die folgenden Sequenzen:
| SEQ_A |
|
G |
H |
R |
Q |
S |
G |
G |
| SEQ_B |
|
S |
G |
G |
R |
G |
|
|
|
| |
Berechnen Sie mit Papier und Bleistift einen Dotplot D. |
|
| |
Es gelte folgende Bedingung für das Füllen der Matrix D: |
|
| |
|
|
| |
|
|
| |
| Diskutieren Sie das Ergebnis, wo liegt des längste gemeinsame Infix? |
|
|
| |
|
|
| Lösung |
Hier finden Sie die Lösung zur Aufgabe. |
|
| |
|
|
| Vorbereitung zu den folgenden Übungen |
| |
|
|
| |
Durch Anklicken
dieses
Links wird Dotlet aktiviert, ein Programm, das interaktiv Dotplots generiert.
Übergeben Sie die folgenden Sequenzen per copy
and paste an das Applet.
Drücken Sie hierzu jeweils die input-Taste und geben
Sie den Sequenzen die angegebenen Namen.
Lesen Sie die Hilfe-Datei
zu Dotlet.
|
|
|
| Sequenzen laden |
| MS2_HUMAN (P78325)
|
MRGLGLWLLGAMMLPAIAPSRPWALMEQYEVVLPRRLPGPRVRRALPSHLGLHPERVSYVLGATGHNFTLHLRKNRDLLG
SGYTETYTAANGSEVTEQPRGQDHCLYQGHVEGYPDSAASLSTCAGLRGFFQVGSDLHLIEPLDEGGEGGRHAVYQAEHL
LQTAGTCGVSDDSLGSLLGPRTAAVFRPRPGDSLPSRETRYVELYVVVDNAEFQMLGSEAAVRHRVLEVVNHVDKLYQKL
NFRVVLVGLEIWNSQDRFHVSPDPSVTLENLLTWQARQRTRRHLHDNVQLITGVDFTGTTVGFARVSAMCSHSSGAVNQD
HSKNPVGVACTMAHEMGHNLGMDHDENVQGCRCQERFEAGRCIMAGSIGSSFPRMFSDCSQAYLESFLERPQSVCLANAP
DLSHLVGGPVCGNLFVERGEQCDCGPPEDCRNRCCNSTTCQLAEGAQCAHGTCCQECKVKPAGELCRPKKDMCDLEEFCD
GRHPECPEDAFQENGTPCSGGYCYNGACPTLAQQCQAFWGPGGQAAEESCFSYDILPGCKASRYRADMCGVLQCKGGQQP
LGRAICIVDVCHALTTEDGTAYEPVPEGTRCGPEKVCWKGRCQDLHVYRSSNCSAQCHNHGVCNHKQECHCHAGWAPPHC
AKLLTEVHAASGSLPVLVVVVLVLLAVVLVTLAGIIVYRKARSRILSRNVAPKTTMGRSNPLFHQAASRVPAKGGAPAPS
RGPQELVPTTHPGQPARHPASSVALKRPPPAPPVTVSSPPFPVPVYTRQAPKQVIKPTFAPPVPPVKPGAGAANPGPAEG
AVGPKVALKPPIQRKQGAGAPTAP
|
|
ADAM_CROAD (P34179)
|
QQNLPQRYIELVVVADRRVFMKYNSDLNIIRTRVHEIVNIINGFYRSLNIDVSLVNLEIWSGQDPLTIQSSSSNTLNSEG
LWREKVLLNKKKKDNAQLLTAIEFKCETLGKAYLNSMCNPRSSVGIVKDHSPINLLVAVTMAHELGHNLGMEHDGKDCLR
GASLCIMRPGLTPGRSYEFSDDSMGYYQKFLNQYKPQCILNKP
|
| SLIT_DROME (P24014)
|
MAAPSRTTLMPPPFRLQLRLLILPILLLLRHDAVHAEPYSGGFGSSAVSSGGLGSVGIHIPGGGVGVITEARCPRVCSCT
GLNVDCSHRGLTSVPRKISADVERLELQGNNLTVIYETDFQRLTKLRMLQLTDNQIHTIERNSFQDLVSLERLDISNNVI
TTVGRRVFKGAQSLRSLQLDNNQITCLDEHAFKGLVELEILTLNNNNLTSLPHNIFGGLGRLRALRLSDNPFACDCHLSW
LSRFLRSATRLAPYTRCQSPSQLKGQNVADLHDQEFKCSGLTEHAPMECGAENSCPHPCRCADGIVDCREKSLTSVPVTL
PDDTTDVRLEQNFITELPPKSFSSFRRLRRIDLSNNNISRIAHDALSGLKQLTTLVLYGNKIKDLPSGVFKGLGSLRLLL
LNANEISCIRKDAFRDLHSLSLLSLYDNNIQSLANGTFDAMKSMKTVHLAKNPFICDCNLRWLADYLHKNPIETSGARCE
SPKRMHRRRIESLREEKFKCSWGELRMKLSGECRMDSDCPAMCHCEGTTVDCTGRRLKEIPRDIPLHTTELLLNDNELGR
ISSDGLFGRLPHLVKLELKRNQLTGIEPNAFEGASHIQELQLGENKIKEISNKMFLGLHQLKTLNLYDNQISCVMPGSFE
HLNSLTSLNLASNPFNCNCHLAWFAECVRKKSLNGGAARCGAPSKVRDVQIKDLPHSEFKCSSENSEGCLGDGYCPPSCT
CTGTVVACSRNQLKEIPRGIPAETSELYLESNEIEQIHYERIRHLRSLTRLDLSNNQITILSNYTFANLTKLSTLIISYN
KLQCLQRHALSGLNNLRVVSLHGNRISMLPEGSFEDLKSLTHIALGSNPLYCDCGLKWFSDWIKLDYVEPGIARCAEPEQ
MKDKLILSTPSSSFVCRGRVRNDILAKCNACFEQPCQNQAQCVALPQREYQCLCQPGYHGKHCEFMIDACYGNPCRNNAT
CTVLEEGRFSCQCAPGYTGARCETNIDDCLGEIKCQNNATCIDGVESYKCECQPGFSGEFCDTKIQFCSPEFNPCANGAK
CMDHFTHYSCDCQAGFHGTNCTDNIDDCQNHMCQNGGTCVDGINDYQCRCPDDYTGKYCEGHNMISMMYPQTSPCQNHEC
KHGVCFQPNAQGSDYLCRCHPGYTGKWCEYLTSISFVHNNSFVELEPLRTRPEANVTIVFSSAEQNGILMYDGQDAHLAV
ELFNGRIRVSYDVGNHPVSTMYSFEMVADGKYHAVELLAIKKNFTLRVDRGLARSIINEGSNDYLKLTTPMFLGGLPVDP
AQQAYKNWQIRNLTSFKGCMKEVWINHKLVDFGNAQRQQKITPGCALLEGEQQEEEDDEQDFMDETPHIKEEPVDPCLEN
KCRRGSRCVPNSNARDGYQCKCKHGQRGRYCDQGEGSTEPPTVTAASTCRKEQVREYYTENDCRSRQPLKYAKCVGGCGN
QCCAAKIVRRRKVRMVCSNNRKYIKNLDIVRKCGCTKKCY
|
| SERA_PLAFG (P13823)
|
MKSYISLFFILCVIFNKNVIKCTGESQTGNTGGGQAGNTVGDQAGSTGGSPQGSTGASQPGSSEPSNPVSSGHSVSTVSV
SQTSTSSEKQDTIQVKSALLKDYMGLKVTGPCNENFIMFLVPHIYIDVDTEDTNIELRTTLKETNNAISFESNSGSLEKK
KYVKLPSNGTTGEQGSSTGTVRGDTEPISDSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSESLPANGPDSPTVKP
PRNLQNICETGKNFKLVVYIKENTLIIKWKVYGETKDTTENNKVDVRKYLINEKETPFTSILIHAYKEHNGTNLIESKNY
ALGSDIPEKCDTLASNCFLSGNFNIEKCFQCALLVEKENKNDVCYKYLSEDIVSNFKEIKAETEDDDEDDYTEYKLTESI
DNILVKMFKTNENNDKSELIKLEEVDDSLKLELMNYCSLLKDVDTTGTLDNYGMGNEMDIFNNLKRLLIYHSEENINTLK
NKFRNAAVCLKNVDDWIVNKRGLVLPELNYDLEYFNEHLYNDKNSPEDKDNKGKGVVHVDTTLEKEDTLSYDNSDNMFCN
KEYCNRLKDENNCISNLQVEDQGNCDTSWIFASKYHLETIRCMKGYEPTKISALYVANCYKGEHKDRCDEGSSPMEFLQI
IEDYGFLPAESNYPYNYVKVGEQCPKVEDHWMNLWDNGKILHNKNEPNSLDGKGYTAYESERFHDNMDAFVKIIKTEVMN
KGSVIAYIKAENVMGYEFSGKKVQNLCGDDTADHAVNIVGYGNYVNSEGEKKSYWIVRNSWGPYWGDEGYFKVDMYGPTH
CHFNFIHSVVIFNVDLPMNNKTTKKESKIYDYYLKASPEFYHNLYFKNFNVGKKNLFSEKEDNENNKKLGNNYIIFGQDT
AGSGQSGKESNTALESAGTSNEVSERVHVYHILKHIKDGKIRMGMRKYIDTQDVNKKHSCTRSYAFNPENYEKCVNLCNV
NWKTCEEKTSPGLCLSKLDTNNECYFCYV
|
|
EMECALM (J05545)
|
TGAATCCCAGTTCAGCTCTTCAGCCTTTCGTGGATAAGAGAAGGCTGAAAGCGGGTCACGTTTTGGACTAAGCGACGCCC
TTGCCAGGCATCCAGCTTAGTGGCTGTTGGTTTATTTGTAGAGTCCCCTTAACTCTCTCTCCCCCACATCGCCCATCTCC
ACCGACGCCTCTCTCTCTCGTGTTATTTCTCCCCATTCTCGCTTCATTTCCCATCCATTTTCGAGTTCTGCAATATCCTC
ACTAACTAGTATAGCCATGGTACGCCTCACTCGATCATCATCGTTGTTCGTGCGCTCAAACGCATCCGCTGTGCGGGGCA
GATCTACTGGTGTCCTCCTGCGTAGATGAGCTGACGACTTCACTTCCAGGCCGACTCTCTGACCGAAGAGCAAGTTTCCG
AGTACAAGGAGGCCTTCTCCCTATTTGTAAGTGCCATTGGTTACTGTTATATCAAAATCGAATTTGTATTGAGAGTATAC
TAATACATTCCGCACTAAACAGGACAAGGATGGCGATGGTTAGTGCATCTGTCCCCCCAGGCTTGATCGCATTCGCCCAG
CATGTCTGCTGTAGCTCTATATAACCGTTTCTGACAAACGGCGACAGGCCAGATTACCACTAAGGAGCTTGGCACTGTCA
TGCGCTCGCTCGGTCAGAATCCTTCAGAGTCTGAGCTTCAGGACATGATCAACGAAGTTGACGCCGACAACAATGGCACC
ATTGACTTTCCAGGTACGCGAACTCCCCAATCTACTTCGCACCAGCCTAGAAATGTACTAATGCTAAACAGAGTTCCTTA
CCATGATGGCCAGAAAGATGAAGGACACCGATTCCGAGGAGGAAATTCGGGAGGCGTTCAAGGTCTTCGACCGTGACAAC
AATGGTTTCATCTCCGCTGCTGAGCTGCGTCACGTCATGACCTCGATCGGTGAGAAGCTCACCGATGACGAAGTCGACGA
GATGATCCGCGAGGCGGACCAGGATGGCGACGGCCGAATTGACTGTACGTTGGCTCCCCGCTTATCCTTGACCGTAGAAG
AGGTATGATACTGATCGGCTGCAGACAACGAATTCGTCCAACTTATGATGCAAAAATAAACGCTCTTACCTTTGATGTTT
ATCGTTAGCGAAGAAGGTGTGGACACTTTCCAGCTGTCTCATCTTAGTTGTCATATCATTGAATGTAGCCTATCTGATTG
CGGATAAGCAACTGATGGTTGTAACGGCTTCCATTTTGCTCTGACTTCTGAGTACCCTTTTCCTTCATGTTTGTTCGTCG
ACCATTCTGCTAGTGAGATATGCGTAGAGTTGGGTAGGCTGAATTTACGAGTCTCTGTTGGGGGATATCACATGCTTCAC TACAATCTTTCTCTAC
|
|
CALM_EMENI
(P19533)
|
MADSLTEEQVSEYKEAFSLFDKDGDGQITTKELGTVMRSLGQNPSESELQDMINEVDADNNGTIDFPEFLTMMARKMKDTD
SEEEIREAFKVFDRDNNGFISAAELRHVMTSIGEKLTDDEVDEMIREADQDGDGRIDYNEFVQLMMQK
|
|
|
| |
|
|
| |
|
|
| Übung |
Dotplot_2 |
| |
|
|
| Vergleichen Sie die
Sequenz SLIT_DROME mit sich selbst. Wie interpretieren Sie das Muster ? |
|
| |
Stellen Sie den Zoom-Faktor auf 1:5.
Justieren Sie die Regler derart, dass identische Regionen
gut sichtbar werden.
Stellen Sie durch Navigieren mit der Maus fest, an welchen
Positionen innerhalb der Sequenz ähnliche Teilsequenzen
liegen.
Hier
finden Sie den Datenbankeintrag. Lesen Sie nach, ob
die von Ihnen identifizieren Regionen im Abschnitt Features
aufgeführt und annotiert sind.
|
|
|
| Übung |
Dotplot_3 |
|
Vergleichen Sie die
Sequenzen MS2_HUMAN mit ADAM_CROAD.
Beide Sequenzen enthalten
eine Zinc-Protease-Domäne.
|
| |
| An welchen
Positionen in den Sequenzen liegen die Domänen? |
|
|
Hier
finden Sie den Datenbankeintrag. Lesen Sie nach, ob
die von Ihnen identifizierten Regionen im Abschnitt Features
aufgeführt und annotiert sind.
Benutzen Sie nun als Matrix:
Identity und notieren Sie, wo sich die Domänen in den
beiden Proteinen befinden.
|
| |
Bestätigen Sie Ihre Analyse, indem Sie mit dem
SMART-Server
die Lage der Domänen überprüfen. Übertragen Sie jeweils eine der
genannten Sequenzen und starten Sie durch Drücken der Taste Sequence
SMART die Analyse.
|
| Übung |
Dotplot_4 |
|
Vergleichen Sie die
Sequenzen SERA_PLAFG
mit sich selbst. Verwenden Sie die BLOSUM 30 Matrix.
|
|
Die
Sequenz enthält eine Region niedriger
Komplexität, in diesem Fall einer Folge von mehr als 30 Serin-Resten.
| An welchen
Positionen finden Sie Region(en) niedriger Komplexität? |
|
| |
|
| Übung |
Dotplot_5, Introns und Exons |
|
Wählen Sie im 1.
Fenster (horizontal) die Sequenz des Calmodulin Gens (EMECALM)
und
im 2. Fenster die des Genprodukts CALM_EMENI.
|
| |
Verwenden Sie die BLOSUM 100 Matrix und ein Sliding-Window
der Länge 7.
Können Sie die Intron/Exon-Struktur erkennen?
Welche Bedingungen müssen vorliegen, damit eine solche
Analyse ausgeführt werden kann? |
Dotplot übersetzt vor dem Vergleich die DNA-Sequenz in
allen drei Leserahmen in die Proteinsequenz.
|
| Hinweis |
Die Berechnung und Ausgabe kann einige Zeit
dauern.
Falls Sie mit den Begriffen
Intron und Exon nicht vertraut sind, bemühen
Sie bitte das Internet.
|
Was Sie jetzt verstanden haben sollten |
Die 2D-Matrix ist eine wichtige Datenstruktur zur paarweisen Analyse von
Sequenzen. Bereiche mit identischen Teilsequenzen machen
sich darin durch Diagonalelemente bemerkbar, Insertionen oder Deletion
durch Lücken in einer der Sequenzen. |
| |
|
|
|