Warum ist dieses Wissen wichtig? Eine intensive Beschäftigung mit Dotplots lohnt sich auch deswegen, weil die Datenstruktur der 2D-Matrix und das Konzept, Diagonalen auszuwerten, in den weiteren Algorithmen zum Sequenzvergleich (Stichwort Bestimmung von Alignments) aufgegriffen wird. Zudem erlauben Dotplots den einfachen Vergleich der Zusammensetzung von Genomen nahe verwandter Arten.
Bezug Diese Übungen ergänzen das Kapitel 9 "Paarweiser Sequenzvergleich".

Lernziel

Nach dem Bearbeiten der Übung sollten sie verstanden haben:
  • Das Prinzip der Dotmatrix
 
   

 

Ein Teil der folgenden Beispiele ist dem Dotlet-Paket von M. Pagni und T. Junier entnommen.

 

 
Übung Dotplot_1
 
  Gegeben seien die folgenden Sequenzen:

 

SEQ_A   G H R Q S G G
SEQ_B   S G G R G    

 

  Berechnen Sie mit Papier und Bleistift einen Dotplot D.  
  Es gelte folgende Bedingung für das Füllen der Matrix D:  
 
 
     
 
Diskutieren Sie das Ergebnis, wo liegt des längste gemeinsame Infix?
 
 
     
Lösung Hier finden Sie die Lösung zur Aufgabe.  
     
Vorbereitung zu den folgenden Übungen
     
 
Durch Anklicken dieses Links wird Dotlet aktiviert, ein Programm, das interaktiv Dotplots generiert.

Übergeben Sie die folgenden Sequenzen per copy and paste an das Applet.

Drücken Sie hierzu jeweils die input-Taste und geben Sie den Sequenzen die angegebenen Namen.

Lesen Sie die Hilfe-Datei zu Dotlet.

 

 
Sequenzen laden
MS2_HUMAN (P78325)
MRGLGLWLLGAMMLPAIAPSRPWALMEQYEVVLPRRLPGPRVRRALPSHLGLHPERVSYVLGATGHNFTLHLRKNRDLLG
SGYTETYTAANGSEVTEQPRGQDHCLYQGHVEGYPDSAASLSTCAGLRGFFQVGSDLHLIEPLDEGGEGGRHAVYQAEHL
LQTAGTCGVSDDSLGSLLGPRTAAVFRPRPGDSLPSRETRYVELYVVVDNAEFQMLGSEAAVRHRVLEVVNHVDKLYQKL
NFRVVLVGLEIWNSQDRFHVSPDPSVTLENLLTWQARQRTRRHLHDNVQLITGVDFTGTTVGFARVSAMCSHSSGAVNQD
HSKNPVGVACTMAHEMGHNLGMDHDENVQGCRCQERFEAGRCIMAGSIGSSFPRMFSDCSQAYLESFLERPQSVCLANAP
DLSHLVGGPVCGNLFVERGEQCDCGPPEDCRNRCCNSTTCQLAEGAQCAHGTCCQECKVKPAGELCRPKKDMCDLEEFCD
GRHPECPEDAFQENGTPCSGGYCYNGACPTLAQQCQAFWGPGGQAAEESCFSYDILPGCKASRYRADMCGVLQCKGGQQP
LGRAICIVDVCHALTTEDGTAYEPVPEGTRCGPEKVCWKGRCQDLHVYRSSNCSAQCHNHGVCNHKQECHCHAGWAPPHC
AKLLTEVHAASGSLPVLVVVVLVLLAVVLVTLAGIIVYRKARSRILSRNVAPKTTMGRSNPLFHQAASRVPAKGGAPAPS
RGPQELVPTTHPGQPARHPASSVALKRPPPAPPVTVSSPPFPVPVYTRQAPKQVIKPTFAPPVPPVKPGAGAANPGPAEG
AVGPKVALKPPIQRKQGAGAPTAP
ADAM_CROAD (P34179)
QQNLPQRYIELVVVADRRVFMKYNSDLNIIRTRVHEIVNIINGFYRSLNIDVSLVNLEIWSGQDPLTIQSSSSNTLNSEG
LWREKVLLNKKKKDNAQLLTAIEFKCETLGKAYLNSMCNPRSSVGIVKDHSPINLLVAVTMAHELGHNLGMEHDGKDCLR
GASLCIMRPGLTPGRSYEFSDDSMGYYQKFLNQYKPQCILNKP
SLIT_DROME (P24014)
MAAPSRTTLMPPPFRLQLRLLILPILLLLRHDAVHAEPYSGGFGSSAVSSGGLGSVGIHIPGGGVGVITEARCPRVCSCT
GLNVDCSHRGLTSVPRKISADVERLELQGNNLTVIYETDFQRLTKLRMLQLTDNQIHTIERNSFQDLVSLERLDISNNVI
TTVGRRVFKGAQSLRSLQLDNNQITCLDEHAFKGLVELEILTLNNNNLTSLPHNIFGGLGRLRALRLSDNPFACDCHLSW
LSRFLRSATRLAPYTRCQSPSQLKGQNVADLHDQEFKCSGLTEHAPMECGAENSCPHPCRCADGIVDCREKSLTSVPVTL
PDDTTDVRLEQNFITELPPKSFSSFRRLRRIDLSNNNISRIAHDALSGLKQLTTLVLYGNKIKDLPSGVFKGLGSLRLLL
LNANEISCIRKDAFRDLHSLSLLSLYDNNIQSLANGTFDAMKSMKTVHLAKNPFICDCNLRWLADYLHKNPIETSGARCE
SPKRMHRRRIESLREEKFKCSWGELRMKLSGECRMDSDCPAMCHCEGTTVDCTGRRLKEIPRDIPLHTTELLLNDNELGR
ISSDGLFGRLPHLVKLELKRNQLTGIEPNAFEGASHIQELQLGENKIKEISNKMFLGLHQLKTLNLYDNQISCVMPGSFE
HLNSLTSLNLASNPFNCNCHLAWFAECVRKKSLNGGAARCGAPSKVRDVQIKDLPHSEFKCSSENSEGCLGDGYCPPSCT
CTGTVVACSRNQLKEIPRGIPAETSELYLESNEIEQIHYERIRHLRSLTRLDLSNNQITILSNYTFANLTKLSTLIISYN
KLQCLQRHALSGLNNLRVVSLHGNRISMLPEGSFEDLKSLTHIALGSNPLYCDCGLKWFSDWIKLDYVEPGIARCAEPEQ
MKDKLILSTPSSSFVCRGRVRNDILAKCNACFEQPCQNQAQCVALPQREYQCLCQPGYHGKHCEFMIDACYGNPCRNNAT
CTVLEEGRFSCQCAPGYTGARCETNIDDCLGEIKCQNNATCIDGVESYKCECQPGFSGEFCDTKIQFCSPEFNPCANGAK
CMDHFTHYSCDCQAGFHGTNCTDNIDDCQNHMCQNGGTCVDGINDYQCRCPDDYTGKYCEGHNMISMMYPQTSPCQNHEC
KHGVCFQPNAQGSDYLCRCHPGYTGKWCEYLTSISFVHNNSFVELEPLRTRPEANVTIVFSSAEQNGILMYDGQDAHLAV
ELFNGRIRVSYDVGNHPVSTMYSFEMVADGKYHAVELLAIKKNFTLRVDRGLARSIINEGSNDYLKLTTPMFLGGLPVDP
AQQAYKNWQIRNLTSFKGCMKEVWINHKLVDFGNAQRQQKITPGCALLEGEQQEEEDDEQDFMDETPHIKEEPVDPCLEN
KCRRGSRCVPNSNARDGYQCKCKHGQRGRYCDQGEGSTEPPTVTAASTCRKEQVREYYTENDCRSRQPLKYAKCVGGCGN
QCCAAKIVRRRKVRMVCSNNRKYIKNLDIVRKCGCTKKCY
SERA_PLAFG (P13823)
MKSYISLFFILCVIFNKNVIKCTGESQTGNTGGGQAGNTVGDQAGSTGGSPQGSTGASQPGSSEPSNPVSSGHSVSTVSV
SQTSTSSEKQDTIQVKSALLKDYMGLKVTGPCNENFIMFLVPHIYIDVDTEDTNIELRTTLKETNNAISFESNSGSLEKK
KYVKLPSNGTTGEQGSSTGTVRGDTEPISDSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSESLPANGPDSPTVKP
PRNLQNICETGKNFKLVVYIKENTLIIKWKVYGETKDTTENNKVDVRKYLINEKETPFTSILIHAYKEHNGTNLIESKNY
ALGSDIPEKCDTLASNCFLSGNFNIEKCFQCALLVEKENKNDVCYKYLSEDIVSNFKEIKAETEDDDEDDYTEYKLTESI
DNILVKMFKTNENNDKSELIKLEEVDDSLKLELMNYCSLLKDVDTTGTLDNYGMGNEMDIFNNLKRLLIYHSEENINTLK
NKFRNAAVCLKNVDDWIVNKRGLVLPELNYDLEYFNEHLYNDKNSPEDKDNKGKGVVHVDTTLEKEDTLSYDNSDNMFCN
KEYCNRLKDENNCISNLQVEDQGNCDTSWIFASKYHLETIRCMKGYEPTKISALYVANCYKGEHKDRCDEGSSPMEFLQI
IEDYGFLPAESNYPYNYVKVGEQCPKVEDHWMNLWDNGKILHNKNEPNSLDGKGYTAYESERFHDNMDAFVKIIKTEVMN
KGSVIAYIKAENVMGYEFSGKKVQNLCGDDTADHAVNIVGYGNYVNSEGEKKSYWIVRNSWGPYWGDEGYFKVDMYGPTH
CHFNFIHSVVIFNVDLPMNNKTTKKESKIYDYYLKASPEFYHNLYFKNFNVGKKNLFSEKEDNENNKKLGNNYIIFGQDT
AGSGQSGKESNTALESAGTSNEVSERVHVYHILKHIKDGKIRMGMRKYIDTQDVNKKHSCTRSYAFNPENYEKCVNLCNV
NWKTCEEKTSPGLCLSKLDTNNECYFCYV
EMECALM (J05545)
TGAATCCCAGTTCAGCTCTTCAGCCTTTCGTGGATAAGAGAAGGCTGAAAGCGGGTCACGTTTTGGACTAAGCGACGCCC
TTGCCAGGCATCCAGCTTAGTGGCTGTTGGTTTATTTGTAGAGTCCCCTTAACTCTCTCTCCCCCACATCGCCCATCTCC
ACCGACGCCTCTCTCTCTCGTGTTATTTCTCCCCATTCTCGCTTCATTTCCCATCCATTTTCGAGTTCTGCAATATCCTC
ACTAACTAGTATAGCCATGGTACGCCTCACTCGATCATCATCGTTGTTCGTGCGCTCAAACGCATCCGCTGTGCGGGGCA
GATCTACTGGTGTCCTCCTGCGTAGATGAGCTGACGACTTCACTTCCAGGCCGACTCTCTGACCGAAGAGCAAGTTTCCG
AGTACAAGGAGGCCTTCTCCCTATTTGTAAGTGCCATTGGTTACTGTTATATCAAAATCGAATTTGTATTGAGAGTATAC
TAATACATTCCGCACTAAACAGGACAAGGATGGCGATGGTTAGTGCATCTGTCCCCCCAGGCTTGATCGCATTCGCCCAG
CATGTCTGCTGTAGCTCTATATAACCGTTTCTGACAAACGGCGACAGGCCAGATTACCACTAAGGAGCTTGGCACTGTCA
TGCGCTCGCTCGGTCAGAATCCTTCAGAGTCTGAGCTTCAGGACATGATCAACGAAGTTGACGCCGACAACAATGGCACC
ATTGACTTTCCAGGTACGCGAACTCCCCAATCTACTTCGCACCAGCCTAGAAATGTACTAATGCTAAACAGAGTTCCTTA
CCATGATGGCCAGAAAGATGAAGGACACCGATTCCGAGGAGGAAATTCGGGAGGCGTTCAAGGTCTTCGACCGTGACAAC
AATGGTTTCATCTCCGCTGCTGAGCTGCGTCACGTCATGACCTCGATCGGTGAGAAGCTCACCGATGACGAAGTCGACGA
GATGATCCGCGAGGCGGACCAGGATGGCGACGGCCGAATTGACTGTACGTTGGCTCCCCGCTTATCCTTGACCGTAGAAG
AGGTATGATACTGATCGGCTGCAGACAACGAATTCGTCCAACTTATGATGCAAAAATAAACGCTCTTACCTTTGATGTTT
ATCGTTAGCGAAGAAGGTGTGGACACTTTCCAGCTGTCTCATCTTAGTTGTCATATCATTGAATGTAGCCTATCTGATTG
CGGATAAGCAACTGATGGTTGTAACGGCTTCCATTTTGCTCTGACTTCTGAGTACCCTTTTCCTTCATGTTTGTTCGTCG
ACCATTCTGCTAGTGAGATATGCGTAGAGTTGGGTAGGCTGAATTTACGAGTCTCTGTTGGGGGATATCACATGCTTCAC TACAATCTTTCTCTAC 
CALM_EMENI (P19533)
MADSLTEEQVSEYKEAFSLFDKDGDGQITTKELGTVMRSLGQNPSESELQDMINEVDADNNGTIDFPEFLTMMARKMKDTD
SEEEIREAFKVFDRDNNGFISAAELRHVMTSIGEKLTDDEVDEMIREADQDGDGRIDYNEFVQLMMQK
 
     
     
Übung Dotplot_2
   
Vergleichen Sie die Sequenz SLIT_DROME mit sich selbst. Wie interpretieren Sie das Muster ?

 

 

Stellen Sie den Zoom-Faktor auf 1:5.

Justieren Sie die Regler derart, dass identische Regionen gut sichtbar werden.

Stellen Sie durch Navigieren mit der Maus fest, an welchen Positionen innerhalb der Sequenz ähnliche Teilsequenzen liegen.

Hier finden Sie den Datenbankeintrag. Lesen Sie nach, ob die von Ihnen identifizieren Regionen im Abschnitt Features aufgeführt und annotiert sind.

 

Übung Dotplot_3 

 

Vergleichen Sie die Sequenzen MS2_HUMAN mit ADAM_CROAD.
Beide Sequenzen enthalten eine Zinc-Protease-Domäne. 

 
An welchen Positionen in den Sequenzen liegen die Domänen?

 

 

Hier finden Sie den Datenbankeintrag. Lesen Sie nach, ob die von Ihnen identifizierten Regionen im Abschnitt Features aufgeführt und annotiert sind.

Benutzen Sie nun als Matrix: Identity und notieren Sie, wo sich die Domänen in den beiden Proteinen befinden.

  Bestätigen Sie Ihre Analyse, indem Sie mit dem SMART-Server die Lage der Domänen überprüfen. Übertragen Sie jeweils eine der genannten Sequenzen und starten Sie durch Drücken der Taste Sequence SMART die Analyse.
 
Übung Dotplot_4
 

Vergleichen Sie die Sequenzen SERA_PLAFG mit sich selbst. Verwenden Sie die BLOSUM 30 Matrix.

Die Sequenz enthält eine Region niedriger Komplexität, in diesem Fall einer Folge von mehr als 30 Serin-Resten.

 

An welchen Positionen finden Sie Region(en) niedriger Komplexität?

 

   
Übung Dotplot_5, Introns und Exons

 

Wählen Sie im 1. Fenster (horizontal) die Sequenz des Calmodulin Gens (EMECALM) und
im 2. Fenster die des Genprodukts CALM_EMENI.

 

Verwenden Sie die BLOSUM 100 Matrix und ein Sliding-Window der Länge 7.

Können Sie die Intron/Exon-Struktur erkennen?
Welche Bedingungen müssen vorliegen, damit eine solche Analyse ausgeführt werden kann?

 

 

Dotplot übersetzt vor dem Vergleich die DNA-Sequenz in allen drei Leserahmen in die Proteinsequenz.

 

Hinweis

Die Berechnung und Ausgabe kann einige Zeit dauern.

Falls Sie mit den Begriffen Intron und Exon nicht vertraut sind, bemühen Sie bitte das Internet.

 

Was Sie jetzt verstanden haben sollten

Die 2D-Matrix ist eine wichtige Datenstruktur zur paarweisen Analyse von Sequenzen. Bereiche mit identischen Teilsequenzen machen sich darin durch Diagonalelemente bemerkbar, Insertionen oder Deletion durch Lücken in einer der Sequenzen.