Warum ist dieses Wissen wichtig? Beim Vergleich zweier Proteinsequenzen fällt häufig auf, dass selbst dann, wenn sich die Proteine in ihrer Gesamtheit sehr ähnlich sind, der Ähnlichkeitsgrad längs der Sequenzen stark variieren kann. Häufig wechseln sich Regionen mit signifikant hohen Scores ab mit solchen Regionen, die keinerlei Ähnlichkeit zueinander aufweisen. Eine Ursache für dieses Schwanken des Scores ist der modulare Aufbau von Proteinen aus Domänen. 

Eine Domäne ist in Proteinen die kleinste Einheit mit einer definierten und unabhängig gefalteten Struktur. Proteindomänen bestehen meist aus 50-150 Residuen und führen häufig individuelle Reaktionen aus, deren Zusammenwirken die Gesamtfunktion eines Proteins ausmacht. Im folgenden studieren Sie zunächst ein einfaches Protein, welches aus zwei, leicht zu identifizierenden Domänen besteht. Anschließend experimentieren Sie mit einem komplexeren Proteinsystem.

Bezug Die Übungen komplementieren Kapitel 1 "Biologische Grundlagen" sowie den Abschnitt 9.1 des Buches.

Lernziel

Nach dem Bearbeiten der Übung sollten Sie das Konzept der Proteindomäne
  • verstanden haben,
  • seinen Einfluss auf Alignmentverfahren abschätzen können.
 
   
Übung Dom_Str_1
   
   
In der folgenden Abbildung sehen Sie die 3D-Struktur eines CAP-Monomers.
Ein CAP-Monomer besteht aus zwei Domänen. Die Domänengrenze ist leicht auszumachen.
  • Bestimmen Sie die Positionen der Residuen, die jeweils an einer Domäne beteiligt sind.
  • Bestimmen sie die Lage der Domänen im Hinblick auf ihre Position innerhalb der Peptidkette 
    (N-terminal bzw. C-terminal).
   
 
3D-Struktur eines CAP-Monomers

Die N-terminale Domäne bindet cAMP und ist an der Dimerisierung beteiligt. Die C-terminale Domäne vermittelt die DNA-Bindung des Proteins. CAP-Dimere sind in Bakterien an der Aktivierung solcher Gene beteiligt, deren Genprodukte in den Zuckerstoffwechsel eingreifen.

Voraussetzung für die Darstellung ist, dass Java installiert wurde.

Nach Knippers, Molekulare Genetik, 1995.

   
Übung Dom_Str_2
   
  Der Koagulationsfaktor XII und der Plasminogen-Aktivator sind an der Blutgerinnung beteiligt. Beide Proteine besitzen eine katalytische Domäne, die Serinprotease-Aktivität zeigt. Daneben sind in beiden Proteinen eine Anzahl weiterer, strukturell unterscheidbarer Domänen zu identifizieren. Zwei Domänen, die zuerst in Fibronectin (F-I und F-II) gefunden wurden, eine Domäne die im epidermalen Wachstumsfaktor (EGF) vorkommt und eine Domäne die Kringle genannt wird. Sowohl die Aufeinanderfolge der Domänen, als auch deren Anzahl in den beiden Proteinen ist unterschiedlich. Domänengrenzen fallen (in eukaryotischen Genen) oft mit Intron/Exon-Übergängen zusammen.
 
 
 
Domänenstruktur des humanen Koagulationsfaktors XII (Swissprot P00748) und des humanen Plasminogen Aktivators (PLA) (Swissprot P00750)
   
  Die relative Positionierung von Elementen zweier Sequenzen wird Alignment genannt. Wir werden im Laufe des Kurses mehrere Algorithmen kennen lernen, die Alignments berechnen. Ein einfaches Verfahren, um eine Folge identischer Symbole in einem Paar von Sequenzen zu identifizieren, ist es, in einer Matrix diejenigen Zellen z. B. mit dem Wert 1 zu besetzen, deren Zellenindizes auf identische Symbole in den Sequenzen verweisen. Dieses Verfahren wird im Abschnitt zu Dotplots genau vorgestellt. Teilsequenzen mit hohen Ähnlichkeitswerten machen sich dann als diagonal verlaufende Linien bemerkbar. Das Programm Dotter arbeitet nach genau diesem Verfahren. Im folgenden Beispiel sehen Sie den Vergleich der oben eingeführten Proteine mit Hilfe einer solchen Matrix. 
 
Vergleich der Protein-Sequenzen des humanen Koagulationsfaktors XII (Swissprot P00748) und des humanen Plasminogen-Aktivators (Swissprot P00750). In beiden Sequenzen kommen die Domänen F-I, EGF und Kringle vor. Allerdings ist die Anzahl und Reihenfolge der Domänen in den Sequenzen verschieden. Die Domänen sind in unterschiedlichen Farben dargestellt. Die katalytischen Domänen (gelb, bzw. orange) liegen jeweils am Sequenzende. Der Plot wurde unter Verwendung des Programms Dotter erzeugt.
Nach Schuler, G. D. (1998) "Sequence alignment und database searching" in "Bioinformatics A Practical Guide to the Analysis of Genes and Proteins", Baxevanis A., Quellette, B. F. (Hrsg.) John Wiley & Sons, New York.
   
Am Rand sind die in den beiden Proteinen vorkommenden Domänen eingetragen.
  • Wie machen sich im Dotplot mehrfach in den Sequenzen vorkommende Domänen bemerkbar?
  • Können Sie die Domänenstruktur der beiden Proteine bestätigen?
Datenbank SMART Sie können auch die Datenbank SMART bemühen, um die Domänenstruktur der beiden Proteine zu verifizieren.

Übernehmen Sie aus der Datenbank SWISS-PROT (Links sind oben eingefügt) die Sequenzen und übergeben sie diese dem SMART-Server. Dazu ist zunächst der Modus Genomic auszuwählen und dann die Sequenz in das Fenster "Sequence" per cut and paste zu übertragen und die Auswertung durch Betätigen der Taste "Sequence SMART" zu starten. 

Übung Dom_Str_3
Es folgen mehrere Sequenzen, die dem Dotlet-Paket von M. Pagni und T. Junier entnommen sind.
  • Stellen Sie unter Verwendung des Programms Dotlet fest, ob diese Proteine gemeinsame Domänen besitzen.
    Starten Sie eine Dotlet-Sitzung durch Aktivierung dieses Links.
MS2_HUMAN (P78325):
MRGLGLWLLGAMMLPAIAPSRPWALMEQYEVVLPRRLPGPRVRRALPSHLGLHPERVSYVLGATGHNFTLHLRKNRDLLG
SGYTETYTAANGSEVTEQPRGQDHCLYQGHVEGYPDSAASLSTCAGLRGFFQVGSDLHLIEPLDEGGEGGRHAVYQAEHL
LQTAGTCGVSDDSLGSLLGPRTAAVFRPRPGDSLPSRETRYVELYVVVDNAEFQMLGSEAAVRHRVLEVVNHVDKLYQKL
NFRVVLVGLEIWNSQDRFHVSPDPSVTLENLLTWQARQRTRRHLHDNVQLITGVDFTGTTVGFARVSAMCSHSSGAVNQD
HSKNPVGVACTMAHEMGHNLGMDHDENVQGCRCQERFEAGRCIMAGSIGSSFPRMFSDCSQAYLESFLERPQSVCLANAP
DLSHLVGGPVCGNLFVERGEQCDCGPPEDCRNRCCNSTTCQLAEGAQCAHGTCCQECKVKPAGELCRPKKDMCDLEEFCD
GRHPECPEDAFQENGTPCSGGYCYNGACPTLAQQCQAFWGPGGQAAEESCFSYDILPGCKASRYRADMCGVLQCKGGQQP
LGRAICIVDVCHALTTEDGTAYEPVPEGTRCGPEKVCWKGRCQDLHVYRSSNCSAQCHNHGVCNHKQECHCHAGWAPPHC
AKLLTEVHAASGSLPVLVVVVLVLLAVVLVTLAGIIVYRKARSRILSRNVAPKTTMGRSNPLFHQAASRVPAKGGAPAPS
RGPQELVPTTHPGQPARHPASSVALKRPPPAPPVTVSSPPFPVPVYTRQAPKQVIKPTFAPPVPPVKPGAGAANPGPAEG
AVGPKVALKPPIQRKQGAGAPTAP
ADAM_CROAD (P34179):
QQNLPQRYIELVVVADRRVFMKYNSDLNIIRTRVHEIVNIINGFYRSLNIDVSLVNLEIWSGQDPLTIQSSSSNTLNSEG
LWREKVLLNKKKKDNAQLLTAIEFKCETLGKAYLNSMCNPRSSVGIVKDHSPINLLVAVTMAHELGHNLGMEHDGKDCLR
GASLCIMRPGLTPGRSYEFSDDSMGYYQKFLNQYKPQCILNKP
SLIT_DROME (P24014):
MAAPSRTTLMPPPFRLQLRLLILPILLLLRHDAVHAEPYSGGFGSSAVSSGGLGSVGIHIPGGGVGVITEARCPRVCSCT
GLNVDCSHRGLTSVPRKISADVERLELQGNNLTVIYETDFQRLTKLRMLQLTDNQIHTIERNSFQDLVSLERLDISNNVI
TTVGRRVFKGAQSLRSLQLDNNQITCLDEHAFKGLVELEILTLNNNNLTSLPHNIFGGLGRLRALRLSDNPFACDCHLSW
LSRFLRSATRLAPYTRCQSPSQLKGQNVADLHDQEFKCSGLTEHAPMECGAENSCPHPCRCADGIVDCREKSLTSVPVTL
PDDTTDVRLEQNFITELPPKSFSSFRRLRRIDLSNNNISRIAHDALSGLKQLTTLVLYGNKIKDLPSGVFKGLGSLRLLL
LNANEISCIRKDAFRDLHSLSLLSLYDNNIQSLANGTFDAMKSMKTVHLAKNPFICDCNLRWLADYLHKNPIETSGARCE
SPKRMHRRRIESLREEKFKCSWGELRMKLSGECRMDSDCPAMCHCEGTTVDCTGRRLKEIPRDIPLHTTELLLNDNELGR
ISSDGLFGRLPHLVKLELKRNQLTGIEPNAFEGASHIQELQLGENKIKEISNKMFLGLHQLKTLNLYDNQISCVMPGSFE
HLNSLTSLNLASNPFNCNCHLAWFAECVRKKSLNGGAARCGAPSKVRDVQIKDLPHSEFKCSSENSEGCLGDGYCPPSCT
CTGTVVACSRNQLKEIPRGIPAETSELYLESNEIEQIHYERIRHLRSLTRLDLSNNQITILSNYTFANLTKLSTLIISYN
KLQCLQRHALSGLNNLRVVSLHGNRISMLPEGSFEDLKSLTHIALGSNPLYCDCGLKWFSDWIKLDYVEPGIARCAEPEQ
MKDKLILSTPSSSFVCRGRVRNDILAKCNACFEQPCQNQAQCVALPQREYQCLCQPGYHGKHCEFMIDACYGNPCRNNAT
CTVLEEGRFSCQCAPGYTGARCETNIDDCLGEIKCQNNATCIDGVESYKCECQPGFSGEFCDTKIQFCSPEFNPCANGAK
CMDHFTHYSCDCQAGFHGTNCTDNIDDCQNHMCQNGGTCVDGINDYQCRCPDDYTGKYCEGHNMISMMYPQTSPCQNHEC
KHGVCFQPNAQGSDYLCRCHPGYTGKWCEYLTSISFVHNNSFVELEPLRTRPEANVTIVFSSAEQNGILMYDGQDAHLAV
ELFNGRIRVSYDVGNHPVSTMYSFEMVADGKYHAVELLAIKKNFTLRVDRGLARSIINEGSNDYLKLTTPMFLGGLPVDP
AQQAYKNWQIRNLTSFKGCMKEVWINHKLVDFGNAQRQQKITPGCALLEGEQQEEEDDEQDFMDETPHIKEEPVDPCLEN
KCRRGSRCVPNSNARDGYQCKCKHGQRGRYCDQGEGSTEPPTVTAASTCRKEQVREYYTENDCRSRQPLKYAKCVGGCGN
QCCAAKIVRRRKVRMVCSNNRKYIKNLDIVRKCGCTKKCY
SERA_PLAFG (P13823):
MKSYISLFFILCVIFNKNVIKCTGESQTGNTGGGQAGNTVGDQAGSTGGSPQGSTGASQPGSSEPSNPVSSGHSVSTVSV
SQTSTSSEKQDTIQVKSALLKDYMGLKVTGPCNENFIMFLVPHIYIDVDTEDTNIELRTTLKETNNAISFESNSGSLEKK
KYVKLPSNGTTGEQGSSTGTVRGDTEPISDSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSESLPANGPDSPTVKP
PRNLQNICETGKNFKLVVYIKENTLIIKWKVYGETKDTTENNKVDVRKYLINEKETPFTSILIHAYKEHNGTNLIESKNY
ALGSDIPEKCDTLASNCFLSGNFNIEKCFQCALLVEKENKNDVCYKYLSEDIVSNFKEIKAETEDDDEDDYTEYKLTESI
DNILVKMFKTNENNDKSELIKLEEVDDSLKLELMNYCSLLKDVDTTGTLDNYGMGNEMDIFNNLKRLLIYHSEENINTLK
NKFRNAAVCLKNVDDWIVNKRGLVLPELNYDLEYFNEHLYNDKNSPEDKDNKGKGVVHVDTTLEKEDTLSYDNSDNMFCN
KEYCNRLKDENNCISNLQVEDQGNCDTSWIFASKYHLETIRCMKGYEPTKISALYVANCYKGEHKDRCDEGSSPMEFLQI
IEDYGFLPAESNYPYNYVKVGEQCPKVEDHWMNLWDNGKILHNKNEPNSLDGKGYTAYESERFHDNMDAFVKIIKTEVMN
KGSVIAYIKAENVMGYEFSGKKVQNLCGDDTADHAVNIVGYGNYVNSEGEKKSYWIVRNSWGPYWGDEGYFKVDMYGPTH
CHFNFIHSVVIFNVDLPMNNKTTKKESKIYDYYLKASPEFYHNLYFKNFNVGKKNLFSEKEDNENNKKLGNNYIIFGQDT
AGSGQSGKESNTALESAGTSNEVSERVHVYHILKHIKDGKIRMGMRKYIDTQDVNKKHSCTRSYAFNPENYEKCVNLCNV
NWKTCEEKTSPGLCLSKLDTNNECYFCYV
   
Hinweise

Übernehmen Sie zunächst per copy and paste alle Sequenzen in die Anwendung. Drücken Sie hierzu die input-Taste und kopieren Sie bitte jeweils Sequenz und Sequenzname in die entsprechenden Felder. Vergleichen Sie auch die Sequenzen mit sich selbst, um das mehrfache Vorkommen von Domänen in einer Sequenz zu überprüfen.

Beachten Sie bei Ihrer Entscheidung auch die Histogrammwerte. Können Sie eine Abhängigkeit zwischen Kurvenform und Übereinstimmung der Teilsequenzen ableiten?

Was Sie jetzt verstanden haben sollten

Die wichtigsten Organisationselemente von Proteinen sind die Proteindomänen. Deren Zusammenspiel macht die Funktion komplexer Proteine aus. Wie wir später sehen werden, dienen viele Algorithmen dem Zweck, Domänen und ihre Funktion zu identifizieren.