| |
|
| Warum ist
dieses Wissen wichtig? |
Beim Vergleich zweier
Proteinsequenzen fällt häufig auf, dass selbst dann, wenn sich die
Proteine in ihrer Gesamtheit sehr ähnlich sind, der Ähnlichkeitsgrad
längs der Sequenzen stark
variieren kann. Häufig wechseln sich Regionen mit signifikant
hohen Scores ab mit solchen Regionen, die keinerlei
Ähnlichkeit zueinander aufweisen. Eine Ursache für
dieses Schwanken des Scores ist der modulare Aufbau von
Proteinen aus Domänen.
Eine Domäne
ist in Proteinen die kleinste Einheit mit einer definierten und
unabhängig gefalteten Struktur. Proteindomänen bestehen
meist aus 50-150 Residuen und führen häufig
individuelle Reaktionen aus, deren Zusammenwirken die
Gesamtfunktion eines Proteins ausmacht. Im folgenden studieren Sie
zunächst ein einfaches Protein, welches aus zwei, leicht zu
identifizierenden Domänen besteht. Anschließend experimentieren Sie
mit einem komplexeren Proteinsystem.
|
| Bezug |
Die Übungen komplementieren Kapitel 1 "Biologische Grundlagen" sowie den Abschnitt 9.1 des Buches. |
Lernziel |
Nach dem Bearbeiten der Übung
sollten Sie das Konzept der Proteindomäne
- verstanden haben,
- seinen Einfluss auf Alignmentverfahren abschätzen
können.
|
|
|
|
|
| |
|
| Übung |
Dom_Str_1
|
|
| |
|
| |
In der folgenden Abbildung sehen Sie die 3D-Struktur
eines CAP-Monomers. Ein CAP-Monomer besteht aus zwei
Domänen. Die Domänengrenze ist leicht auszumachen.
- Bestimmen Sie die Positionen der Residuen, die jeweils an einer
Domäne beteiligt sind.
- Bestimmen sie die Lage der Domänen im Hinblick auf ihre
Position innerhalb der Peptidkette
(N-terminal bzw.
C-terminal).
|
|
| |
|
| |
|
|
3D-Struktur
eines CAP-Monomers Die N-terminale
Domäne bindet cAMP und ist an der
Dimerisierung beteiligt. Die C-terminale Domäne vermittelt die DNA-Bindung
des Proteins. CAP-Dimere sind in Bakterien an der Aktivierung
solcher Gene beteiligt, deren Genprodukte in den
Zuckerstoffwechsel eingreifen.
Voraussetzung für die Darstellung ist, dass Java installiert
wurde.
Nach Knippers, Molekulare Genetik, 1995.
|
|
| |
|
| Übung |
Dom_Str_2
|
|
| |
|
| |
Der Koagulationsfaktor XII und der
Plasminogen-Aktivator sind an der Blutgerinnung
beteiligt. Beide Proteine besitzen eine katalytische
Domäne, die Serinprotease-Aktivität zeigt. Daneben sind
in beiden Proteinen eine Anzahl weiterer, strukturell
unterscheidbarer Domänen zu identifizieren. Zwei
Domänen, die zuerst in Fibronectin (F-I und F-II)
gefunden wurden, eine Domäne die im epidermalen
Wachstumsfaktor (EGF) vorkommt und eine Domäne die
Kringle genannt wird. Sowohl die Aufeinanderfolge der
Domänen, als auch deren Anzahl in den beiden Proteinen
ist unterschiedlich. Domänengrenzen fallen (in
eukaryotischen Genen) oft mit Intron/Exon-Übergängen
zusammen. |
| |
|
| |
|
| |
Die relative Positionierung von Elementen zweier Sequenzen wird
Alignment genannt. Wir werden im Laufe des Kurses mehrere Algorithmen
kennen lernen, die Alignments berechnen. Ein einfaches Verfahren, um eine
Folge identischer Symbole in einem Paar von Sequenzen zu
identifizieren, ist es, in einer Matrix diejenigen Zellen z. B. mit dem
Wert 1 zu besetzen, deren Zellenindizes auf identische Symbole in
den Sequenzen verweisen. Dieses Verfahren wird im Abschnitt zu Dotplots
genau vorgestellt. Teilsequenzen mit hohen Ähnlichkeitswerten machen
sich dann als diagonal verlaufende Linien bemerkbar. Das Programm Dotter
arbeitet nach genau diesem Verfahren. Im folgenden Beispiel sehen Sie
den Vergleich der oben eingeführten Proteine mit Hilfe einer solchen
Matrix. |
| |
 |
Vergleich der
Protein-Sequenzen des humanen Koagulationsfaktors XII (Swissprot
P00748) und des
humanen Plasminogen-Aktivators (Swissprot
P00750). In
beiden Sequenzen kommen die Domänen F-I,
EGF und Kringle vor. Allerdings ist die
Anzahl und Reihenfolge der Domänen in
den Sequenzen verschieden. Die
Domänen sind in unterschiedlichen Farben
dargestellt. Die katalytischen Domänen
(gelb, bzw. orange) liegen jeweils am
Sequenzende. Der Plot wurde unter
Verwendung des Programms
Dotter
erzeugt. Nach Schuler, G. D. (1998) "Sequence alignment und database searching" in "Bioinformatics A
Practical Guide to the Analysis of Genes and
Proteins", Baxevanis A., Quellette, B. F.
(Hrsg.) John Wiley & Sons, New York. |
|
|
| |
Am Rand sind die in den beiden Proteinen
vorkommenden Domänen eingetragen.
- Wie machen sich im Dotplot mehrfach in den Sequenzen vorkommende
Domänen bemerkbar?
- Können Sie die Domänenstruktur der beiden Proteine
bestätigen?
|
|
|
|
| Datenbank SMART |
Sie können auch die Datenbank SMART
bemühen, um die Domänenstruktur der beiden Proteine zu verifizieren.
Übernehmen Sie aus der Datenbank SWISS-PROT (Links sind oben
eingefügt) die Sequenzen und übergeben sie diese dem
SMART-Server.
Dazu ist zunächst der Modus Genomic auszuwählen und dann die Sequenz in das Fenster "Sequence" per cut
and paste zu übertragen und die Auswertung durch Betätigen der
Taste "Sequence SMART" zu starten. |
|
|
|
|
| Übung |
Dom_Str_3
|
|
|
|
|
|
|
MS2_HUMAN (P78325):
MRGLGLWLLGAMMLPAIAPSRPWALMEQYEVVLPRRLPGPRVRRALPSHLGLHPERVSYVLGATGHNFTLHLRKNRDLLG
SGYTETYTAANGSEVTEQPRGQDHCLYQGHVEGYPDSAASLSTCAGLRGFFQVGSDLHLIEPLDEGGEGGRHAVYQAEHL
LQTAGTCGVSDDSLGSLLGPRTAAVFRPRPGDSLPSRETRYVELYVVVDNAEFQMLGSEAAVRHRVLEVVNHVDKLYQKL
NFRVVLVGLEIWNSQDRFHVSPDPSVTLENLLTWQARQRTRRHLHDNVQLITGVDFTGTTVGFARVSAMCSHSSGAVNQD
HSKNPVGVACTMAHEMGHNLGMDHDENVQGCRCQERFEAGRCIMAGSIGSSFPRMFSDCSQAYLESFLERPQSVCLANAP
DLSHLVGGPVCGNLFVERGEQCDCGPPEDCRNRCCNSTTCQLAEGAQCAHGTCCQECKVKPAGELCRPKKDMCDLEEFCD
GRHPECPEDAFQENGTPCSGGYCYNGACPTLAQQCQAFWGPGGQAAEESCFSYDILPGCKASRYRADMCGVLQCKGGQQP
LGRAICIVDVCHALTTEDGTAYEPVPEGTRCGPEKVCWKGRCQDLHVYRSSNCSAQCHNHGVCNHKQECHCHAGWAPPHC
AKLLTEVHAASGSLPVLVVVVLVLLAVVLVTLAGIIVYRKARSRILSRNVAPKTTMGRSNPLFHQAASRVPAKGGAPAPS
RGPQELVPTTHPGQPARHPASSVALKRPPPAPPVTVSSPPFPVPVYTRQAPKQVIKPTFAPPVPPVKPGAGAANPGPAEG
AVGPKVALKPPIQRKQGAGAPTAP
|
|
|
ADAM_CROAD (P34179):
QQNLPQRYIELVVVADRRVFMKYNSDLNIIRTRVHEIVNIINGFYRSLNIDVSLVNLEIWSGQDPLTIQSSSSNTLNSEG
LWREKVLLNKKKKDNAQLLTAIEFKCETLGKAYLNSMCNPRSSVGIVKDHSPINLLVAVTMAHELGHNLGMEHDGKDCLR
GASLCIMRPGLTPGRSYEFSDDSMGYYQKFLNQYKPQCILNKP
|
|
|
SLIT_DROME (P24014):
MAAPSRTTLMPPPFRLQLRLLILPILLLLRHDAVHAEPYSGGFGSSAVSSGGLGSVGIHIPGGGVGVITEARCPRVCSCT
GLNVDCSHRGLTSVPRKISADVERLELQGNNLTVIYETDFQRLTKLRMLQLTDNQIHTIERNSFQDLVSLERLDISNNVI
TTVGRRVFKGAQSLRSLQLDNNQITCLDEHAFKGLVELEILTLNNNNLTSLPHNIFGGLGRLRALRLSDNPFACDCHLSW
LSRFLRSATRLAPYTRCQSPSQLKGQNVADLHDQEFKCSGLTEHAPMECGAENSCPHPCRCADGIVDCREKSLTSVPVTL
PDDTTDVRLEQNFITELPPKSFSSFRRLRRIDLSNNNISRIAHDALSGLKQLTTLVLYGNKIKDLPSGVFKGLGSLRLLL
LNANEISCIRKDAFRDLHSLSLLSLYDNNIQSLANGTFDAMKSMKTVHLAKNPFICDCNLRWLADYLHKNPIETSGARCE
SPKRMHRRRIESLREEKFKCSWGELRMKLSGECRMDSDCPAMCHCEGTTVDCTGRRLKEIPRDIPLHTTELLLNDNELGR
ISSDGLFGRLPHLVKLELKRNQLTGIEPNAFEGASHIQELQLGENKIKEISNKMFLGLHQLKTLNLYDNQISCVMPGSFE
HLNSLTSLNLASNPFNCNCHLAWFAECVRKKSLNGGAARCGAPSKVRDVQIKDLPHSEFKCSSENSEGCLGDGYCPPSCT
CTGTVVACSRNQLKEIPRGIPAETSELYLESNEIEQIHYERIRHLRSLTRLDLSNNQITILSNYTFANLTKLSTLIISYN
KLQCLQRHALSGLNNLRVVSLHGNRISMLPEGSFEDLKSLTHIALGSNPLYCDCGLKWFSDWIKLDYVEPGIARCAEPEQ
MKDKLILSTPSSSFVCRGRVRNDILAKCNACFEQPCQNQAQCVALPQREYQCLCQPGYHGKHCEFMIDACYGNPCRNNAT
CTVLEEGRFSCQCAPGYTGARCETNIDDCLGEIKCQNNATCIDGVESYKCECQPGFSGEFCDTKIQFCSPEFNPCANGAK
CMDHFTHYSCDCQAGFHGTNCTDNIDDCQNHMCQNGGTCVDGINDYQCRCPDDYTGKYCEGHNMISMMYPQTSPCQNHEC
KHGVCFQPNAQGSDYLCRCHPGYTGKWCEYLTSISFVHNNSFVELEPLRTRPEANVTIVFSSAEQNGILMYDGQDAHLAV
ELFNGRIRVSYDVGNHPVSTMYSFEMVADGKYHAVELLAIKKNFTLRVDRGLARSIINEGSNDYLKLTTPMFLGGLPVDP
AQQAYKNWQIRNLTSFKGCMKEVWINHKLVDFGNAQRQQKITPGCALLEGEQQEEEDDEQDFMDETPHIKEEPVDPCLEN
KCRRGSRCVPNSNARDGYQCKCKHGQRGRYCDQGEGSTEPPTVTAASTCRKEQVREYYTENDCRSRQPLKYAKCVGGCGN
QCCAAKIVRRRKVRMVCSNNRKYIKNLDIVRKCGCTKKCY |
|
|
SERA_PLAFG (P13823):
MKSYISLFFILCVIFNKNVIKCTGESQTGNTGGGQAGNTVGDQAGSTGGSPQGSTGASQPGSSEPSNPVSSGHSVSTVSV
SQTSTSSEKQDTIQVKSALLKDYMGLKVTGPCNENFIMFLVPHIYIDVDTEDTNIELRTTLKETNNAISFESNSGSLEKK
KYVKLPSNGTTGEQGSSTGTVRGDTEPISDSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSESLPANGPDSPTVKP
PRNLQNICETGKNFKLVVYIKENTLIIKWKVYGETKDTTENNKVDVRKYLINEKETPFTSILIHAYKEHNGTNLIESKNY
ALGSDIPEKCDTLASNCFLSGNFNIEKCFQCALLVEKENKNDVCYKYLSEDIVSNFKEIKAETEDDDEDDYTEYKLTESI
DNILVKMFKTNENNDKSELIKLEEVDDSLKLELMNYCSLLKDVDTTGTLDNYGMGNEMDIFNNLKRLLIYHSEENINTLK
NKFRNAAVCLKNVDDWIVNKRGLVLPELNYDLEYFNEHLYNDKNSPEDKDNKGKGVVHVDTTLEKEDTLSYDNSDNMFCN
KEYCNRLKDENNCISNLQVEDQGNCDTSWIFASKYHLETIRCMKGYEPTKISALYVANCYKGEHKDRCDEGSSPMEFLQI
IEDYGFLPAESNYPYNYVKVGEQCPKVEDHWMNLWDNGKILHNKNEPNSLDGKGYTAYESERFHDNMDAFVKIIKTEVMN
KGSVIAYIKAENVMGYEFSGKKVQNLCGDDTADHAVNIVGYGNYVNSEGEKKSYWIVRNSWGPYWGDEGYFKVDMYGPTH
CHFNFIHSVVIFNVDLPMNNKTTKKESKIYDYYLKASPEFYHNLYFKNFNVGKKNLFSEKEDNENNKKLGNNYIIFGQDT
AGSGQSGKESNTALESAGTSNEVSERVHVYHILKHIKDGKIRMGMRKYIDTQDVNKKHSCTRSYAFNPENYEKCVNLCNV
NWKTCEEKTSPGLCLSKLDTNNECYFCYV
|
|
| |
|
| Hinweise |
Übernehmen Sie zunächst per copy and paste alle Sequenzen in
die Anwendung. Drücken Sie hierzu die input-Taste und kopieren Sie bitte
jeweils Sequenz und Sequenzname in die entsprechenden Felder.
Vergleichen Sie auch die Sequenzen mit sich selbst, um das mehrfache
Vorkommen von Domänen in einer Sequenz zu überprüfen. Beachten
Sie bei Ihrer Entscheidung auch die Histogrammwerte. Können Sie eine
Abhängigkeit zwischen Kurvenform und Übereinstimmung der
Teilsequenzen ableiten? |
|
|
|
Was Sie jetzt verstanden haben sollten |
Die wichtigsten Organisationselemente von Proteinen sind die
Proteindomänen. Deren Zusammenspiel macht die Funktion komplexer
Proteine aus. Wie wir später sehen werden, dienen viele Algorithmen dem
Zweck, Domänen und ihre Funktion zu identifizieren. |
| |
|