Warum ist dieses Wissen wichtig? Für die Bearbeitung größerer Projekte müssen Sie in der Lage sein, mehrere bioinformatische Werkzeuge zu kombinieren. Zusätzlich verlangen solche Aufgaben, Zwischenergebnisse geeignet aufzubereiten. Beides üben Sie an den unten eingeführten Projekten. Diese machen zudem deutlich, welch komplexe und interessante Fragestellungen in der Bioinformatik bearbeitet werden können.
Bezug Diese Übungen erfordern die Kenntnis praktisch des gesamten Stoffes.  

Lernziel

Nach dem Bearbeiten der Übung sollten Sie
  • mit den üblichen bioinformatischen Werkzeugen umgehen,
  • Datenmaterial aufarbeiten,
  • Ergebnisse interpretieren

können.

 
   
Übung Proj_1 Phylogenie von RubisCO
   

Diese Übung orientiert sich an den beiden Arbeiten DelPal96 und WatTab97.

Ribulose 1,5-biphosphate (RuBP) Carboxlyase/Oxygenase (RubisCO) ist zweifelsohne das auf der Welt am weitesten verbreitete Enzym. Es kommt in zwei unterschiedlichen Strukturformen (Form I und Form II) vor. Das Form I Enzym besteht aus acht kleinen und acht großen Untereinheiten. Das Enzym mit Form II besteht nur aus großen Untereinheiten, die allerdings völlig anders aufgebaut sind als die der Form I. Die Bedeutung des Enzyms liegt darin, dass es aufgrund der weiten Verbreitung massiv in die Kohlenstoff-Fixierung eingreift. Insbesondere im Hinblick auf die globale Erwärmung ist es wichtig, Funktion, Verbreitung und Evolution dieses Enzyms genau zu verstehen.

Die Gene rbcL und cbbL sowie die daraus resultierenden Proteinsequenzen eignen sich gut für phylogenetische Studien, da die Sequenzen einer Vielzahl von Spezies bekannt sind. Während Stammbäume, die von DNA-Sequenzen der rbcL Gene gut übereinstimmen mit solchen, die aus 16S rRNA abgeleitet wurden, zeichnen Bäume abgeleitet von RbcL-Proteinsequenzen ein ganz anderes Bild. Diesen Vergleich sollen Sie hier nachvollziehen.

Entwickeln Sie einen Stammbaum der Proteinsequenzen von RbcL.
Was schließen Sie für die Herkunft von RubisCo in Cyanobakterien?
 
Hinweise 1) Stellen Sie eine Sammlung von Proteinsequenzen zusammen. Sie sollte Spezies enthalten aus den Proteobacteria (Alpha, Beta and Gamma Subdivision), den Cyanobakterien, und Plastiden. Benutzen Sie als outgroup einige wenige Sequenzen der Form II. Stellen Sie sicher, dass die Sequenzen aus einigen Cyanobakterien enthalten sind.

2) Benutzen Sie CLUSTALW für das multiple Sequenzalignment.

3) Generieren Sie phylogenetische Bäume mit der Neighbor-Joining Methode und Kimura Distanzen. Benutzen Sie Bootstrapping, um die Stabilität der Bäume zu evaluieren.

Vergleichen Sie Ihre Befunde mit solchen aus PubMed.

 

 
Übung Proj_2 Horizontaler Gentransfer
   
Die Entwicklungslinien von E. coli und S. typhimuirum haben sich von ca. 14 Millionen Jahren getrennt. Vermutlich sind seitdem 755 ORFs in das Genom von E. coli aufgenommen worden. Gehen Sie für die folgenden Rechnungen von einer mittleren Genlänge von 300 Aminosäuren aus.

Beantworten Sie bitte folgende Fragen:

Wie groß ist die mittlere Geschwindigkeit der Genübertragung in kBasen/Jahr?

Wie vielen Genen entspricht dies?

Welchen Prozentsatz von Genen hat E. coli seitdem aufgenommen?

     
Übung Proj_3 Thioredoxin
   

Thiol-Reduktion mithilfe des Thioredoxin- und des Glutathion-Systems spielt eine zentrale Rolle bei einer Vielzahl biologischer Funktionen wie z.B. bei der Apoptosis (dem Zelltod). Das Thioredoxin-System besteht aus mehreren Proteinen, die über ein System von active sites interagieren, in denen Cystein-Reste eine wichtige Rolle spielen. 

Thioredoxin selbst ist ein kleines Protein, mit zwei redox-aktiven Cystein-Residuen im aktiven Zentrum (Cys-Gly-Por-Cys). Es interagiert mit NADPH und Thioredoxin Reduktase als höchst effizientes Reduktionssystem für exponierte Disulfide. 

Die folgenden Frage beziehen sich zunächst auf das Thioredoxin H von Chlamydomonas reinhardtii. Besorgen Sie sich den PDB-File mit der zugehörigen Struktur.

 
Die a-helix, die von den Residuen 37-52 gebildet wird, ist an einer Stelle unterbrochen. Welche Aminosäure würden Sie aufgrund der Eigenschaften vermuten?
 
  Verifizieren Sie Ihre Vermutung.  
 

Es gibt mehrere Isoformen von Thioredoxin. Stellen Sie einen Datensatz zusammen, der die Sequenzen zu den folgenden Proteinen enthält: Cytosolisches (2 Isoformen) und mitochondriales Thioredoxin von S. cervisiae, Thioredoxin aus E. coli (aus zwei unterschiedlichen Genen stammend) und humanes Thioredixin cytosolischen und mitochondrialen Ursprungs.

 
 
Welche Residuen sind in allen, welche in eukaryotischen Proteinen konserviert?
 
Hinweise Generieren Sie ein multiples Sequenzalignment (MSA). Sie können CLUSTALW oder eines der neueren Programme wie T-Coffee benutzen. Überprüfen Sie das MSA und korrigieren Sie, falls erforderlich.

Ergänzen Sie die Datei um eine Zeile, in der Sie die Sekundärstruktur eintragen.

 
 
An welchen Stellen gibt es turns, ohne dass in den entsprechenden Bereichen des MSAs oder in der Nähe Insertionen/Deletionen auftreten.
 
 

Überprüfen Sie, ob Ihr MSA den BLOSUM-80 Kriterien genügt.
Falls nicht, ändern Sie es entsprechend ab. Bearbeiten Sie die folgenden Fragen mit diesem Profil.
Die Positionsangaben beziehen sich auf diejenigen, die im PDB-File 1THX zu finden sind.

 
 
Welches Hexapeptid kommt im MSA an den Positionen 28-33 am häufigsten vor?  

Welchen Score hat dieses Hexapeptid im Vergleich mit VLVYFW?

 
 

Leiten Sie aus dem MSA ein Profil ab für die Positionen 101-106.

Bitte initialisieren Sie die Matrix zur Berechnung der Häufigkeiten nicht mit 0, sondern mit 1. (Weshalb?) Verwenden Sie für mittlere Aminosäurehäufigkeiten hier (ausnahmsweise) die entsprechenden Werte, die in der SwissProt-Datenbank angegeben sind. Welche würde man korrekterweise nehmen?

 
 
Berechnen Sie den Score für die Sequenz KDKLLL im Vergleich mit Ihrem Profil.
 
  Wir betrachten jetzt die Struktur, die im Datensatz 1THX abgelegt ist.

Generieren Sie eine Sequenz AEI für die Positionen 9-18. Klassifizieren Sie hierfür die Residuen nach dem folgenden Alphabet:

Symbol Bedeutung Menge von Aminosäuren
a ambivalent = { Ala, Cys, Gly, Pro, Ser, Thr, Trp, Tyr }
e extern = { Arg, Asn, Asp, Gln, Glu, His, Lys }
i intern = { Ile, Leu, Met, Phe, Val }

 

 
  Betrachten Sie die 3D-Struktur. Diskutieren Sie die Lage der Residuen 9-18 im Vergleich mit der Sequenz AEI.  
 

Falls Sie dazu in der Lage sind:

 
Programmier-
aufgaben
Schreiben Sie Programme, die

a)  aus einem MSA ein Profil ableiten.
Benutzen Sie für die mittleren Aminosäurehäufigkeiten die Werte, die Sie aus dem MSA ermitteln.

b) Eine Eingabesequenz mit diesem Profil vergleicht.

 
Hinweise

Überlegen Sie sich, wie das Programm mit Lücken umgehen soll.

 
 
Wie lauten die Einträge zu dieser Struktur in der SCOP- und CATH-Datenbank?
 
 

Was sind die nächsten Verwandten? Generieren Sie unter Verwendung von DALI bzw. der FSSP-Database ein Strukturalignment von Thioredoxin (1fb0A) und Calsequestrin.

 
 
Wie groß ist der Anteil identischer Aminosäuren? Ist das Strukturaligment plausibel?
 
Hinweise Bitte überprüfen Sie auch, wie die beiden Strukturen in der SCOP-Datenbank eingeordnet sind.  
  Thioredoxin kommt auch in Pflanzen vor. Seit der Totalsequenzierung des Genoms von Arabidopsis thaliana ist mehr über das Vorkommen und die Häufigkeit der entsprechenden Gene bekannt. In A. thaliana gibt es drei unterschiedliche Thioredoxin Precursor-Sequenzen.  
 
Bestimmen Sie, wie viele Gene von A. thaliana die einzelnen Formen codieren.
 
  Es ist nun interessant, herauszufinden wie sich die drei Formen unterscheiden.  
 
Gibt es Motive, mit denen die drei Formen charakterisiert werden können?
 
Hinweise Generieren Sie ein multiples Sequenzalignment und bestimmen Sie Sequenzen, die am stärksten konserviert sind. Tragen diese zur Charakterisierung der Formen bei? Gibt es andere Eigenschaften, die zur Charakterisierung geeignet sind?   
 
Wie ist die Intron/Exon Struktur der Formen?
 
     
Hinweise Überlegen Sie sich, wie Sie die Lage der Introns bestimmen können OHNE die Annotation in den Datenbanken zu nutzen. Denken Sie hierbei an den Vergleich der DNA- und Proteinsequenz.

Können Sie einen Algorithmus formulieren? Welche der Ihnen bekannten Tools können Sie nutzen?
Tragen diese Eigenschaften zur weiteren Charakterisierung bei?
 
     
Weitere
Untersuchungen
Als weitere Untersuchungen zur genaueren Charakterisierung bieten sich nun natürlich taxonomische Berechnungen an, um z.B. die Verwandtschaft und die Abstammung der einzelnen Precursor-Sequenzen zu lernen.  
     
Übung Proj_4 Weitere Charakterisierung von Proteinen
     
 

Wir haben die Proteinsequenzen, die wir aus dem DOTLET-Paket bereits kennen, schon mit FASTA/BLAST ausgewertet. Wir wollen nun mehr über die Domänen- und 2D- bzw. 3D-Struktur erfahren. Es folgen nochmals drei ausgewählte Sequenzen.

 

 
 
MS2_HUMAN (P78325)
MRGLGLWLLGAMMLPAIAPSRPWALMEQYEVVLPRRLPGPRVRRALPSHLGLHPERVSYVLGATGHNFTLHLRKNRDLLG
SGYTETYTAANGSEVTEQPRGQDHCLYQGHVEGYPDSAASLSTCAGLRGFFQVGSDLHLIEPLDEGGEGGRHAVYQAEHL
LQTAGTCGVSDDSLGSLLGPRTAAVFRPRPGDSLPSRETRYVELYVVVDNAEFQMLGSEAAVRHRVLEVVNHVDKLYQKL
NFRVVLVGLEIWNSQDRFHVSPDPSVTLENLLTWQARQRTRRHLHDNVQLITGVDFTGTTVGFARVSAMCSHSSGAVNQD
HSKNPVGVACTMAHEMGHNLGMDHDENVQGCRCQERFEAGRCIMAGSIGSSFPRMFSDCSQAYLESFLERPQSVCLANAP
DLSHLVGGPVCGNLFVERGEQCDCGPPEDCRNRCCNSTTCQLAEGAQCAHGTCCQECKVKPAGELCRPKKDMCDLEEFCD
GRHPECPEDAFQENGTPCSGGYCYNGACPTLAQQCQAFWGPGGQAAEESCFSYDILPGCKASRYRADMCGVLQCKGGQQP
LGRAICIVDVCHALTTEDGTAYEPVPEGTRCGPEKVCWKGRCQDLHVYRSSNCSAQCHNHGVCNHKQECHCHAGWAPPHC
AKLLTEVHAASGSLPVLVVVVLVLLAVVLVTLAGIIVYRKARSRILSRNVAPKTTMGRSNPLFHQAASRVPAKGGAPAPS
RGPQELVPTTHPGQPARHPASSVALKRPPPAPPVTVSSPPFPVPVYTRQAPKQVIKPTFAPPVPPVKPGAGAANPGPAEG
AVGPKVALKPPIQRKQGAGAPTAP
SLIT_DROME (P24014)
MAAPSRTTLMPPPFRLQLRLLILPILLLLRHDAVHAEPYSGGFGSSAVSSGGLGSVGIHIPGGGVGVITEARCPRVCSCT
GLNVDCSHRGLTSVPRKISADVERLELQGNNLTVIYETDFQRLTKLRMLQLTDNQIHTIERNSFQDLVSLERLDISNNVI
TTVGRRVFKGAQSLRSLQLDNNQITCLDEHAFKGLVELEILTLNNNNLTSLPHNIFGGLGRLRALRLSDNPFACDCHLSW
LSRFLRSATRLAPYTRCQSPSQLKGQNVADLHDQEFKCSGLTEHAPMECGAENSCPHPCRCADGIVDCREKSLTSVPVTL
PDDTTDVRLEQNFITELPPKSFSSFRRLRRIDLSNNNISRIAHDALSGLKQLTTLVLYGNKIKDLPSGVFKGLGSLRLLL
LNANEISCIRKDAFRDLHSLSLLSLYDNNIQSLANGTFDAMKSMKTVHLAKNPFICDCNLRWLADYLHKNPIETSGARCE
SPKRMHRRRIESLREEKFKCSWGELRMKLSGECRMDSDCPAMCHCEGTTVDCTGRRLKEIPRDIPLHTTELLLNDNELGR
ISSDGLFGRLPHLVKLELKRNQLTGIEPNAFEGASHIQELQLGENKIKEISNKMFLGLHQLKTLNLYDNQISCVMPGSFE
HLNSLTSLNLASNPFNCNCHLAWFAECVRKKSLNGGAARCGAPSKVRDVQIKDLPHSEFKCSSENSEGCLGDGYCPPSCT
CTGTVVACSRNQLKEIPRGIPAETSELYLESNEIEQIHYERIRHLRSLTRLDLSNNQITILSNYTFANLTKLSTLIISYN
KLQCLQRHALSGLNNLRVVSLHGNRISMLPEGSFEDLKSLTHIALGSNPLYCDCGLKWFSDWIKLDYVEPGIARCAEPEQ
MKDKLILSTPSSSFVCRGRVRNDILAKCNACFEQPCQNQAQCVALPQREYQCLCQPGYHGKHCEFMIDACYGNPCRNNAT
CTVLEEGRFSCQCAPGYTGARCETNIDDCLGEIKCQNNATCIDGVESYKCECQPGFSGEFCDTKIQFCSPEFNPCANGAK
CMDHFTHYSCDCQAGFHGTNCTDNIDDCQNHMCQNGGTCVDGINDYQCRCPDDYTGKYCEGHNMISMMYPQTSPCQNHEC
KHGVCFQPNAQGSDYLCRCHPGYTGKWCEYLTSISFVHNNSFVELEPLRTRPEANVTIVFSSAEQNGILMYDGQDAHLAV
ELFNGRIRVSYDVGNHPVSTMYSFEMVADGKYHAVELLAIKKNFTLRVDRGLARSIINEGSNDYLKLTTPMFLGGLPVDP
AQQAYKNWQIRNLTSFKGCMKEVWINHKLVDFGNAQRQQKITPGCALLEGEQQEEEDDEQDFMDETPHIKEEPVDPCLEN
KCRRGSRCVPNSNARDGYQCKCKHGQRGRYCDQGEGSTEPPTVTAASTCRKEQVREYYTENDCRSRQPLKYAKCVGGCGN
QCCAAKIVRRRKVRMVCSNNRKYIKNLDIVRKCGCTKKCY
SERA_PLAFG (P13823)
MKSYISLFFILCVIFNKNVIKCTGESQTGNTGGGQAGNTVGDQAGSTGGSPQGSTGASQPGSSEPSNPVSSGHSVSTVSV
SQTSTSSEKQDTIQVKSALLKDYMGLKVTGPCNENFIMFLVPHIYIDVDTEDTNIELRTTLKETNNAISFESNSGSLEKK
KYVKLPSNGTTGEQGSSTGTVRGDTEPISDSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSESLPANGPDSPTVKP
PRNLQNICETGKNFKLVVYIKENTLIIKWKVYGETKDTTENNKVDVRKYLINEKETPFTSILIHAYKEHNGTNLIESKNY
ALGSDIPEKCDTLASNCFLSGNFNIEKCFQCALLVEKENKNDVCYKYLSEDIVSNFKEIKAETEDDDEDDYTEYKLTESI
DNILVKMFKTNENNDKSELIKLEEVDDSLKLELMNYCSLLKDVDTTGTLDNYGMGNEMDIFNNLKRLLIYHSEENINTLK
NKFRNAAVCLKNVDDWIVNKRGLVLPELNYDLEYFNEHLYNDKNSPEDKDNKGKGVVHVDTTLEKEDTLSYDNSDNMFCN
KEYCNRLKDENNCISNLQVEDQGNCDTSWIFASKYHLETIRCMKGYEPTKISALYVANCYKGEHKDRCDEGSSPMEFLQI
IEDYGFLPAESNYPYNYVKVGEQCPKVEDHWMNLWDNGKILHNKNEPNSLDGKGYTAYESERFHDNMDAFVKIIKTEVMN
KGSVIAYIKAENVMGYEFSGKKVQNLCGDDTADHAVNIVGYGNYVNSEGEKKSYWIVRNSWGPYWGDEGYFKVDMYGPTH
CHFNFIHSVVIFNVDLPMNNKTTKKESKIYDYYLKASPEFYHNLYFKNFNVGKKNLFSEKEDNENNKKLGNNYIIFGQDT
AGSGQSGKESNTALESAGTSNEVSERVHVYHILKHIKDGKIRMGMRKYIDTQDVNKKHSCTRSYAFNPENYEKCVNLCNV
NWKTCEEKTSPGLCLSKLDTNNECYFCYV
 
     
 
Bestimmen Sie Zusammensetzung und Abfolge der Proteindomänen in diesen Proteinen
 
Hinweise Suchen Sie die Einträge zu diesen Proteinen in der SWISSPROT-Datenbank. Benutzen Sie den SMART-Server, um die Domänenstruktur der Proteine aufzuklären. Dokumentieren Sie Ihre Befunden als Text und skizzieren Sie die Domänenstruktur.

Legen Sie eine Datei an, in der Sie in einer Zeile unter der Sequenz die Domänen kennzeichnen, z.B. wie in

MAAPSRTTLMPPPFRLQLRLLILPILLLLRHDAVHAEPYSGGFGSSAVSSGGLGSVGIHIPGGGVGVITEARCPRVCSCT
    ------- Domänenname --------

 

 
 
Bestimmen Sie die Sekundärstruktur der Proteine.
 
Hinweise Wählen Sie zunächst einen Server, der die 2D-Struktur vorhersagt. Stossen Sie dann die Auswertung an.  
 
Vergleichen Sie Domänen- und Sekundärstruktur.
 
  Tragen Sie die Vorhersage in einer weiteren Zeile unter der Sequenz ein, z.B. wie in

Legen Sie eine Datei an, in der Sie in einer Zeile unter der Sequenz die Domänen kennzeichnen, z.B. wie in

MAAPSRTTLMPPPFRLQLRLLILPILLLLRHDAVHAEPYSGGFGSSAVSSGGLGSVGIHIPGGGVGVITEARCPRVCSCT
    ------- Domänenname -------- .......
      HHHHHHH SSSSSSSSS HHHHHHH  .......

 
     
 
Bestimmen Sie die 3D-Struktur.
 
Hinweise Stellen Sie fest, ob es zu den betrachteten Proteinen eine gelöste Struktur gibt.

Falls dies der Fall sein sollte:
Extrahieren Sie die Sekundärstruktur und vergleichen Sie diese mit der Vorhersage.

Falls dies nicht der Fall ist:
Suchen Sie einen Server, der die Tertiärstruktur vorhersagt (Stichwort Homologoemodellierung) und lassen Sie die 3D-Struktur vorhersagen.

 
 
Stellen Sie für jedes Protein sämtliche Ergebnisse in einer Datei zusammen.
 
     
Übung Proj_5, Vorkommen des PAX-6 Gens
   
  Das Auge von Mensch, Fliege und Krake (Oktopus) haben einen sehr unterschiedlichen Aufbau. Falls Proteine existieren, die sowohl in der Entwicklung des menschlichen als auch des Auges von Drosophila eine Rolle spielen, würde dies für eine gemeinsame Abstammung der unterschiedlichen Photorezeptorsysteme sprechen.
Aufgabe
Suchen Sie nach Homologen zum menschlichen PAX-6 Protein
PSI-BLAST Da wir möglichst umfassend suchen wollen, benutzen wir hier PSI-BLAST.
 
>PAX6_HUMAN
MQNSHSGVNQLGGVFVNGRPLPDSTRQKIVELAHSGARPCDISRILQVSNGCVSKILGRYYETGSIRPRA
IGGSKPRVATPEVVSKIAQYKRECPSIFAWEIRDRLLSEGVCTNDNIPSVSSINRVLRNLASEKQQMGAD
GMYDKLRMLNGQTGSWGTRPGWYPGTSVPGQPTQDGCQQQEGGGENTNSISSNGEDSDEAQMRLQLKRKL
QRNRTSFTQEQIEALEKEFERTHYPDVFARERLAAKIDLPEARIQVWFSNRRAKWRREEKLRNQRRQASN
TPSHIPISSSFSTSVYQPIPQPTTPVSSFTSGSMLGRTDTALTNTYSALPPMPSFTMANNLPMQPPVPSQ
TSSYSCMLPTSPSVNGRSYDTYTPPHMQTHMNSQPMGTSGTTSTGLISPGVSVPVQVPGSEPDMSQYWPR
LQ
   
  Benutzen Sie PSI-BLAST, stoßen Sie fünf Runden an und übernehmen Sie jeweils 1000 Treffer in die nächste PSI-BLAST-Runde.

Wählen Sie unter Program Selection zunächst PSI-BLAST

Ändern Sie dann unter Algorithm parameters den Werte Max target sequences auf 1000.
Klicken Sie nun auf BLAST, um die erste Runde anzustoßen. Im Ergebnisfenster werden die Treffer angezeigt.
Starten Sie weitere Runden, indem Sie jeweils auf die GO-Taste drücken. Mit The image “http://blast.ncbi.nlm.nih.gov/images/new.gif” cannot be displayed, because it contains errors.werden jeweils die Sequenzen markiert, die in der vorhergehenden Runde zusätzlich gefunden wurden.

Nachdem Sie fünf Runden ausgeführt haben, suchen Sie unter den Treffern den ersten zu einer Drosophila-Art.

Hinweis Auf der Ergebnis-Seite können Sie unter Formatting options und bei Limit results/Organism Drosophila eingeben. Wenn Sie dann auf Reformat klicken, werden nur noch Treffer aus Drosophila Genomen gezeigt.
Aufgabe
Ist der Treffer statistisch signifikant?
  Bewerten Sie hierfür den E-Wert.
   
Aufgabe
In welchen Arten kommt dieses Protein überhaupt vor?
  Analysieren Sie hierzu den taxonomy report, den Sie auf der BLAST-Ergebnisseite durch Anklicken des entsprechenden Links aufrufen können. Hierfür müssen Sie vorher den Eintrag zu Limit results wieder löschen.

Nennen Sie einige Phyla, in denen Homologe des Proteins vorkommen.

Aufgabe
Lassen sich Ihre Befunde in der Literatur bestätigen?
  Suchen Sie in PubMed nach relevanter Literatur, indem Sie pax-6 drosophila in das for-Feld eingeben.

Wählen Sie auf der Seite mit den Treffern den Reiter Review.

Wählen Sie den Artikel von SI Tomarev und klicken Sie auf das Feld FreeFullText. Öffnen Sie die PDF-Datei und studieren Sie KURZ den Inhalt. Klicken Sie auf das Icon Free Full Text.

 
Aufgabe
Welche Schlüsse ziehen Sie aus Ihren Befunden und der Literatur?
     
Übung Proj_6 Struktur des PAX-6 Proteins - Multiple Sequenzalignments
     
  Als nächstes interessiert, wie sich die homologen Proteine voneinander unterscheiden.
Aus einem PSI-BLAST-Lauf wurden Sequenzen übernommen, die in dieser Datei zusammengefasst sind.

Unterschiede in den Sequenzen werden deutlich, wenn wir die Sequenzen in ein multiples Sequenzalignment aufnehmen. Eines der anerkannt besten Verfahren ist T-Coffee  und seine Varianten.

 
Aufgabe
Erstellen Sie ein multiples Sequenzalignment mithilfe von T-Coffee.
     
Hinweise Wählen Sie MCOFFEE-Advanced und übergeben Sie mit copy and paste die Sequenzen in das Eingabefenster.

Ändern Sie bei den Optionen die Order zu aligned und stoßen Sie dann das Programm an, indem Sie auf Submit klicken.
 

 
  Falls das Ergebnis auf sich warten lässt, informieren Sie sich zwischenzeitlich zum Begriff "peer review" und überlegen Sie, ob dieser auf Artikel in WWW/Wikipedia/PubMed zutrifft.  
  Sichern Sie zunächst die Ergebnisse. Anschließend könne Sie die Ergebnisse weiter prozessieren. Für den Notfall finden Sie hier die erwarteten Ergebnisse.  
     
  Auf der T-Coffee Ergebnis-Seite können Sie Ihre Ergebnisse auf die Seite myhits durchreichen. Klicken Sie auf die Taste to MSA hub und auf der anschließend erscheinenden Seite auf Start Jalview 2 und Start Jalview.
Ziehen Sie das Fenster soweit nach unten auf, dass Sie alle Sequenzen sehen können und ändern Sie die Farben mit Colour/Percentage Identity.
 
Aufgabe
Wie unterscheiden sich die einzelnen Proteine?
  Beantworten Sie dazu auch die folgenden Fragen, die sich aus dem Alignment ergeben:  
  Gibt es Bereiche, die Drosophila-Proteine von allen anderen unterscheidet?
Weshalb ist es sinnvoll, mehrere Drosophila-Sequenzen auszuwerten?
Wie interpretieren Sie die Unterschiede am Proteinanfang?
Weshalb ist der Genanfang der humanen Isoformen gleich, bei Rattus jedoch unterschiedlich?
 
     
Übung Proj_7 Phylogenie des PAX 6 Proteins
     
  Nun interessiert uns die phylogenetische Verwandtschaft der Proteinsequenzen. Hierfür wollen wir einen phylogenetischen Baum erstellen.

Benutzen Sie einen der Server, um mit  ProtPars einen phylogenetischen Baum zu erzeugen. Übergeben Sie dem Server das von T-Coffee erzeugte MSA im Phylip-Format, alternativ finden Sie hier das MSA-Format.

Starten Sie anschließend das Programm.

 
Aufgabe
Wo werden die Sequenzen aus dem menschlichen Genom eingeordnet, wo die von Drosophila?
Welche Spezies liegt extrem? Interpretieren Sie hierfür den besten Baum.
  Decken sich diese Befunde mit Ihren Erwartungen?

Welcher Ansatz wurde bei der Berechnung des Baumes verwendet?

 

 
Übung Proj_8 Homologiemodelle für PAX-Protein erstellen und bewerten
   
  Wir wollen uns für das Drosophila-Protein ein Strukturmodell erstellen lassen. Hierfür benutzen wir Phyre.
Bitte übergeben Sie per copy and paste die folgende Sequenz, geben Sie eine gültige Email-Adresse an und submitten Sie den Auftrag.

Je nach Auslastung kann es länger dauern, bis Ihr Job bearbeitet ist. Er wird Ihnen per Email zugestellt.

 
 
>Drosophila_melanogaster
MMLTTEHIMHGHPHSSVGQSTLFGCSTAGHSGINQLGGVYVNGRPLPDSTRQKIVELAHSGARPCDISRI
LQVSNGCVSKILGRYYETGSIKPRAIGGSKPRVATTPVVQKIADYKRECPSIFAWEIRDRLLSEQVCNSD
NIPSVSSINRVLRNLASQKEQQAQQQNESVYEKLRMFNGQTGGWAWYPSNTTTAHLTLPPAASVVTSPAN
LSGQADRDDVQKRELQFSVEVSHTNSHDSTSDGNSEHNSSGDEDSQMRLRLKRKLQRNRTSFSNEQIDSL
EKEFERTHYPDVFARERLADKIGLPEARIQVWFSNRRAKWRREEKMRTQRRSADTVDGSGRTSTANNPSG
TTASSSVATSNNSTPGIVNSAINVAERTSSALVSNSLPEASNGPTVLGGEANTTHTSSESPPLQPAAPRL
PLNSGFNTMYSSIPQPIATMAENYNSSLGSMTPSCLQQRDAYPYMFHDPLSLGSPYVSAHHRNTACNPSA
AHQQPPQHGVYTNSSPMPSSNTGVISAGVSVPVQISTQNVSDLTGSNYWPRLQ
 
Ausgabe von Phyre interpretieren

Versuchen Sie die Ausgabe zu verstehen.

Wie hoch ist der Erwartungswert für das beste Modell?
Welche Struktur wurde als Grundlage für die Modellierung verwendet?
Welche weiteren Informationen liefert Ihnen die Ausgabe?

 

 
  Sofern erforderlich, installieren Sie bitte das Programm Swiss-PdbViewer, so wie es hier beschrieben ist.  
  Starten Sie das Programm und laden Sie die PDB-Strukur des Modells mit File/Open PDB File/. Sie finden die Struktur hier.
Diese Datei wurde für diese Übung adaptiert.

Benutzen Sie die Maus, um das Modell zu rotieren und machen Sie sich den prinzipiellen Aufbau des Proteins klar.

 
 
Wie wechselwirkt der Transkriptionsfaktor mit der DNA?
Hinweise Hier finden Sie den Datenbankeintrag der Struktur (1K78), die Phyre als Templat verwendete. Studieren Sie zunächst die angebotene Information. Um welches Protein handel es sich?

Um obige Frage zu beantworten, sollten Sie im Block Images und Visualization den Link Jmol anklicken.

Benutzen Sie wiederum die Maus, um die Struktur zu bewegen. Können Sie die DNA identifizieren? In diesem Datensatz sind mehrere, an die DNA gebundene Transkriptionsfaktoren zu sehen. Diese sind in unterschiedlichen Farben eingefärbt.

Unterscheiden sich die Proteinstrukturen? Achten Sie insbesondere auf die Linker-Regionen.

Vergleichen Sie bitte auch die Strukturen von PAX 5 (in der PDB-Datenbank deponiert) und dem Modell von PAX 6 (Phyre-Vorschlag). Erscheint das Modell plausibel?

 
  Arbeiten Sie nun mit dem Modell weiter. Öffnen Sie, sofern noch nicht geschehen, das Control Panel des Swiss-PdbViewers mit /Win/Control Panel

Das Fenster erlaubt die Manipulation einzelner Residuen. Die nächsten Befehle beziehen sich alle auf Operationen im Control Panel.

Klicken Sie auf den Namen des ersten Residuums. Es ist nun selektiert, was Sie an der roten Markierung sehen können. Klicken Sie anschließend direkt neben dem Eintrag in das Feld labl. Wie sie in der 3D-Darstellung sehen können, ist das erste Residuum ist nun mit einem Label (Marke versehen). Tun Sie das gleiche für das letzte Residuum.

Welche Nummern tragen diese Positionen des Modells?

Vergleichen Sie diese Positionen mit der Länge der Eingabesequenz aus dem obigen Feld:

Wie lange ist die Eingabesequenz?
Wie viele der Residuen enthält das Modell?
Was schließen Sie hieraus für die Funktion von Phyre und die Übereinstimmung von PAX5 und PAX6?

 
  Diese Darstellung ist eine abstrahierte, um die Anordnung der Sekundärstrukturelemente zu betonen.

Lassen Sie sich nun die Proteinoberfläche berechnen. Wählen Sie Tools/Compute Molecular Surface und interpretieren Sie das Ergebnis.

 

 
Übung Proj_8  Evolution von (βα)8-Fässern
 
Die DATE-Datenbank sammelt Informationen zu Enzymen mit (βα)8-Topologie. Am klarsten ist das Fass-Prinzip bei der Orotidine 5' monophosphate decarboxylase und beim Concanavalin B zu erkennen. Der klare, rotationssymmetrische Aufbau lässt vermuten, dass das Protein durch (mehrfache?) Genduplikation entstand.   
 
Lässt sich die Hypothese, dass (βα)8-Fässer durch mehrfache Genduplikation entstanden, durch Auswertung der Sequenz/Struktur erhärten? 
 
Hinweis

1) Entscheiden Sie sich, nachdem Sie die Struktur ausgewertet haben, für eines der Proteine.

2) Sammeln Sie mittels BLAST ähnliche Sequenzen. Besorgen Sie sich parallel zu den Proteinsequenzen auch die der DNA.

3) Generieren Sie ein multiples Sequenzalignment.  Seien Sie hier bitte sehr sorgfältig und benutzen Sie CLUSTAL und T-Coffee.

4) Tragen Sie im multiplen Sequenzalignment die Sekundärstruktur des Proteins ein.

5) Gibt es Muster, die auf Genduplikation schließen lassen? Vergleichen Sie sowohl Protein- als auch DNA-Sequenz der Hälften und kleinerer Strukturelemente.

Vergleichen Sie Ihre Ergebnisse mit denen dieser Arbeit von J. Söding.

 
     

Was Sie jetzt verstanden haben sollten

Die Kombination mehrerer bioinformatischer Werkzeuge in Kombination mit Datenbankabfragen erlaubt es, komplexe biologische Fragestellungen zu untersuchen, die ohne den Einsatz der Bioinformatik nicht zu bearbeiten wären.