| Warum ist dieses Wissen wichtig? | Für die Bearbeitung größerer Projekte müssen Sie in der Lage sein, mehrere bioinformatische Werkzeuge zu kombinieren. Zusätzlich verlangen solche Aufgaben, Zwischenergebnisse geeignet aufzubereiten. Beides üben Sie an den unten eingeführten Projekten. Diese machen zudem deutlich, welch komplexe und interessante Fragestellungen in der Bioinformatik bearbeitet werden können. | |||||||||||||
| Bezug | Diese Übungen erfordern die Kenntnis praktisch des gesamten Stoffes. | |||||||||||||
Lernziel |
|
|||||||||||||
| Übung | Proj_1 Phylogenie von RubisCO | |||||||||||||
|
Diese Übung orientiert sich an den beiden Arbeiten DelPal96 und WatTab97. Ribulose 1,5-biphosphate (RuBP) Carboxlyase/Oxygenase (RubisCO) ist zweifelsohne das auf der Welt am weitesten verbreitete Enzym. Es kommt in zwei unterschiedlichen Strukturformen (Form I und Form II) vor. Das Form I Enzym besteht aus acht kleinen und acht großen Untereinheiten. Das Enzym mit Form II besteht nur aus großen Untereinheiten, die allerdings völlig anders aufgebaut sind als die der Form I. Die Bedeutung des Enzyms liegt darin, dass es aufgrund der weiten Verbreitung massiv in die Kohlenstoff-Fixierung eingreift. Insbesondere im Hinblick auf die globale Erwärmung ist es wichtig, Funktion, Verbreitung und Evolution dieses Enzyms genau zu verstehen. Die Gene rbcL und cbbL sowie die daraus resultierenden Proteinsequenzen eignen sich gut für phylogenetische Studien, da die Sequenzen einer Vielzahl von Spezies bekannt sind. Während Stammbäume, die von DNA-Sequenzen der rbcL Gene gut übereinstimmen mit solchen, die aus 16S rRNA abgeleitet wurden, zeichnen Bäume abgeleitet von RbcL-Proteinsequenzen ein ganz anderes Bild. Diesen Vergleich sollen Sie hier nachvollziehen. |
||||||||||||||
|
||||||||||||||
| Hinweise | 1) Stellen Sie eine Sammlung von Proteinsequenzen zusammen. Sie
sollte Spezies enthalten aus den Proteobacteria (Alpha, Beta and Gamma
Subdivision), den Cyanobakterien, und Plastiden. Benutzen Sie als outgroup einige wenige Sequenzen der
Form II. Stellen Sie sicher, dass die Sequenzen aus einigen
Cyanobakterien enthalten sind. 2) Benutzen Sie CLUSTALW für das multiple Sequenzalignment. 3) Generieren Sie phylogenetische Bäume mit der Neighbor-Joining Methode und Kimura Distanzen. Benutzen Sie Bootstrapping, um die Stabilität der Bäume zu evaluieren. Vergleichen Sie Ihre Befunde mit solchen aus PubMed.
|
|||||||||||||
| Übung | Proj_2 Horizontaler Gentransfer | |||||||||||||
| Die Entwicklungslinien von E. coli und S.
typhimuirum haben sich von ca. 14 Millionen Jahren getrennt.
Vermutlich
sind seitdem 755 ORFs in das Genom von E. coli aufgenommen
worden. Gehen Sie für die folgenden Rechnungen von einer mittleren
Genlänge von 300 Aminosäuren aus. Beantworten Sie bitte folgende Fragen: Wie groß ist die mittlere Geschwindigkeit der Genübertragung in kBasen/Jahr? Wie vielen Genen entspricht dies? Welchen Prozentsatz von Genen hat E. coli seitdem aufgenommen? |
||||||||||||||
| Übung | Proj_3 Thioredoxin | |||||||||||||
|
Thiol-Reduktion mithilfe des Thioredoxin- und des Glutathion-Systems spielt eine zentrale Rolle bei einer Vielzahl biologischer Funktionen wie z.B. bei der Apoptosis (dem Zelltod). Das Thioredoxin-System besteht aus mehreren Proteinen, die über ein System von active sites interagieren, in denen Cystein-Reste eine wichtige Rolle spielen. Thioredoxin selbst ist ein kleines Protein, mit zwei redox-aktiven Cystein-Residuen im aktiven Zentrum (Cys-Gly-Por-Cys). Es interagiert mit NADPH und Thioredoxin Reduktase als höchst effizientes Reduktionssystem für exponierte Disulfide. Die folgenden Frage beziehen sich zunächst auf das Thioredoxin H von Chlamydomonas reinhardtii. Besorgen Sie sich den PDB-File mit der zugehörigen Struktur. |
||||||||||||||
|
||||||||||||||
| Verifizieren Sie Ihre Vermutung. | ||||||||||||||
|
Es gibt mehrere Isoformen von Thioredoxin. Stellen Sie einen Datensatz zusammen, der die Sequenzen zu den folgenden Proteinen enthält: Cytosolisches (2 Isoformen) und mitochondriales Thioredoxin von S. cervisiae, Thioredoxin aus E. coli (aus zwei unterschiedlichen Genen stammend) und humanes Thioredixin cytosolischen und mitochondrialen Ursprungs. |
||||||||||||||
|
||||||||||||||
| Hinweise | Generieren Sie ein multiples Sequenzalignment (MSA). Sie können
CLUSTALW oder eines der neueren Programme wie T-Coffee benutzen. Überprüfen Sie
das MSA und korrigieren Sie, falls erforderlich.
Ergänzen Sie die Datei um eine Zeile, in der Sie die Sekundärstruktur eintragen. |
|||||||||||||
|
||||||||||||||
|
Überprüfen Sie, ob Ihr MSA den BLOSUM-80 Kriterien genügt. |
||||||||||||||
|
||||||||||||||
|
Leiten Sie aus dem MSA ein Profil ab für die Positionen 101-106. Bitte initialisieren Sie die Matrix zur Berechnung der Häufigkeiten nicht mit 0, sondern mit 1. (Weshalb?) Verwenden Sie für mittlere Aminosäurehäufigkeiten hier (ausnahmsweise) die entsprechenden Werte, die in der SwissProt-Datenbank angegeben sind. Welche würde man korrekterweise nehmen? |
||||||||||||||
|
||||||||||||||
| Wir betrachten jetzt die Struktur, die im Datensatz 1THX abgelegt
ist. Generieren Sie eine Sequenz AEI für die Positionen 9-18. Klassifizieren Sie hierfür die Residuen nach dem folgenden Alphabet:
|
||||||||||||||
| Betrachten Sie die 3D-Struktur. Diskutieren Sie die Lage der Residuen 9-18 im Vergleich mit der Sequenz AEI. | ||||||||||||||
|
Falls Sie dazu in der Lage sind: |
||||||||||||||
| Programmier- aufgaben |
|
|||||||||||||
| Hinweise |
Überlegen Sie sich, wie das Programm mit Lücken umgehen soll. |
|||||||||||||
|
||||||||||||||
|
Was sind die nächsten Verwandten? Generieren Sie unter Verwendung von DALI bzw. der FSSP-Database ein Strukturalignment von Thioredoxin (1fb0A) und Calsequestrin. |
||||||||||||||
|
||||||||||||||
| Hinweise | Bitte überprüfen Sie auch, wie die beiden Strukturen in der SCOP-Datenbank eingeordnet sind. | |||||||||||||
| Thioredoxin kommt auch in Pflanzen vor. Seit der Totalsequenzierung des Genoms von Arabidopsis thaliana ist mehr über das Vorkommen und die Häufigkeit der entsprechenden Gene bekannt. In A. thaliana gibt es drei unterschiedliche Thioredoxin Precursor-Sequenzen. | ||||||||||||||
|
||||||||||||||
| Es ist nun interessant, herauszufinden wie sich die drei Formen unterscheiden. | ||||||||||||||
|
||||||||||||||
| Hinweise | Generieren Sie ein multiples Sequenzalignment und bestimmen Sie Sequenzen, die am stärksten konserviert sind. Tragen diese zur Charakterisierung der Formen bei? Gibt es andere Eigenschaften, die zur Charakterisierung geeignet sind? | |||||||||||||
|
||||||||||||||
| Hinweise | Überlegen Sie sich, wie Sie die Lage der Introns bestimmen können
OHNE die Annotation in den Datenbanken zu nutzen. Denken Sie hierbei an
den Vergleich der DNA- und Proteinsequenz. Können Sie einen Algorithmus formulieren? Welche der Ihnen bekannten Tools können Sie nutzen? Tragen diese Eigenschaften zur weiteren Charakterisierung bei? |
|||||||||||||
| Weitere Untersuchungen |
Als weitere Untersuchungen zur genaueren Charakterisierung bieten sich nun natürlich taxonomische Berechnungen an, um z.B. die Verwandtschaft und die Abstammung der einzelnen Precursor-Sequenzen zu lernen. | |||||||||||||
| Übung | Proj_4 Weitere Charakterisierung von Proteinen | |||||||||||||
|
Wir haben die Proteinsequenzen, die wir aus dem DOTLET-Paket bereits kennen, schon mit FASTA/BLAST ausgewertet. Wir wollen nun mehr über die Domänen- und 2D- bzw. 3D-Struktur erfahren. Es folgen nochmals drei ausgewählte Sequenzen.
|
||||||||||||||
|
||||||||||||||
|
||||||||||||||
| Hinweise | Suchen Sie die Einträge zu diesen Proteinen in der
SWISSPROT-Datenbank. Benutzen Sie den SMART-Server, um die
Domänenstruktur der Proteine aufzuklären. Dokumentieren Sie Ihre
Befunden als Text und skizzieren Sie die Domänenstruktur. Legen Sie eine Datei an, in der Sie in einer Zeile unter der Sequenz die Domänen kennzeichnen, z.B. wie in MAAPSRTTLMPPPFRLQLRLLILPILLLLRHDAVHAEPYSGGFGSSAVSSGGLGSVGIHIPGGGVGVITEARCPRVCSCT
|
|||||||||||||
|
||||||||||||||
| Hinweise | Wählen Sie zunächst einen Server, der die 2D-Struktur vorhersagt. Stossen Sie dann die Auswertung an. | |||||||||||||
|
||||||||||||||
| Tragen Sie die Vorhersage in einer weiteren Zeile unter der Sequenz
ein, z.B. wie in Legen Sie eine Datei an, in der Sie in einer Zeile unter der Sequenz die Domänen kennzeichnen, z.B. wie in MAAPSRTTLMPPPFRLQLRLLILPILLLLRHDAVHAEPYSGGFGSSAVSSGGLGSVGIHIPGGGVGVITEARCPRVCSCT |
||||||||||||||
|
||||||||||||||
| Hinweise | Stellen Sie fest, ob es zu den betrachteten Proteinen eine gelöste
Struktur gibt.
Falls dies der Fall sein sollte: Falls dies nicht der Fall ist: |
|||||||||||||
|
||||||||||||||
| Übung | Proj_5, Vorkommen des PAX-6 Gens | |||||||||||||
| Das Auge von Mensch, Fliege und Krake (Oktopus) haben einen sehr unterschiedlichen Aufbau. Falls Proteine existieren, die sowohl in der Entwicklung des menschlichen als auch des Auges von Drosophila eine Rolle spielen, würde dies für eine gemeinsame Abstammung der unterschiedlichen Photorezeptorsysteme sprechen. | ||||||||||||||
| Aufgabe |
|
|||||||||||||
| PSI-BLAST | Da wir möglichst umfassend suchen wollen, benutzen wir hier PSI-BLAST. | |||||||||||||
|
||||||||||||||
| Benutzen Sie PSI-BLAST, stoßen Sie fünf Runden an und
übernehmen Sie jeweils 1000 Treffer in die nächste PSI-BLAST-Runde.
Wählen Sie unter Program Selection zunächst PSI-BLAST Ändern Sie dann unter Algorithm parameters den Werte
Max target
sequences auf 1000. Nachdem Sie fünf Runden ausgeführt haben, suchen Sie unter den Treffern den ersten zu einer Drosophila-Art. |
||||||||||||||
| Hinweis | Auf der Ergebnis-Seite können Sie unter Formatting options und bei Limit results/Organism Drosophila eingeben. Wenn Sie dann auf Reformat klicken, werden nur noch Treffer aus Drosophila Genomen gezeigt. | |||||||||||||
| Aufgabe |
|
|||||||||||||
| Bewerten Sie hierfür den E-Wert. | ||||||||||||||
| Aufgabe |
|
|||||||||||||
| Analysieren Sie hierzu den taxonomy report, den
Sie auf der BLAST-Ergebnisseite durch Anklicken des entsprechenden Links
aufrufen können. Hierfür müssen Sie vorher den Eintrag zu Limit
results wieder löschen. Nennen Sie einige Phyla, in denen Homologe des Proteins vorkommen. |
||||||||||||||
| Aufgabe |
|
|||||||||||||
| Suchen Sie in
PubMed nach relevanter Literatur, indem Sie pax-6 drosophila in das
for-Feld eingeben. Wählen Sie auf der Seite mit den Treffern den Reiter Review. Wählen Sie den Artikel von SI Tomarev und klicken Sie auf das Feld FreeFullText. Öffnen Sie die PDF-Datei und studieren Sie KURZ den Inhalt. Klicken Sie auf das Icon Free Full Text. |
||||||||||||||
| Aufgabe |
|
|||||||||||||
| Übung | Proj_6 Struktur des PAX-6 Proteins - Multiple Sequenzalignments | |||||||||||||
| Als nächstes interessiert, wie sich die homologen Proteine
voneinander unterscheiden. Aus einem PSI-BLAST-Lauf wurden Sequenzen übernommen, die in dieser Datei zusammengefasst sind. Unterschiede in den Sequenzen werden deutlich, wenn wir die Sequenzen in ein multiples Sequenzalignment aufnehmen. Eines der anerkannt besten Verfahren ist T-Coffee und seine Varianten. |
||||||||||||||
| Aufgabe |
|
|||||||||||||
| Hinweise | Wählen Sie MCOFFEE-Advanced und übergeben Sie mit copy and paste
die Sequenzen in das Eingabefenster. Ändern Sie bei den Optionen die
Order zu aligned und stoßen Sie dann das Programm an,
indem Sie auf Submit klicken. |
|||||||||||||
| Falls das Ergebnis auf sich warten lässt, informieren Sie sich zwischenzeitlich zum Begriff "peer review" und überlegen Sie, ob dieser auf Artikel in WWW/Wikipedia/PubMed zutrifft. | ||||||||||||||
| Sichern Sie zunächst die Ergebnisse. Anschließend könne Sie die Ergebnisse weiter prozessieren. Für den Notfall finden Sie hier die erwarteten Ergebnisse. | ||||||||||||||
| Auf der T-Coffee Ergebnis-Seite können Sie Ihre Ergebnisse auf die Seite
myhits durchreichen. Klicken Sie auf die Taste
to MSA hub und
auf der anschließend erscheinenden Seite auf Start Jalview 2 und
Start Jalview. Ziehen Sie das Fenster soweit nach unten auf, dass Sie alle Sequenzen sehen können und ändern Sie die Farben mit Colour/Percentage Identity. |
||||||||||||||
| Aufgabe |
|
|||||||||||||
| Beantworten Sie dazu auch die folgenden Fragen, die sich aus dem Alignment ergeben: | ||||||||||||||
| Gibt es Bereiche, die Drosophila-Proteine von allen anderen
unterscheidet? Weshalb ist es sinnvoll, mehrere Drosophila-Sequenzen auszuwerten? Wie interpretieren Sie die Unterschiede am Proteinanfang? Weshalb ist der Genanfang der humanen Isoformen gleich, bei Rattus jedoch unterschiedlich? |
||||||||||||||
| Übung | Proj_7 Phylogenie des PAX 6 Proteins | |||||||||||||
| Nun interessiert uns die phylogenetische Verwandtschaft der
Proteinsequenzen. Hierfür wollen wir einen phylogenetischen Baum
erstellen.
Benutzen Sie einen der Server, um mit ProtPars einen phylogenetischen Baum zu erzeugen. Übergeben Sie dem Server das von T-Coffee erzeugte MSA im Phylip-Format, alternativ finden Sie hier das MSA-Format. Starten Sie anschließend das Programm. |
||||||||||||||
| Aufgabe |
|
|||||||||||||
| Decken sich diese Befunde mit Ihren Erwartungen? Welcher Ansatz wurde bei der Berechnung des Baumes verwendet?
|
||||||||||||||
| Übung | Proj_8 Homologiemodelle für PAX-Protein erstellen und bewerten | |||||||||||||
| Wir wollen uns für das Drosophila-Protein ein Strukturmodell
erstellen lassen. Hierfür benutzen wir
Phyre. Bitte übergeben Sie per copy and paste die folgende Sequenz, geben Sie eine gültige Email-Adresse an und submitten Sie den Auftrag. Je nach Auslastung kann es länger dauern, bis Ihr Job bearbeitet ist. Er wird Ihnen per Email zugestellt. |
||||||||||||||
|
||||||||||||||
| Ausgabe von Phyre interpretieren |
Versuchen Sie die Ausgabe zu verstehen. Wie hoch ist der Erwartungswert für das beste Modell?
|
|||||||||||||
| Sofern erforderlich, installieren Sie bitte das Programm Swiss-PdbViewer, so wie es hier beschrieben ist. | ||||||||||||||
| Starten Sie das Programm und laden Sie die PDB-Strukur des Modells
mit File/Open PDB File/. Sie finden die Struktur
hier. Diese Datei wurde für diese Übung adaptiert. Benutzen Sie die Maus, um das Modell zu rotieren und machen Sie sich den prinzipiellen Aufbau des Proteins klar. |
||||||||||||||
|
||||||||||||||
| Hinweise | Hier finden Sie den
Datenbankeintrag der Struktur (1K78), die Phyre als Templat
verwendete. Studieren Sie zunächst die angebotene Information. Um
welches Protein handel es sich? Um obige Frage zu beantworten, sollten Sie im Block Images und Visualization den Link Jmol anklicken. Benutzen Sie wiederum die Maus, um die Struktur zu bewegen. Können Sie die DNA identifizieren? In diesem Datensatz sind mehrere, an die DNA gebundene Transkriptionsfaktoren zu sehen. Diese sind in unterschiedlichen Farben eingefärbt. Unterscheiden sich die Proteinstrukturen? Achten Sie insbesondere auf die Linker-Regionen. Vergleichen Sie bitte auch die Strukturen von PAX 5 (in der PDB-Datenbank deponiert) und dem Modell von PAX 6 (Phyre-Vorschlag). Erscheint das Modell plausibel? |
|||||||||||||
| Arbeiten Sie nun mit dem Modell weiter. Öffnen Sie, sofern noch nicht
geschehen, das Control Panel des Swiss-PdbViewers mit
/Win/Control
Panel.
Das Fenster erlaubt die Manipulation einzelner Residuen. Die nächsten Befehle beziehen sich alle auf Operationen im Control Panel. Klicken Sie auf den Namen des ersten Residuums. Es ist nun selektiert, was Sie an der roten Markierung sehen können. Klicken Sie anschließend direkt neben dem Eintrag in das Feld labl. Wie sie in der 3D-Darstellung sehen können, ist das erste Residuum ist nun mit einem Label (Marke versehen). Tun Sie das gleiche für das letzte Residuum. Welche Nummern tragen diese Positionen des Modells? Vergleichen Sie diese Positionen mit der Länge der Eingabesequenz aus dem obigen Feld: Wie lange ist die Eingabesequenz? |
||||||||||||||
| Diese Darstellung ist eine abstrahierte, um die Anordnung der
Sekundärstrukturelemente zu betonen. Lassen Sie sich nun die Proteinoberfläche berechnen. Wählen Sie Tools/Compute Molecular Surface und interpretieren Sie das Ergebnis.
|
||||||||||||||
| Übung | Proj_8 Evolution von (βα)8-Fässern | |||||||||||||
| Die DATE-Datenbank sammelt Informationen zu Enzymen mit (βα)8-Topologie. Am klarsten ist das Fass-Prinzip bei der Orotidine 5' monophosphate decarboxylase und beim Concanavalin B zu erkennen. Der klare, rotationssymmetrische Aufbau lässt vermuten, dass das Protein durch (mehrfache?) Genduplikation entstand. | ||||||||||||||
|
||||||||||||||
| Hinweis |
1) Entscheiden Sie sich, nachdem Sie die Struktur ausgewertet haben, für eines der Proteine. 2) Sammeln Sie mittels BLAST ähnliche Sequenzen. Besorgen Sie sich parallel zu den Proteinsequenzen auch die der DNA. 3) Generieren Sie ein multiples Sequenzalignment. Seien Sie hier bitte sehr sorgfältig und benutzen Sie CLUSTAL und T-Coffee. 4) Tragen Sie im multiplen Sequenzalignment die Sekundärstruktur des Proteins ein. 5) Gibt es Muster, die auf Genduplikation schließen lassen? Vergleichen Sie sowohl Protein- als auch DNA-Sequenz der Hälften und kleinerer Strukturelemente. Vergleichen Sie Ihre Ergebnisse mit denen dieser Arbeit von J. Söding. |
|||||||||||||
Was Sie jetzt verstanden haben sollten |
Die Kombination mehrerer bioinformatischer Werkzeuge in Kombination mit Datenbankabfragen erlaubt es, komplexe biologische Fragestellungen zu untersuchen, die ohne den Einsatz der Bioinformatik nicht zu bearbeiten wären. | |||||||||||||