| Warum ist dieses Wissen wichtig? | FASTA and BLAST sind diejenigen Algorithmen, die am häufigsten zum Sequenzvergleich eingesetzt werden. Es ist daher ganz wichtig, die Algorithmen, aber auch die Limitationen, verstanden zu haben. Ebenso sicher müssen Sie in der Bewertung der Ergebnisse sein. | ||||||||||||
| Bezug | Diese Übungen ergänzen das Kapitel 12 "FASTA, BLAST und PSI-BLAST". | ||||||||||||
Lernziel |
|
||||||||||||
FASTA |
|||||||||||||
| Öffnen Sie das Eingabefenster des FASTA-Servers am EBI. | |||||||||||||
| Hinweise | In Abhängigkeit von der aktuellen Belastung kann der
Server sehr träge sein. Legen Sie ein Verzeichnis an und kopieren Sie die Ergebnisse dorthin. Verwenden Sie
"sprechende" Namen, die es Ihnen erlauben, die
Ergebnisse den Übungen zuzuordnen.
|
||||||||||||
| Übung | FASTA_1 | ||||||||||||
| Parameter | Benutzen Sie die Parameter:
und geben Sie die folgende Sequenz ein. |
||||||||||||
| Eingabe- Sequenz |
|
||||||||||||
| Ausgabe interpretieren |
Interpretieren Sie das Histogramm der Scores, wo finden sich die größten Abweichungen? Was besagt die Kolmogorov-Smirnov Statistik? Sichern Sie das Histogramm in einem separatem Fenster bzw. in einer separaten Datei. |
||||||||||||
| Übung | FASTA_2 | ||||||||||||
| Parameter | Ändern Sie nun die Parameter. Setzen Sie
und werten Sie die Sequenz aus FASTA_1 erneut aus. |
||||||||||||
| Ausgabe interpretieren |
Wie interpretieren Sie die Abweichungen? Wie sind die unterschiedlichen Histogramme zustande gekommen? Vergleichen und diskutieren Sie die Werte der KS-Statistik! |
||||||||||||
| Übung | FASTA_3 | ||||||||||||
| Parameter | Stellen Sie den Parameter wieder auf den
Default-Wert:
und werten Sie die folgenden Sequenzen aus. |
||||||||||||
| Eingabe- Sequenz |
|
||||||||||||
| Eingabe- Sequenz |
|
||||||||||||
| Ausgabe interpretieren |
Betrachten Sie zunächst die beiden Eingabesequenzen. Würden Sie diese als unauffällig bezeichnen oder können Sie gewisse Muster erkennen. Falls das Letztere der Fall sein sollte: Ist FASTA robust im Hinblick auf die Score-Verteilung? Kann das Programm auch mit schwierigen Eingaben umgehen? |
||||||||||||
Regionen niedriger Komplexität |
|||||||||||||
| Proteinsequenzen enthalten häufig
Regionen niedriger Komplexität, die eine starke Verzerrung der
Aminosäuren- oder Nucleotid-Komposition aufweisen und z. B. als
Glycin-reich oder verallgemeinert als repetitive, nicht-globuläre
Domänen beschrieben werden. Man blendet sie üblicherweise bei
der Bestimmung von Alignments aus.
Ein drastisches Beispiel für eine Region niedriger Komplexität untersuchen Sie in der folgenden Übung. |
|||||||||||||
| Übung | FASTA_4 | ||||||||||||
| Analysieren Sie mit FASTA die folgende Sequenz, die Sie aus obiger Übung bereits kennen. | |||||||||||||
| Eingabe- Sequenz |
|
||||||||||||
| Benutzen Sie Standard-Einstellungen und wählen Sie für
einen ersten Lauf unter der Option "Filter" die Einstellung "None". Notieren Sie die Anzahl der Treffer und den maximal erreichten Score. Ändern Sie Nun die Filter-Einstellung auf "seg" und starten Sie das Programm ein zweites Mal. Wie viele Treffer finden Sie jetzt? |
|||||||||||||
|
|||||||||||||
| Hinweise | Wie erklären Sie sich die Unterschiede? | ||||||||||||
BLAST |
|||||||||||||
| Übung | BLAST_1 | ||||||||||||
|
|||||||||||||
| Drucken Sie hierzu dieses Dokument aus. | |||||||||||||
|
|||||||||||||
| Lösung | Hier finden Sie die Lösung. | ||||||||||||
| Übung | BLAST_2 | ||||||||||||
| Starten Sie den BLAST-Server am NCBI. | |||||||||||||
| Hinweise zum Umgang mit BLAST | Bitte achten Sie darauf, als
Programm
die Version protein BLAST (blastp) auszuwählen.
Die Grafik, die mit Putative conserved domains have been detected überschrieben ist, verweist NICHT auf die Ergebnisse der BLAST-Suche. Klicken Sie bitte nicht auf diese Graphik, denn die danach angezeigten Seiten repräsentieren KEINE BLAST-Analyse Ihrer Sequenz. Dies ist erst verfügbar, wenn die Ausgabe WAITING verschwunden ist. |
||||||||||||
| Geben Sie die folgende Sequenz ein und starten Sie die Suche. | |||||||||||||
| Sequenz |
|
||||||||||||
|
|||||||||||||
| Hinweise | Bearbeiten Sie zur
Beantwortung folgende Fragenkomplexe:
Was gibt der E-Wert an? Welchen Werten würden Sie Signifikanz zuweisen? Wie hoch ist der Wert in vorliegendem Fall? Welche Funktion haben die Treffer mit den höchsten Scores? Stimmen die, den signifikanten Treffern zugeschriebenen Funktionen überein? |
||||||||||||
| Ausgabe sichern | Sichern Sie den den Anfang der Tabelle von Sequenzen mit signifikanten Alignments per copy and paste in eine Datei. | ||||||||||||
| Übung | BLAST_3 | ||||||||||||
| Starten sie den BLAST-Server am NCBI. Bitte wählen Sie im Bereich Scoring Parameters folgende Einstellungen: Unter Compositional adjustments: No adjustment Wählen Sie nun BLOSUM80 Matrix, geben sie die Sequenz aus der Übung BLAST_2 ein und starten Sie BLAST. |
|||||||||||||
| Sichern Sie wiederum den Anfang der Tabelle. Starten Sie nun eine weitere Suche mit der BLOSUM 45 Matrix. |
|||||||||||||
|
|||||||||||||
Lücken und ihre Kosten |
|||||||||||||
| Das Festlegen der Kosten für Lücken ist eine kritische Entscheidung. Von ihr hängt insbesondere die Art des entstehenden Aligments ab. Aus mehreren Gründen ist es sinnvoll, beim Alignment eher wenige lange, als viele kurze Lücken einzuführen. | |||||||||||||
Vergleich Sie nun Alignments, die aufgrund unterschiedlicher Kosten für Lücken entstehen. |
|||||||||||||
| Übung | BLAST_4 | ||||||||||||
| Starten Sie nun die Version von BLAST, mit der zwei Sequenzen aligniert werden können (bl2seq). Sie finden den Verweis unter der Rubrik Specialized BLAST. Wählen Sie blastp, da wir Proteinsequenzen vergleichen wollen. | |||||||||||||
| Überprüfen Sie die verwendete Matrix und
die Kosten für Lücken:
Es müssen eingestellt sein:
BLOSUM62 und für gap open: 11, für gap extension 1. |
|||||||||||||
| Geben Sie die folgenden Sequenzen in den Fenstern Sequence 1 und Sequence 2 ein. | |||||||||||||
| Sequenz 1 |
|
||||||||||||
| Sequenz 2 |
|
||||||||||||
| Alignment generieren | Starten sie BLAST 2 Sequences. Betrachten Sie die Ausgabe, die unter der Rubrik Dot Matrix View ausgegeben wird. | ||||||||||||
Interpretieren Sie das Alignment, die Art der Übereinstimmung und die Lage der ähnlichen Teilsequenzen. |
|||||||||||||
Multidomänenproteine
|
|||||||||||||
| Übung | BLAST_6 Multidomänenproteine | ||||||||||||
| Große Proteine sind häufig aus mehreren Domänen
zusammengesetzt. Wir haben bereits mehrere Male die Domänenstruktur von
Proteinen untersucht. Hier machen wir uns nochmals den möglichen
Einfluss dieses Strukturmerkmals auf die Zusammensetzung der
BLAST-Ergebnisse klar. Lassen Sie sich für diese Aufgabe bitte 1000 Treffer anzeigen. Die Nitratreduktase von Arabidopsis thaliana (P11035) enthält mehrere Domänen. Stellen Sie fest, welche dies sind. Blasten Sie nun diese Sequenz und werten Sie die Treffer aus. Vergleichen Sie die Angaben zur Proteinfunktion für die unterschiedlichen Treffer:
|
|||||||||||||
|
|||||||||||||
| Hinweise | Die Domänenstruktur können Sie mit dem SMART-Server feststellen oder der BLAST-Ausgabe zu den putativen konservierten Domänen entnehmen. Erhöhen Sie die Anzahl gezeigter Treffer solange, bis humane Proteine aufgelistet werden. | ||||||||||||
| Blasten Sie nun die Sequenz der oben genannten
Nitratreduktase.
|
|||||||||||||
|
|||||||||||||
|
|||||||||||||
| Hinweise | Sie können auf der Format-Seite zu BLAST
angeben, gegen welche Genome Ihre Eingabe verglichen werden soll. Recherchieren Sie in PubMed und anderen Datenbanken!
|
||||||||||||
| Übung | BLAST_7 Inhomogene Treffer | ||||||||||||
| Die folgende Sequenz aus Xanthomonas campestris ist als Cyclase annotiert. | |||||||||||||
|
|||||||||||||
|
|||||||||||||
| Hinweise |
Lassen Sie sich für diese Übung 1000 Treffer anzeigen und schränken Sie die Suche auf archaeelle Proteine ein. Geben Sie dafür im Bereich "Choose Search Set" im Feld Organism den Begriff archaea ein. Unter den Treffern finden sich zwei Proteine
aus der Histidin-Biosynthese. Überlegen Sie nochmals, was stärker konserviert wird: Funktion oder
Struktur eines Proteins? Für diese Aufgabe empfiehlt es sich, die Informationen zu konservierten Domänen auszuwerten, die in der BLAST-Ausgabe ebenfalls aufgelistet werden.
|
||||||||||||
| Übung | BLAST_8 Kurze Sequenzen | ||||||||||||
| Sie haben in E. coli ein Protein überexprimiert und anschließend "ansequenzieren" lassen. Dabei ist die folgende Sequenz bekannt geworden. Die beiden mit X markierten Positionen konnten nicht genauer bestimmt werden. | |||||||||||||
|
|||||||||||||
|
|||||||||||||
| Hinweise |
Überlegen Sie zunächst, welches Programm Sie
nutzen wollen. Welche Scoring-Matrix ist zu wählen, wenn Sie nach Fragmenten suchen, die möglichst präzise mit der Eingabe übereinstimmen sollen? BLASTEN Sie nun die Sequenz. Für kurze Sequenzen wählt BLAST die Scoring-Matrix selbstständig. Welche Matrix wurde verwendet? Können Sie diese Wahl erklären? |
||||||||||||
| Mit der folgenden Übung sollen Sie die Größe der Datenbank
und die Signifikanz von Treffern abschätzen: Suchen Sie nach Treffern zu den folgenden Sequenzen:
Überlegen Sie sich bitte vor dem BLASTEN, ob Sie Treffer erwarten. Führen Sie dann die Suche aus. |
|||||||||||||
Was Sie jetzt verstanden haben sollten |
State-of-the-art Verfahren zum paarweisen
Sequenzvergleich haben im Vergleich zu den optimalen Verfahren
Vorteile im Hinblick auf die Ausführungszeit, erreichen jedoch nicht
deren Sensitivität. Diese Techniken wurden entwickelt, um in einer Datenbank "hinreichend" ähnliche Sequenzen zu
identifizieren. Schlagen Sie bitte nochmals im Buch nach: Die Limitationen der Ansätze werden im Abschnitt 12.5 deutlich. Ansätze zur Steigerung der Empfindlichkeit werden in den Kapiteln 12.6 - 12.11 erläutert. |
||||||||||||