Warum ist dieses Wissen wichtig? FASTA and BLAST sind diejenigen Algorithmen, die am häufigsten zum Sequenzvergleich eingesetzt werden. Es ist daher ganz wichtig, die Algorithmen, aber auch die Limitationen, verstanden zu haben. Ebenso sicher müssen Sie in der Bewertung der Ergebnisse sein. 
Bezug Diese Übungen ergänzen das Kapitel 12 "FASTA, BLAST und PSI-BLAST".

Lernziel

Nach dem Bearbeiten der Übung sollten Sie
  • die den Programmen FASTA und BLAST zugrunde liegenden Algorithmen
  • sowie deren Limitationen kennen;
  • Programmparameter sinnvoll einsetzen können.

FASTA

   
  Öffnen Sie das Eingabefenster des FASTA-Servers am EBI.
 Hinweise In Abhängigkeit von der aktuellen Belastung kann der Server sehr träge sein. Legen Sie ein Verzeichnis an und kopieren Sie die Ergebnisse dorthin. Verwenden Sie "sprechende" Namen, die es Ihnen erlauben, die Ergebnisse den Übungen zuzuordnen.

 

Übung FASTA_1
   
Parameter Benutzen Sie die Parameter:
MATRIX: Blosum 50, KTUP = 2, HIST yes, SCORES = 100, ALIGNMENTS = 30

und geben Sie die folgende Sequenz ein.

Eingabe-
Sequenz
>FASTA_1
MPLTLNQLALLSGRASEHVLAEEVEETGMPAGEILARLRERLAVMRDSVRRGLASDAPSV
AGLVGKNAKTLWEAPDPLQDPLLKRVQAYAMAVNEENARMGRIVAAPTAGSAGTLPGALL
GVADHLGIPDEELLMPLVLAGGVAKMIGRVIHIAGASGGCQAEIGSSAALAAAAVTELLG
GTPEACALAAALALQNTLGLVCDPVGGFVEVPCVMRNGFYAVHAVSAASMALAGIRSVIP
PDEVVLAMAGIGRLLPLELKETGLGGLADTPTGRRLAEEALKKT
Ausgabe interpretieren
Um welches Protein handelt es sich vermutlich?

Interpretieren Sie das Histogramm der Scores, wo finden sich die größten Abweichungen?

Was besagt die Kolmogorov-Smirnov Statistik?

Sichern Sie das Histogramm in einem separatem Fenster bzw. in einer separaten Datei.

Übung FASTA_2
   
Parameter Ändern Sie nun die Parameter. Setzen Sie
GAP OPEN -2 GAP EXTEND  0

und werten Sie die Sequenz aus FASTA_1 erneut aus.

Ausgabe interpretieren
Vergleichen Sie das Histogramm mit dem aus FASTA_1.
 

Wie interpretieren Sie die Abweichungen?  Wie sind die unterschiedlichen Histogramme zustande gekommen?

Vergleichen und diskutieren Sie die Werte der KS-Statistik!

   
Übung FASTA_3
   
Parameter Stellen Sie den Parameter wieder auf den Default-Wert:
GAP PENALTIES: OPEN -12, verwenden Sie HIST yes

und werten Sie die folgenden Sequenzen aus.

Eingabe-
Sequenz
>FASTA_3a
PPQGGGGWGQPHGGGWGQPHGGGWGQPHGGGWGQPHGGGWGQGGGTH
Eingabe-
Sequenz
>FASTA_3b
GGGSYGGGGGRREGGGGYSGGGGGYSSRGGGGGSYGGGRREGGGGYGGGEGGGYGGSGGGGGW
   
Ausgabe interpretieren
Interpretieren Sie die Histogramme und die Werte für die KS-Statistik

Betrachten Sie zunächst die beiden Eingabesequenzen. Würden Sie diese als unauffällig bezeichnen oder können Sie gewisse Muster erkennen. Falls das Letztere der Fall sein sollte: Ist FASTA robust im Hinblick auf die Score-Verteilung? Kann das Programm auch mit schwierigen Eingaben umgehen?

   

Regionen niedriger Komplexität

  Proteinsequenzen enthalten häufig Regionen niedriger Komplexität, die eine starke Verzerrung der Aminosäuren- oder Nucleotid-Komposition aufweisen und z. B. als Glycin-reich oder verallgemeinert als repetitive, nicht-globuläre Domänen beschrieben werden. Man blendet sie üblicherweise bei der Bestimmung von Alignments aus.

Ein drastisches Beispiel für eine Region niedriger Komplexität untersuchen Sie in der folgenden Übung.

Übung FASTA_4
   
  Analysieren Sie mit FASTA die folgende Sequenz, die Sie aus obiger Übung bereits kennen. 
Eingabe-
Sequenz
>FASTA_4
GGGSYGGGGGRREGGGGYSGGGGGYSSRGGGGGSYGGGRREGGGGYGGGEGGGYGGSGGGGGW
  Benutzen Sie Standard-Einstellungen und wählen Sie für einen ersten Lauf unter der Option "Filter" die Einstellung "None".
Notieren Sie die Anzahl der Treffer und den maximal erreichten Score.

Ändern Sie Nun die Filter-Einstellung auf "seg"  und starten Sie das Programm ein zweites Mal. Wie viele Treffer finden Sie jetzt?

 
Vergleichen Sie die Anzahl der Treffer und deren Scores.
Hinweise  Wie erklären Sie sich die Unterschiede?
   

BLAST

Übung BLAST_1
   
 
Bestimmen Sie (mit Papier und Bleistift) für die Sequenz HILWVG sämtliche w-mers der Länge 2, die bei Verwendung der BLOSUM62 Matrix einen score (T) > 9 besitzen.
   Drucken Sie hierzu dieses Dokument aus.
 
Substring w-mers der Länge 2 mit score (T) > 9                                                   
   
   
   
   
   
Lösung Hier finden Sie die Lösung.
Übung BLAST_2
   
  Starten Sie den BLAST-Server am NCBI.
Hinweise zum Umgang mit BLAST Bitte achten Sie darauf, als Programm die Version protein BLAST (blastp) auszuwählen.

Die Grafik, die mit Putative conserved domains have been detected überschrieben ist, verweist NICHT auf die Ergebnisse der BLAST-Suche. Klicken Sie bitte nicht auf diese Graphik, denn die danach angezeigten Seiten repräsentieren KEINE BLAST-Analyse Ihrer Sequenz. Dies ist erst verfügbar, wenn die Ausgabe WAITING verschwunden ist.
  Geben Sie die folgende Sequenz ein und starten Sie die Suche.
Sequenz
>BLAST_2
MPLTLNQLALLSGRASEHVLAEEVEETGMPAGEILARLRERLAVMRDSVRRGLASDAPSV
AGLVGKNAKTLWEAPDPLQDPLLKRVQAYAMAVNEENARMGRIVAAPTAGSAGTLPGALL
GVADHLGIPDEELLMPLVLAGGVAKMIGRVIHIAGASGGCQAEIGSSAALAAAAVTELLG
GTPEACALAAALALQNTLGLVCDPVGGFVEVPCVMRNGFYAVHAVSAASMALAGIRSVIP
PDEVVLAMAGIGRLLPLELKETGLGGLADTPTGRRLAEEALKKT
 
Um welches Protein handelt es sich? Wie begründen Sie Ihre Antwort?
 Hinweise Bearbeiten Sie zur Beantwortung folgende Fragenkomplexe: 

Was gibt der E-Wert an? Welchen Werten würden Sie Signifikanz zuweisen? Wie hoch ist der Wert in vorliegendem Fall? Welche Funktion haben die Treffer mit den höchsten Scores? Stimmen die, den signifikanten Treffern zugeschriebenen Funktionen überein?

Ausgabe sichern Sichern Sie den den Anfang der Tabelle von Sequenzen mit signifikanten Alignments per copy and paste in eine Datei.
   
Übung BLAST_3
   
  Starten sie den BLAST-Server am NCBI. Bitte wählen Sie im Bereich Scoring Parameters folgende Einstellungen:

Unter Compositional adjustments: No adjustment 

Wählen Sie nun BLOSUM80 Matrix, geben sie die Sequenz aus der Übung BLAST_2 ein und starten Sie BLAST.


 
Sichern Sie wiederum den Anfang der Tabelle.
Starten Sie nun eine weitere Suche mit der BLOSUM 45 Matrix.
 
Vergleichen Sie die Ergebnisse der letzen beiden Läufe.

1.) Wie unterscheiden sich die Parameter von BLAST?

2.) Wie interpretieren Sie die unterschiedlichen Ergebnisse (Scores)?

   

Lücken und ihre Kosten

  Das Festlegen der Kosten für Lücken ist eine kritische Entscheidung. Von ihr hängt insbesondere die Art des entstehenden Aligments ab. Aus mehreren Gründen ist es sinnvoll, beim Alignment eher wenige lange, als viele kurze Lücken einzuführen.
 
Was ist die biologische Begründung für das Begünstigen von größeren Lücken in Alignments auf Protein- und DNA-Ebene?

Vergleich Sie nun Alignments, die aufgrund unterschiedlicher Kosten für Lücken entstehen.

   
Übung BLAST_4
   
  Starten Sie nun die Version von BLAST, mit der zwei Sequenzen aligniert werden können (bl2seq). Sie finden den Verweis unter der Rubrik Specialized BLAST. Wählen Sie blastp, da wir Proteinsequenzen vergleichen wollen.
  Überprüfen Sie die verwendete Matrix und die Kosten für Lücken: Es müssen eingestellt sein:

BLOSUM62 und für gap open: 11, für gap extension 1.

  Geben Sie die folgenden Sequenzen in den Fenstern Sequence 1 und Sequence 2 ein.
   
Sequenz 1
>1_gi_47211705
GSIYRALWAFQSQQGEHLSFREGDLFRVLSRRDDWWSVRRIDASGRVLDSGLVPGNYLAPAESGQTQPWF
FGTLNRLQAQSHLLAPENSEGAFLIRVSEKDNVGYVLSVRSGDQVKHYKVLQTDQNRFYVEPGRRFSSLA
ELVDYYQKTSLNNAGPLGNPCKRNTLSTPALLPFPTIGWELPKKEFELEEELGSGCFARVYRGRWKNLIR
VAVKILKSAAVSKLVPPDSPQGDGRMPDPLGTSLGWTGPWYYGNINRVKAEKLLLASQNKDGSFLVRISE
SHSDEYTISARSEGKVFHFRIQRSSIGAYFVSDRISFATLGELISYYQRNNRSLGVLLEEPCAQQRPLTP
SLLCLQRELFDMEPWERPREEFRLLRKLGEGHFGEVWEALWSTENRRVAIKTLKQEDTKQDEFVKEVQAL
KSLHHPKLIQLLAMCSRGEPVYIVTELMTKGSLKAYLASAEGQVLTSAHLIYMGSQIAEGMAYLEDRNIV
HRDLAARNILVGEDLVCKVADFGLARIIKDSVYTASRNTKIPVRWTAPEAAIHQRFSVKSDVWSFGVLLY
EMMSRGKMPYEGRNQPGAGWNSRRSRSLPVCRKEQQGGSGPAGVRVPAAVSHSLPPEHLPHDDGLLGGRA
LQEALLPRPAQPAGRHLRPHLLQDHRVPAGGAPVLPGGGPVSGAEPQGRLVVGAEDRRQRPRPGQRPGSG
ELPGPGGVRPDAAMVFRDAEPPSGPEPPVAPENSEGAFLIRVSEKDNVGYVLSVRSGDQVKHYKVLQTDQ
NRFYVEPGRRFSSLAELVDYYQKTSLNNAGPLGNPCKRNTLSTPALLPFPTIGWELPKKEFELEEELGSG
CFARVYRGRWKNLIRVAVKILKSDSELNHGDFQTEVQILKNLRHRHLLSLFAVCTESRPYWIITELMEKG
SLLIFLRSPEGQNQDVASLIDMGTQVADGMSYLEEQKSIHRDLAARNVLVGEDYTCKVGDFGLARVIKEP
FYITEDKKIPYKWTAPEAISHGKFSNKSDVWSFGILLYEITTYGGVPYPGALFSRSWSHDQRPGSVLRVD
AQCVSPVSSSTAMSVQEAYQQVTAGYRMPAPAKCPHFLYQIMLKCWAAEPDDRPDFRTLKVELDNS
 
Sequenz 2
>gi_108870569
MLIVSGRGRQKQNNPQEPSAVGMSPLWTARYDYQAQGEDELSLRVGQIVFVLSMDSSISGDEGWWTGKIG
DRVGIFPSNFVTNEDPTVLNVQPLEIKFQELDLREVIGVGGFSKVHRAFWNGLEVAVKASRQDEDIDGTR
ENVLKEAKLFWSLKHPNIVELKGVCLEQPILCLVMEYARGGSLNKILAGRKIPPDVLVDWAIQIARGMKY
LHCEAPISVIHRDLKSSNVLICDPVMSGNLKNKTLKITDFGLAREAYTTTRMSAAGTFAWMPPEVIKSGT
YSKASDVWSYGVLLWELLTGETPYKGFDTLSVAYGVAINSLALPIPKTCPEAWGKLMKSCWELDPHRRPS
FRDIEKDLDTIARSGFGQTPHESFHTMQDGWKREIAEVLQELRRKEKELRSKEEELSRVQQEQQFREEDL
AKRKQELDAREIELLGRELKIIITQNTPTPKKRKGKFSKSKLRLLKREPGHISFPLDFRHTITVQPTAIR
DECRQRTDTPPGSPAATRLRAIARK
 
 Alignment generieren Starten sie BLAST 2 Sequences. Betrachten Sie die Ausgabe, die unter der Rubrik Dot Matrix View ausgegeben wird.
 
Wie viele lokale Alignment wurden angelegt? Wo liegen diese?

Interpretieren Sie das Alignment, die Art der Übereinstimmung und die Lage der ähnlichen Teilsequenzen.

   

Multidomänenproteine

 

Übung BLAST_6 Multidomänenproteine
   
  Große Proteine sind häufig aus mehreren Domänen zusammengesetzt. Wir haben bereits mehrere Male die Domänenstruktur von Proteinen untersucht. Hier machen wir uns nochmals den möglichen Einfluss dieses Strukturmerkmals auf die Zusammensetzung der BLAST-Ergebnisse klar. Lassen Sie sich für diese Aufgabe bitte 1000 Treffer anzeigen.
 

Die Nitratreduktase von Arabidopsis thaliana (P11035) enthält mehrere Domänen. Stellen Sie fest, welche dies sind.

Blasten Sie nun diese Sequenz und werten Sie die Treffer aus. Vergleichen Sie die Angaben zur Proteinfunktion für die unterschiedlichen Treffer:

>gi|6272654|gb|AAF06147.1|AF169481_1 cytochrome b5 reductase 1 [Homo sapiens]
MGIQTSPVLLASLGVGLVTLLGLAVGSYLVRRSRRPQVTLLDPNEKYLLRLLDKTTVSHNTKRFRFALPT
AHHTLGLPVGKHIYLSTRIDGNLVIRPYTPVTSDEDQGYVDLVIKVYLKGVHPKFPEGGKMSQYLDSLKV
GHVVEFRGPSGLLTYTGKGHFNIQPNKKSPPEPRVAKKLGMIAGGTGITPMLQLIRAILKVPEDPTQCFL
LFANQTEKDIILREDLEELQARYPNRFKLWFTLDHPPKDWAYSKGFVTADMIREHLPAPGDDVLVLLCGP
PPMVQLACHPNLDKLGYSQKMRFTY

 

 
Weshalb weist die Sequenz Cytochrome b5 reductase 1 [Homo sapiens] viele, hoch-signifikante Treffer zu Nitratreduktasen auf?

 

 Hinweise Die Domänenstruktur können Sie mit dem SMART-Server feststellen oder der BLAST-Ausgabe zu den putativen konservierten Domänen entnehmen. Erhöhen Sie die Anzahl gezeigter Treffer solange, bis humane Proteine aufgelistet werden.
  Blasten Sie nun die Sequenz der oben genannten Nitratreduktase.

 

>gi|128188|sp|P11035|NIA2_ARATH Nitrate reductase [NADH] 2 (NR2)
MAASVDNRQYARLEPGLNGVVRSYKPPVPGRSDSPKAHQNQTTNQTVFLKPAKVHDDDEDVSSEDENETH
NSNAVYYKEMIRKSNAELEPSVLDPRDEYTADSWIERNPSMVRLTGKHPFNSEAPLNRLMHHGFITPVPL
HYVRNHGHVPKAQWAEWTVEVTGFVKRPMKFTMDQLVSEFAYREFAATLVCAGNRRKEQNMVKKSKGFNW
GSAGVSTSVWRGVPLCDVLRRCGIFSRKGGALNVCFEGSEDLPGGAGTAGSKYGTSIKKEYAMDPSRDII
LAYMQNGEYLTPDHGFPVRIIIPGFIGGRMVKWLKRIIVTTKESDNFYHFKDNRVLPSLVDAELADEEGW
WYKPEYIINELNINSVITTPCHEEILPINAFTTQRPYTLKGYAYSGGGKKVTRVEVTVDGGETWNVCALD
HQEKPNKYGKFWCWCFWSLEVEVLDLLSAKEIAVRAWDETLNTQPEKMIWNLMGMMNNCWFRVKTNVCKP
HKGEIGIVFEHPTLPGNESGGWMAKERHLEKSADAPPSLKKSVSTPFMNTTAKMYSMSEVKKHNSADSCW
IIVHGHIYDCTRFLMDHPGGSDSILINAGTDCTEEFEAIHSDKAKKMLEDYRIGELITTGYSSDSSSPNN
SVHGSSAVFSLLAPIGEATPVRNLALVNPRAKVPVQLVEKTSISHDVRKFRFALPVEDMVLGLPVGKHIF
LCATINDKLCLRAYTPSSTVDVVGYFELVVKIYFGGVHPRFPNGGLMSQYLDSLPIGSTLEIKGPLGHVE
YLGKGSFTVHGKPKFADKLAMLAGGTGITPVYQIIQAILKDPEDETEMYVIYANRTEEDILLREELDGWA
EQYPDRLKVWYVVESAKEGWAYSTGFISEAIMREHIPDGLDGSALAMACGPPPMIQFAVQPNLEKMQYNI
KEDFLIF
Welche humane Proteine ähneln dieser Sequenz am stärksten? Welche Funktion hat das SUOX Genprodukt, wie machen sich Mutationen bemerkbar?
Hinweise Sie können auf der Format-Seite zu BLAST angeben, gegen welche Genome Ihre Eingabe verglichen werden soll.
Recherchieren Sie in PubMed und anderen Datenbanken!

 

Übung BLAST_7 Inhomogene Treffer
   
Die folgende Sequenz aus Xanthomonas campestris ist als Cyclase annotiert.
 
>gi|66768686:1-258 cyclase [Xanthomonas campestris pv. campestris str. 8004]
MLSRRIIPCLDVRDGRVVKGVKFRDHIDMGDIVELAMRYRDQGADELVFYDIGASPEGRSVDYAWVERVA
RLIDIPFCVAGGIRDVETARAVLHAGADKISINSPALGRPQLISELADAFGVQCVVVGIDSIREEDGQWR
VRRYTGDPSKTQALPMRTLDWVAEAQRLGAGEIVLNCMDNDGVRHGYDIAQLRQVRALCRVPLIASGGAG
EMQHFADVFDQADADGALAASVFHSGAIPIPELKRFLRAQQIEVRDGQ
Versuchen Sie, die Funktion genauer zu charakterisieren!
Hinweise

Lassen Sie sich für diese Übung 1000 Treffer anzeigen und schränken Sie die Suche auf archaeelle Proteine ein. Geben Sie dafür im Bereich "Choose Search Set" im Feld Organism den Begriff archaea ein.

Unter den Treffern finden sich zwei Proteine aus der Histidin-Biosynthese.
Welche Funktion haben diese? Wie erklären Sie sich das gemeinsame Auftreten unter den Treffern?

Überlegen Sie nochmals, was stärker konserviert wird: Funktion oder Struktur eines Proteins?
Was schließen Sie in diesem Fall für die Struktur der beiden Proteine?
Können Sie diese Annahme überprüfen?

Für diese Aufgabe empfiehlt es sich, die Informationen zu konservierten Domänen auszuwerten, die in der BLAST-Ausgabe ebenfalls aufgelistet werden.

 

Übung BLAST_8 Kurze Sequenzen
   
Sie haben in E. coli ein Protein überexprimiert und anschließend "ansequenzieren" lassen. Dabei ist die folgende Sequenz bekannt geworden. Die beiden mit X markierten Positionen konnten nicht genauer bestimmt werden.
 
>Fragment
MEXXITGYTX
Versuchen Sie, das zugehörige Protein/Gen zu finden.
Hinweise

Überlegen Sie zunächst, welches Programm Sie nutzen wollen.
Gibt es eine spezielle Version von BLAST für derartige Fragestellungen?

Welche Scoring-Matrix ist zu wählen, wenn Sie nach Fragmenten suchen, die möglichst präzise mit der Eingabe übereinstimmen sollen?

BLASTEN Sie nun die Sequenz. Für kurze Sequenzen wählt BLAST die Scoring-Matrix selbstständig. Welche Matrix wurde verwendet? Können Sie diese Wahl erklären?

Mit der folgenden Übung sollen Sie die Größe der Datenbank und die Signifikanz von Treffern abschätzen:

Suchen Sie nach Treffern zu den folgenden Sequenzen:
>Test1
ANSTALT

>Test2
REGEN

>Test3
GARFIELD

Überlegen Sie sich bitte vor dem BLASTEN, ob Sie Treffer erwarten. Führen Sie dann die Suche aus.
Entspricht das Ergebnis Ihren Erwartungen?

Was Sie jetzt verstanden haben sollten

State-of-the-art Verfahren zum paarweisen Sequenzvergleich haben im Vergleich zu den optimalen Verfahren Vorteile im Hinblick auf die Ausführungszeit, erreichen jedoch nicht deren Sensitivität. Diese Techniken wurden entwickelt, um in einer Datenbank "hinreichend" ähnliche Sequenzen zu identifizieren.
Schlagen Sie bitte nochmals im Buch nach: Die Limitationen der Ansätze werden im Abschnitt 12.5 deutlich. Ansätze zur Steigerung der Empfindlichkeit werden in den Kapiteln 12.6 - 12.11 erläutert.