Warum ist dieses Wissen wichtig? MSAs haben in der Bioinformatik eine enorme Bedeutung. Zum einen, um Gemeinsamkeiten einer Menge von Sequenzen präzise herauszuarbeiten, zum anderen um auf empfindliche Weise die Zugehörigkeit einer Sequenz zu einer Familie nachzuweisen. Durch die Einführung von MSAs in Alignmentprogrammen oder in Algorithmen zur Vorhersage der Proteinsekundärstruktur wurde deren Empfindlichkeit weiter gesteigert bzw. die Richtigkeit verbessert. 
Bezug Die theoretischen Grundlagen finden Sie im Kapitel 13 "Multiple Sequenzalignments".  

Lernziel

Nach dem Bearbeiten der Übung sollten Sie
  • multiple Sequenzalignments generieren,
  • die Ausgabe von Programmen kritisch bewerten,
  • Gründe für die Konserviertheit von Residuen nennen,
  • unterschiedliche Konzepte von Alignment-Algorithmen benennen

können.

   
Übung MSA_1
   
MSA mit
CLUSTAL W
erzeugen
Das VSR Gen von E. coli K-12 soll mit einem multiplen Sequenzalignment genauer charakterisiert werden. Hier finden Sie eine "geeignete" Sammlung von Sequenzen.

Übergeben Sie per copy and paste den Inhalt dieser Datensammlung in das Eingabe-Fenster des CLUSTAL W-Servers und stoßen Sie das Generieren eines multiplen Sequenzalignments an.
  Beantworten Sie die folgenden Fragen:
Multiples-
Sequenz-
Alignment
bewerten
Welche Sequenz ist der von VSR aus E. coli am ähnlichsten?
Wo unterscheiden sich die Sequenzen am stärksten?
Welche Residuen sind am stärksten konserviert?
   
MSA mit
T-COFFEE
erzeugen
Erstellen Sie nun ein multiples Sequenzalignment mit T-Coffee.

 

Vergleichen Sie das Ergebnis mit dem von CLUSTAL W generierten.
Gibt es qualitative Unterschiede?

 

Hinweis T-Coffee bietet zwei Arten der Darstellung der Scores an. Klicken Sie auf den Eintrag pdf und betrachten Sie die Verteilung der konservierten Bereiche.

 

 
Welche Residuen sind am stärksten konserviert? Welche Sequenz unterscheidet sich am stärksten von den restlichen?
   
Übung MSA_2
   
1979 wurde im sibirischen Permafrost von einem multidisziplinären Team der Russischen Akademie der Wissenschaften ein gut erhaltenes Exemplar des sibirischen Wollmammuts (Mammuthus primigenius) geborgen. Es konnte dessen Gen für das mitochondriale Cytochrom b sequenziert werden.
 
Mit welcher der heute noch vorhandenen Elefantengattungen Loxodonta africana oder Elephas maximus ist das Wollmammut näher verwandt? 
Hinweise Besorgen Sie sich die entsprechenden Proteinsequenzen, generieren Sie ein ein multiples Sequenzalignment und bestimmen Sie die Anzahl unterschiedlicher Positionen. Achten Sie auf die Länge der Sequenzen! Es sind neben der vollständigen Sequenz auch einige Fragmente in der Datenbank abgespeichert. Wählen Sie jeweils die vollständige Sequenz und suchen Sie in der Rubrik Protein. Speichern Sie die Sequenzen für spätere Übungen ab.

Weshalb ist es sinnvoll, Protein- und nicht DNA-Sequenzen für die Analyse zu verwenden? Falls es mehrere alternative Sequenzen gibt, sollten Sie darauf achten, diejenigen auszuwählen, die in ihrer Länge gut übereinstimmen. In dieser Übung sollten alle Sequenzen eine Länge von ca. 370 Aminosäuren besitzen.

 
Ist das Ergebnis signifikant genug, um daraus sichere Schlüsse zu ziehen?
Hinweis Vergleichen Sie Ihr Ergebnis mit dieser Publikation und dieser jüngeren, die auf einer größeren Datengrundlage basiert.
 
Wie unterscheiden sich die Begriffe Homologie und Ähnlichkeit?
   
Übung MSA_3
   
  Betrachten Sie das folgende multiple Sequenzalignment von Trypsin-Inhibitoren, das mit CLUSTAL W generiert wurde.
 
EETI-II         ----GCPRILMRCKQDSDCLAGCVCGPN-GFCGSP
Ii_Mutant       ----GCPRLLMRCKQDSDCLAGCVCGPN-GFCG--
BDTI-II         ---RGCPRILMRCKRDSDCLAGCVCQKN-GYCG--
CMeTI-B         ---VGCPRILMKCKTDRDCLTGCTCKRN-GYCG--
CMTI-IV         HEERVCPRILMKCKKDSDCLAECVCLEH-GYCG--
CSTI-IIB        ---MVCPKILMKCKHDSDCLLDCVCLEDIGYCGVS
MRTI-I          ---GICPRILMECKRDSDCLAQCVCKRQ-GYCG--
Trypsin         ---RICPRIWMECTRDSDCMAKCICVAG--HCG--
ITRA_MOMCH      ---RSCPRIWMECTRDSDCMAKCICVAG--HCG--
MCTI-A          ---RICPRIWMECKRDSDCMAQCICVDG--HCG--
LCTI-III        ---RICPRILMECSSDSDCLAECICLEN-IFCG--
                     **:: *.*. * **:  * *     .**  
Multiples Sequenzalignment
für Trypsin-Inhibitoren
 
   
 
Kann das multiple Sequenzalignment durch manuelles Editieren verbessert werden?

Wenn ja, übernehmen Sie den Textblock per Copy and Paste in einen Texteditor und
führen Sie die Änderungen aus. Was erreichen Sie auf diese Weise?

Hinweise Analysieren Sie das Alignment spaltenweise und überlegen Sie, ob ein Verschieben der Lücken die Anzahl konservierter Positionen erhöhen würde.
 
 
Leiten Sie aus diesem binären Baum ab, wie das oben angesprochene "Fehl"-Alignment zustande kommt.
   
Übung MSA_4
   
Besorgen Sie sich die Aminosäuresequenz der Pankreas-Ribonuclease aus Pferden. Eine mögliche Quelle ist der ExPAsy-Server am Schweizer Institut für Bioinformatik. Speichern Sie diese Sequenz im FASTA-Format in einer lokalen Datei. Ergänzen Sie diese Sequenz um die des selben Proteins aus dem Zwergwal, und dem Roten Riesenkänguru. Hinweis: Google und Wikipedia helfen beim Finden der lateinischen Namen.
 
Generieren Sie mit CLUSTAL W und mit T-Coffee jeweils ein multiples Sequenzalignment und berechnen Sie die Anzahl gleicher (identischer) Reste für jeden der paarweisen Vergleiche.
  Welches Paar weist die meisten Übereinstimmungen auf?
Bei der Beantwortung dieser Frage hilft Ihnen Jalview. Dessen Installation ist hier beschrieben.
Dieser Editor für MSAs erlaubt, Sequenzen paarweise zu vergleichen.
Hinweise Haben Sie in Jalview einen Sequenzdatensatz geladen, so finden Sie im Pulldownmenü Web Service den Eintrag  Alinment. Damit können Sie interaktiv Server erreichen, die mithilfe von MAFFT und Muscle MSAs erstellen. Benutzen Sie auch diese Algorithmen und vergleichen Sie die Ergebnisse.
   
Übung MSA_5, "Fischen" von Genen mit degenerate PCR
   
  PCR mit degenerierten Primern ist eine gängige Methode, um „neue“ Gene aus einem Organismus zu isolieren. Mit google finden Sie weitere Information, wenn nötig. Hier finden Sie den UIPAC Code für Amino- und Nukleinsäuren.
 
Szenario Nehmen wir folgendes Szenario an:
Sie arbeiten an der Grünalge Gonium pectorale und wollen das Gen für eine DNA-Cytosin-5-Methyltransferase isolieren.
 
Wie wird G. pectorale taxonomisch eingeordnet?
   
Hinweise Benutzen Sie hierzu die Taxonomie-Datenbank am NCBI.

Freundlicherweise hat Ihnen ein bekannter Forscher ein Stück Sequenz des entsprechenden Enzyms aus dem nah verwandten Organismus Volvox carteri zur Verfügung gestellt:
 

 
>Met1_V.ca
LNLERCRCIPRGVPGADWRVLLKIVAEDPSREFFKGESLVPFCLPNTADRHNGWRGLYGR
LDPYGHFPTATTEPNPMGKVGQVFHPDQDRIVSVRECARSQGFPDHFRFYGNVICRHRQV
GNAVPPPLARALGQQLRLALKEGRARDTKEAAEKIQSMRARRQQQPQQQPQQQHKHK
   
 
Charakterisieren Sie die Methyltransferase näher.
Hinweise Suchen Sie mit dieser Sequenz nach den sechs nächstverwandten, bekannten Methyltransferasen von verschiedenen Spezies und speichern Sie die Proteinsequenzen.

Geben Sie auf der Format-Seite von BLAST im Feld Alignment view das Format flat query-anchored without identities an. Selektieren Sie auf der resultierenden Ausgabeseite die gewünschten Sequenzen. Durch Drücken der Taste get selected sequences und wiederholte Auswahl der Sequenzen sowie durch Wahl des Formates Fasta via Display-Taste erhält man ein Multiple-Fasta-File, das mit geringem Editieraufwand weiterverwendet werden kann.

Erstellen Sie aus den Sequenzen ein multiples Sequenzalignment mit CLUSTAL W und T-Coffee.

Suchen Sie nach hochkonservierten Motiven und beschreiben Sie diese.
Ist es möglich, ein Prosite-Muster abzuleiten?

 
Bestimmen Sie die Sequenz geeigneter Primer.
   
Hinweise Übersetzen Sie zwei Motive nach Wahl zurück in eine degenerierte DNA-Sequenz.
Benutzen Sie hierfür dieses backtranslation tool.

Wählen Sie zwei 20mer Primer aus, die einen möglichst geringen Degenerationsgrad haben. Beachten Sie, dass der weiter 3’ gelegene Primer revers-komplementär sein muss! Geben Sie den Grad der Degeneration an!

   

Was Sie jetzt verstanden haben sollten

Algorithmen zum Erstellen von MSAs unterscheiden sich in ihrer Geschwindigkeit und Qualität. Zu den besten Verfahren, die zur Zeit verfügbar sind, gehören T-Coffee, Muscle und MAFFT. Letztere Programme sind auf Servern im Netz verfügbar.