Warum ist dieses Wissen wichtig? Taxonomie oder Phylogenie beschreibt eine Klassifikationswissenschaft, die zum Ziel hat, jedes Element einer Gruppe (das Taxon) derartig in eine Teilgruppe einzuordnen, dass eine eindeutige und wechselseitig exklusive Zuordnung entsteht. Die resultierenden Kataloge dienen u. A. der Analyse von Verwandtschaftsbeziehungen. Mit Darwins Theorie von der Entwicklung der Arten gilt es als gesichert, dass alles existierende Leben von einem gemeinsamen Vorgänger abstammt und dass neue Spezies natürlicherweise durch Abspaltung aus einer existierenden Population und nicht durch Kreuzung entstehen. Damit sollte es möglich sein, die Entwicklung der Arten als gerichteten Baum abzubilden. Seine Wurzel müsste dann auf die Urform allen Lebens weisen, an den Blättern wären einzelne Spezies anzuordnen und Verzweigungen würden dann entweder auf gemeinsame Vorgänger oder Zeitpunkte schließen lassen, an denen sich Spezies evolutionär getrennt haben. Zur Untersuchung taxonomischer Fragestellungen wurde eine Vielzahl von Programmen entwickelt, die sich in dem Modell unterscheiden, das zur Bewertung von Mutationen in Sequenzen herangezogen wird.
  Parsimony-Ansätze gehören zu den kladistischen Verfahren. Parsimony (maximale Sparsamkeit) Ansätze versuchen, durch eine möglichst kleine Anzahl von Mutationen sämtliche Sequenzen der Eingabemenge zu erzeugen und aus der Reihenfolge des Einführens der Mutationen einen Stammbaum abzuleiten.

Phylip von J. Felsenstein gilt als eines der besten phylogenetischen Programmpakete. Eine Beschreibung der Konzepte finden Sie hier auf der Homepage des Programmpaketes. Verschaffen Sie sich zunächst einen Überblick zum Funktionsumfang der Software.

Bezug Die theoretischen Grundlagen finden Sie im Kapitel 14 "Grundlagen phylogenetischer Analysen".  

Lernziel

Nach dem Bearbeiten der Übung sollten Sie
  • erste Erfahrungen mit taxonomischen Ansätzen haben,
  • die wichtigsten Ansätze taxonomischer Algorithmen kennen,
  • Vor- und Nachteile sowie Grenzen benennen können.
   
Übung TAX_1, Mitochondriale DNA
   
  Die Sequenz der sog. D-loop-Region der mitochondrialen DNA wird gerne zur phylogenetischen Untersuchung von Vertebraten verwendet. Ähnlich wie die 16S-RNA weist sie sowohl konservierte als auch hoch variable Bereiche auf. In dieser Übung sollen Sie die Verwandtschaft verschiedener Primaten anhand dieses Sequenzabschnitts untersuchen.

Verwenden Sie für diese Übung die Phylip-Programme DNADIST, NEIGHBOR und DRAWTREE.

Informieren Sie sich zunächst, was Sie mit diesen Programmen berechnen können.
 
Server Am Institut Pasteur in Paris gibt es einen frei zugänglichen Web-Server für Phylip.
Bei der ersten Benutzung des Servers müssen Sie Ihre Email-Adresse angeben und die Registrierung bestätigen.
 
Daten Hier finden Sie die Datei primates.dna, die Sequenzen mehrerer Primaten im Phylip-Format enthält.

Betrachten Sie sich zunächst die Datei in einem Texteditor, z.B. Word.
Stellt die Datei schon ein geeignetes multiples Sequenzalignment dar?

 
Aufgabe Lassen Sie sich zunächst mit DNADIST eine Distanzmatrix berechnen.  
   
Ausführung Welche Spezies sind am engsten miteinander verwandt, welche sind am entferntesten verwandt?
Argumentieren Sie auf Basis der Distanzwerte!

Berechnen Sie nun mit NEIGHBOR einen Baum.
Hinweis Sie können das Programm direkt unter dem Ausgabefenster der Distanzmatrix auswählen und die Distanzmatrix als Eingabe übergeben („further analysis“). Vergleichen Sie das Ergebnis des Neighbor-Joining und UPGMA-Algorithmus!

Eine graphische Darstellung des Baumes erhalten Sie, wenn Sie die Ausgabe von NEIGHBOR („neighbor.outtree“) an DRAWTREE schicken.

Erhalten Sie einen gewurzelten oder ungewurzelten Baum? Wie könnten Sie dem Baum, bezogen auf die Primaten-Arten, eine Wurzel geben?
   
Übung TAX_2, 16S RNA
   
  Die Identifizierung von Spezies aufgrund ihrer 16S-RNA ist eine heute gängige Methode. Wir nehmen im folgenden an, dass bei einem Metagenomprojekt die hier deponierte 16S-RNA sequenziert wurde.
 
Stellen Sie fest, zu welcher taxonomischen Gruppe die Spezies wahrscheinlich gehört.
 
  Benutzen Sie hierzu das Programm Phylip, das auf diesem Server speziell zur Analyse von 16S-RNA konfiguriert wurde.
Eine Analyse auf dem RDP-Server läuft in drei Schritten ab.
  1. Zunächst müssen die Sequenzen ausgewählt werden, die miteinander zu vergleichen sind.
  2. Dann muss eine Distanzmatrix berechnet werden.
  3. Anschließend wird ein phylogenetischer Baum generiert.
Hinweise
Die folgenden Anweisungen beziehen sich auf die Schnittstelle des RDP-Servers.

Überprüfen Sie zunächst, dass als Data Set "Small Subunit (Prokaryotes)" ausgewählt ist.
Betätigen Sie auf dem Interface des Servers dann die Start Taste.

Betätigen Sie nun die Edit Data Set-Taste.

Betätigen Sie auf der Schaltfläche Upload and Align Sequences nun die Browse Taste  und

Speichern Sie die oben referenzierte Datei 16sRNA.txt zunächst lokal ab, um sie dann zu laden.

Wählen Sie nun zunächst neben dem Upload and Align Button erst die Option Include 10 neigbors and drücken Sie dann auf die Upload and Align-Taste.

Der Server hat nun die 10 ähnlichsten Sequenzen aus der Datenbank geladen und zeigt sie im Feld RDP Sequences an.

Aus welcher Spezies stammt die ähnlichste Sequenz?

Betätigen Sie nun die Taste Distance Matrix und dann auf der angezeigten Seite die Taste Calculate Matrix.

Interpretieren Sie die Distanzmatrix. Wo befindest sich der größte, wo der kleinste Wert? Was bedeuten große und kleine Distanzen? Was bedeutet ein Eintrag überhaupt?

Betätigen Sie nun die Taste Calculate Tree und werten Sie den Baum aus.

Wo finden Sie die unbekannte RNA, welche Spezies ist der nächste Nachbar?

Bestimmen Sie die taxonomische Linie dieses Nachbarn.

Was schließen Sie hieraus für die Probe?


Hinweise Benutzen Sie den Taxonomie-Browser am NIH.
   

Phylip für Proteinsequenzen

  Hier finden Sie Informationen zu Servern, die im WEB Phylip-Module anbieten.

 

Übung TAX_3, PHYLIP_SQR
   
Motivation Die Sulfid-Chinon-Reduktase (SQR) ist ein Enzym, das für das Wachstum photo- und chemolitoautotropher Bakterien und Archaeen, die Sulfid als Elektronendonor verwenden, lebensnotwendig ist. Sie ist ein Teil der Elektronentransportkette und katalysiert den ersten Schritt der Sulfid-Oxidation. Dabei werden Elektronen von SH2 auf FAD und im nächsten Schritt auf Chinon übertragen und letztendlich zur Reduktion von NAD+ zu NADH eingesetzt. Die SQR ist ein membrangebundenes Protein. In den meisten untersuchten Organismen ist sie in die Membran integriert, nur in Rhodobacter capsulatus lässt sie sich relativ leicht von der Membranfraktion trennen und ist wahrscheinlich nur oberflächlich auf der extrazellulären Seite an die Membran gebunden. Der Schwefelwasserstoff gelangt von außen an die Zellen und so direkt an die SQR. Der entstehende elementare Schwefel wird außerhalb der Zellen abgelagert. SQR kommt auch in Eukaryonten vor.

Falls die Sequenzen eukaryontischer SQR-Gene alle geclustert liegen, ist dies ein Hinweis auf einen gemeinsamen Vorfahren. Eine Quelle könnten mitochondriale Endosymbionten sein. Der Untersuchung der genannten Hypothese dient diese Übung. 

 
Werten Sie bitte den Datensatz sqr.txt mit einem Parsimony-Ansatz auf Protein-Niveau aus.
Teil 1

Benutzen Sie hierfür das geeignete Programm, das von einem der relevanten Server angeboten wird.

Generieren Sie zunächst ein multiples Sequenzalignment (MSA) unter Verwendung von Clustal und stellen Sie als Ausgabeformat Phylip ein.

Übernehmen Sie das von Ihnen generierte MSA oder zur Not dieses hier in das Eingabefenster des Programms und stoßen Sie die Ableitung eines taxonomischen Baumes an. Das Programm liefert eine grobe, textbasierte Darstellung der Resultate.

Sie können aber auch die Ergebnisse in das Programm Phylodendron TreePrint per copy and paste übernehmen und dann unterschiedliche Arten der Darstellung wählen.

Analysieren Sie den Baum. Erscheinen Ihnen die einzelnen Teilcluster sinnvoll in ihrer Zusammenstellung? Sehen Sie phylogenetische Verwandtschaften? Welche Spezies liegen extrem? Können Sie diese Stellung erklären? Ändert sich der Baum, wenn sie diese Spezies als outgroup wählen?

Teil 2 Das Programm T-Coffee gilt als besser im Hinblick auf das Alignment weniger gut übereinstimmender Sequenzen. Generieren Sie mit T-Coffee ein Alignment und werten Sie es wiederum mit dem Parsimony-Ansatz aus.

Server, die T-Coffee anbieten, finden Sie per Suchmaschine oder indem Sie diesen Link benutzen.

Hinweise Im Falle von Fehlermeldungen sollten Sie sich die von T-Coffee gelieferte Ausgabe ansehen. Entspricht Sie den Phylip-Spezifikationen?
 

Bitte kürzen Sie in der von T-Coffee generierten Ausgabe die Speziesnamen auf max. 10 Zeichen und führen Sie ein Leerzeichen ein.

Wie? Benutzen Sie einen Texteditor.

Falls Sie gar nicht zurechtkommen: Hier finden Sie ein von T-Coffee generiertes MSA.

 
Vergleichen Sie die Bäume, die auf dem MSA von ClustalW und T-Coffee basieren? Welche Teilbäume stimmen in ihrer Zusammensetzung überein? Was schließen Sie hieraus?
 

Sind die Ergebnisse ein Beweis für die oben eingeführte Hypothese?
Wenn Sie dies verneinen: Wie würde man das Ergebnis im Hinblick auf die Hypothese richtig formulieren?

Einen großen Teil der Arbeit für diese Analyse haben wir Ihnen erspart. Der meiste Aufwand steckt in der Zusammenstellung der Sequenzen, die bei taxonomischen Untersuchungen ausgewertet werden.

 
Überlegen Sie sich und beschreiben Sie, wie Sie einen derartigen Datensatz erzeugen würden.

Distanzbasierte Verfahren

  Zu den einfachsten phylogenetischen Verfahren zählen die distanzbasierten. Mit den folgenden Übungen wollen wir deren Möglichkeiten und Grenzen ausloten.
   
Übung DIST_1, UPGMA
   
  Es seien die folgenden homologen Sequenzen gegeben, die aus vier Spezies stammen mögen:
 
GCGG, ACGG, CTGG, ATCC

Es sei die Anzahl der Unterschiede in den Sequenzen ein Maß für die taxonomische Distanz zwischen den Spezies.

Berechnen Sie mit Papier und Bleistift einen taxonomischen Stammbaum.
Schritt 1: Distanzmatrix Legen Sie zunächst eine Matrix an, in der Sie in den Zellen jeweils die Anzahl unterschiedlicher Symbole eintragen:
 
  GCGG ACGG CTGG ATCC
GCGG 0 1    
ACGG - 0    
CTGG - - 0  
ATCC - - - 0

Da die Matrix symmetrisch ist, genügt es, die obere Hälfte auszufüllen. Mit d(GCGG,ACGG) = 1 ist die Distanz zwischen den beiden Sequenzen gemeint, die in die entsprechende Zelle eingetragen ist.

Schritt 2:
Suche nach Cluster C1
Suchen Sie die beiden Sequenzen, die voneinander den kleinsten Abstand haben und vereinigen Sie diese zu einem Cluster C1, das auch den ersten Teilbaum definiert. Berechnen Sie dann die Distanzen von C1 zu allen anderen Sequenzen neu.
  Im obigen Fall haben GCGG und ACGG voneinander den kleinsten Abstand (1).
Der neue Abstand d(C1,X) zu allen anderen Sequenzen X (Clustern) ergibt sich dann aus

d(C1,X) = 1/2[d(GCGG,X)+d(ACGG,X)]

Tragen Sie die Werte in eine reduzierte Distanzmatrix ein:

 
  GCGG,
ACGG
CTGG ATCC
GCGG,
ACGG
0    
CTGG   0  
ATCC     0
Schritt 3:
Suche nach Cluster C1
Suchen Sie wiederum den kürzesten Abstand, vereinige die Elemente zu neuen, größere Cluster und bestimmen Sie die Distanzen. Stellen Sie den Baum fertig.
  Dieses Verfahren wird als UPGMA Methode (Unweighted Pair Group Method with Arithmetic mean) bezeichnet.

 

Übung DIST_2, UPGMA_2
   
  Es seine vier Arten gegeben, die durch den folgenden phylogenetischen Stammbaum repräsentiert sein sollen:
 
  A B C D
A 0 1 3 4
B   0 3 4
C     0 4
D       0

Distanzmatrix und Taxonomiebaum

  Die Distanzen werden jeweils symmetrisch auf die Teilpfade verteilt. Wir nehmen nun an, dass sich Art B z. B. aufgrund von starkem Selektionsdruck sehr schnell wandelt. Die phylogenetischen Verhältnisse bleiben natürlich noch die gleichen, aber nach einer gewissen Zeit ergibt sich aus den betrachteten Merkmalen (z. B. Sequenzen) die folgende Distanzmatrix:
 
  A B C D
A 0 5 3 4
B   0 7 8
C     0 4
D       0

   ?    

Distanzmatrix II

 
Welcher Stammbaum resultiert aus Distanzmatrix II?
Vergleichen Sie den Taxonomiebaum mit der vorherigen Abbildung.
Einsicht Insbesondere die UPGMA Methode ist sehr anfällig gegenüber unterschiedlichen Evolutionsraten in den einzelnen Ästen des Baumes. Zur Absicherung der Ergebnisse wurden statistische Verfahren eingeführt und robustere Algorithmen entwickelt. Eine Möglichkeit der Validierung besteht in der Einführung einer outgroup.
Ausblick

Zusätzlich sind in der Taxonomie statistische Tests eingeführt, die die Plausibilität der Ergebnisse hinterfragen bzw. gewichten. Die zwei wichtigsten Ansätze sind der Jackknife und das Bootstrapping.

Beide Verfahren beruhen auf dem folgenden Prinzip:
Bei phylogenetischen Berechnungen und der Analyse von Sequenzen basierend auf multiplen Sequenzalignments werden zunächst für eine Anzahl von Tests per Zufallsexperiment die  Positionen bestimmt, die dazu dienen, Teilsequenzen zu extrahieren. Ergeben die Analysen dieser Teilsequenzen stets den gleichen Stammbaum, wird dieser glaubwürdiger. Resultieren aus den Teilsequenzen unterschiedliche Stammbaume, ist keiner davon vertrauenswürdig.

   
Übung DIST_3
   
  Wir benutzen im folgenden eine Software, die an der Universität Bielefeld entstand. Sie enthält einige Methoden, wie die SplitsTrees, die wir erst später näher betrachten wollen. Im Moment nutzen wir die Standardverfahren. Das Manual zu diesem Programm finden Sie hier.

Bitte laden Sie die Software von dieser Site und installieren Sie das Paket.

Hier finden Sie im NEXUS-Format, das für taxonomische Anwendungen häufiger benutzt wird, eine Zusammenstellung von Sequenzen aus höheren Säugern. Schneiden Sie eine Sequenz z.B. die humanen Ursprungs aus und stellen Sie durch BLASTEN fest, woher sie stammt.

Speichern Sie diese Datei in einem lokalen Verzeichnis ab.
Rufen Sie nun SplitsTree auf und übergeben Sie zunächst die Datei Verzeichnis/primates.nex

Ignorieren Sie im Moment die resultierende Ausgabe, stellen Sie unter dem Pulldown-Menü Methods NJ für Neighbour-Joining ein und starten sie die Generierung des Taxonomiebaumes durch Drücken der Taste Apply.

Stimmt der resultierende Baum mit Ihren Erwartungen überein?

Mit welchen Ansätzen/Verfahren können Sie die Plausibilität des Baumes absichern?

 
Hinweise Merkmale, statistische Tests.
   
Übung DIST_4, Bootstrapping
   
  Laden Sie die Datei \splitstree\bees.nex, die Teil des Splitstrees-Paketes ist.
Stellen Sie zunächst fest, um welche Sequenzen aus welchen Spezies es sich handelt.

Aktivieren Sie hierzu den Reiter Source und betrachten Sie den Teil des Datensatzes, in dem die Sequenzen angegeben sind. Der gesamte Datensatz liegt im NEXUS-Format vor, dass für taxonomische Datensätze häufig verwendet wird.

Hinweise Benutzen Sie BLAST und den Taxonomie-Browser

Sie können die erste Sequenz des Datensatzes in einer einzigen Zeile ausgeben, wenn nach Wahl des Reiters "Source" im Pulldown-Menü View den Befehl Characters auswählen und Interleave deaktivieren.

  Wechseln Sie durch Betätigen des Reiters Network in die Grafik-Ausgabe.

Vergleichen Sie die Stammbäume, die von unterschiedlichen Algorithmen generiert werden.

Experiment A Wählen Sie unter Trees die Methode UPGMA achten Sie auf die Lage der einzelnen Zweige (Spezies)  zueinander.
   
Experiment B Eine verfeinerte Methode, die zur Korrektur unterschiedlicher Evolutionsgeschwindigkeiten entwickelt wurde, wird als Neighbour-Joining bezeichnet. Wählen Sie diese mit NJ (für Neighbour-Joining) aus und vergleichen Sie den resultierenden Baum mit dem aus der vorherigen Analyse. Wie unterscheiden Sie sich?
 
Was schließen Sie hieraus für die Verwandtschaft von A. cerana, A. dorsata und A. melifer zueinander?

Wählen Sie unter Analysis/Bootstrap den Bootstrap-Modus aus und geben Sie einen Wert von 1000 für die Anzahl der Iterationen ein.

Machen Sie sich die Bedeutung der Zahlen klar, mit denen die Kanten markiert werden. Wo finden Sie die niedrigsten Zahlenangaben, vergleichen Sie diese mit den Unterschieden in den Taxonomiebäumen zu Experiment A und B. 

   
Übung DIST_5, SplitsTree
   
  Ein alternativer Ansatz zur Darstellung sich möglicherweise widersprechender taxonomischer Signale ist der SplitsTree-Algorithmus, der immer dann Teil-Bäume als Geflecht darstellt, wenn keine eindeutige Baumstruktur ableitbar ist. Im folgenden Experiment vergleichen Sie dieses Konzept mit den oben eingeführten.
 
Werten Sie den Datensatz bees.nex mit dem SplitsTree-Algorithmus aus.

Wählen Sie /Methods/SplitDecomposition und starten Sie die Auswertung.

Stoßen Sie anschließend das Bootstrap-Verfahren an und vergleichen Sie die Lage der "Netze", d. h. der Bäume und die Höhe der Bootstrap-Werte. Welche Übereinstimmung können Sie ableiten?

   

Kladistische Verfahren

   
Übung KLAD_1, Papier+Bleistift
   
Konzept verstehen Hier finden Sie einen Datensatz von DNA-Sequenzen.
 

1

CTGAAACAGTGAGGGTAGCAGGATAAGCGCACG

2

ATGAAACAGTGAGGGTAGCAGGAAAAGCGCACG

3

CTGAAACAGTGAGGGTAGCAGGAAAAGCGCACG

4

CTGAAACAGTGAGCGTAGCAGGATAAGCCCACG

5

CTGAAACAGTGAGCGTAGCAGGATAAGCGCACG

6

CTGAAACAGTGAGGGTAGCAGGAAAAGCGCACA
 
 
Berechnen Sie mit Papier und Bleistift einen Maximum-Parsimony-Baum.
   Jede Mutation soll mit gleichen "Kosten" bewertet werden.

 

Übung KLAD_2, PHYLIP_DNA
   
 

Einen ausführliche Beschreibung von Phylip finden Sie hier auf der Homepage des Programmpaketes. Verschaffen Sie sich zunächst einen Überblick zum Funktionsumfang der Software.

Vorgehensweise,
Überlegungen
Welches Programm müssen Sie wählen, wenn Sie einen Parsimony-Ansatz nutzen wollen?
Welches für einen Maximum-Likelihood Ansatz?
Welches Datenformat benötigt das Programm, wie generieren Sie ihn?
Skizzieren Sie eine Vorgehensweise, um eine outgroup zu generieren.

Denken Sie an den BLAST-Server und die Möglichkeiten, in dessen Ausgabe Sequenzen auszuwählen und darstellen zu lassen.

 

  Hier finden Sie Informationen zu Servern, die im WEB Phylip Module anbieten.

 

 
Werten Sie bitte den Datensatz bees mit einem kladistischen Verfahren aus.
  Hier finden Sie den Datensatz bees in einem anderen Datenformat, das von den oben angegebenen Servern akzeptiert wird.

 

  Vergleichen Sie den Taxonomie-Baum mit dem aus DIST_4.

 

Übung KLAD_3, PHYLIP_PROT
   
Werten Sie bitte den Datensatz bees.nex mit einem kladistischen Verfahren auf Protein-Niveau aus.

Wandeln Sie die DNA-Sequenzen des Satzes bees in Proteinsequenzen um und führen Sie eine Auswertung auf Proteinniveau durch. Erwarten Sie Unterschiede und wenn ja, warum?

Hinweise Welchen Leserahmen wählen Sie für die Konversion?
   
Übung KLAD_4, Tryptophan-Synthase
   
 

Die Tryptophan-Operon ist eines der am besten untersuchen Operons.  In E. coli findet sich die hier dargestellte Genabfolge. Die Tryptophan-Synthase ist ein Heterodimer, das aus den Untereinheiten A und B besteht.

Berechnen Sie Stammbäume für die beiden Untereinheiten.
Vorgehensweise Extrahieren Sie aus den folgenden Genomen Proteinsequenzen für die genannten Untereinheiten:

A. fulgidus
Halobacterium
M. acetivorans
P. horikoshii
P. abysii
E. coli
B. subtilis
T. acidophilum
S. cerevisiae

Berechnen Sie für beide Untereinheiten jeweils einen Baum nach dem Neighbour-Joining- und einem kladistischen Verfahren.

Diskutieren Sie Ihre Ergebnisse.

   

Was Sie jetzt wissen sollten

Distanzbasierte, Maximum-Likelihood- und Parsimony-Verfahren machen einen großen Teil phylogenetischer Analysen aus. Zunehmend an Bedeutung gewinnen bayessche Verfahren, die lange Rechenzeiten erfordern. Ein derartiges Paket ist PhyloBayes, das Sie  hier finden.