| Warum ist dieses Wissen wichtig? | Taxonomie oder Phylogenie beschreibt eine Klassifikationswissenschaft, die zum Ziel hat, jedes Element einer Gruppe (das Taxon) derartig in eine Teilgruppe einzuordnen, dass eine eindeutige und wechselseitig exklusive Zuordnung entsteht. Die resultierenden Kataloge dienen u. A. der Analyse von Verwandtschaftsbeziehungen. Mit Darwins Theorie von der Entwicklung der Arten gilt es als gesichert, dass alles existierende Leben von einem gemeinsamen Vorgänger abstammt und dass neue Spezies natürlicherweise durch Abspaltung aus einer existierenden Population und nicht durch Kreuzung entstehen. Damit sollte es möglich sein, die Entwicklung der Arten als gerichteten Baum abzubilden. Seine Wurzel müsste dann auf die Urform allen Lebens weisen, an den Blättern wären einzelne Spezies anzuordnen und Verzweigungen würden dann entweder auf gemeinsame Vorgänger oder Zeitpunkte schließen lassen, an denen sich Spezies evolutionär getrennt haben. Zur Untersuchung taxonomischer Fragestellungen wurde eine Vielzahl von Programmen entwickelt, die sich in dem Modell unterscheiden, das zur Bewertung von Mutationen in Sequenzen herangezogen wird. | ||||||||||||||||||||||||||||||
| Parsimony-Ansätze gehören zu den kladistischen Verfahren.
Parsimony
(maximale Sparsamkeit) Ansätze versuchen, durch eine möglichst kleine
Anzahl von Mutationen sämtliche Sequenzen der Eingabemenge zu erzeugen
und aus der Reihenfolge des Einführens der Mutationen einen Stammbaum
abzuleiten.
Phylip von J. Felsenstein gilt als eines der besten phylogenetischen Programmpakete. Eine Beschreibung der Konzepte finden Sie hier auf der Homepage des Programmpaketes. Verschaffen Sie sich zunächst einen Überblick zum Funktionsumfang der Software. |
|||||||||||||||||||||||||||||||
| Bezug | Die theoretischen Grundlagen finden Sie im Kapitel 14 "Grundlagen phylogenetischer Analysen". | ||||||||||||||||||||||||||||||
Lernziel |
|
||||||||||||||||||||||||||||||
| Übung | TAX_1, Mitochondriale DNA | ||||||||||||||||||||||||||||||
| Die Sequenz der sog. D-loop-Region der mitochondrialen DNA wird
gerne zur phylogenetischen Untersuchung von Vertebraten verwendet.
Ähnlich wie die 16S-RNA weist sie sowohl konservierte als auch hoch
variable Bereiche auf. In dieser Übung sollen Sie die Verwandtschaft
verschiedener Primaten anhand dieses Sequenzabschnitts untersuchen. Verwenden Sie für diese Übung die Phylip-Programme DNADIST, NEIGHBOR und DRAWTREE. Informieren Sie sich zunächst, was Sie mit diesen Programmen berechnen können. |
|||||||||||||||||||||||||||||||
| Server | Am Institut Pasteur in Paris gibt es einen
frei zugänglichen Web-Server für Phylip. Bei der ersten Benutzung des Servers müssen Sie Ihre Email-Adresse angeben und die Registrierung bestätigen. |
||||||||||||||||||||||||||||||
| Daten | Hier finden Sie die Datei primates.dna, die Sequenzen mehrerer
Primaten im Phylip-Format enthält. Betrachten Sie sich zunächst die Datei in einem Texteditor, z.B.
Word. |
||||||||||||||||||||||||||||||
| Aufgabe | Lassen Sie sich zunächst mit DNADIST eine Distanzmatrix berechnen. | ||||||||||||||||||||||||||||||
| Ausführung | Welche Spezies sind am engsten miteinander verwandt,
welche sind am entferntesten verwandt? Argumentieren Sie auf Basis der Distanzwerte! Berechnen Sie nun mit NEIGHBOR einen Baum. |
||||||||||||||||||||||||||||||
| Hinweis | Sie können das Programm direkt unter dem Ausgabefenster
der Distanzmatrix auswählen und die Distanzmatrix als Eingabe übergeben
(„further analysis“).
Vergleichen Sie das Ergebnis des Neighbor-Joining und UPGMA-Algorithmus! Eine graphische Darstellung des Baumes erhalten Sie, wenn Sie die Ausgabe von NEIGHBOR („neighbor.outtree“) an DRAWTREE schicken. Erhalten Sie einen gewurzelten oder ungewurzelten Baum? Wie könnten Sie dem Baum, bezogen auf die Primaten-Arten, eine Wurzel geben? |
||||||||||||||||||||||||||||||
| Übung | TAX_2, 16S RNA | ||||||||||||||||||||||||||||||
| Die Identifizierung von Spezies aufgrund ihrer 16S-RNA ist eine
heute gängige Methode. Wir nehmen im folgenden an, dass bei einem
Metagenomprojekt die hier deponierte 16S-RNA
sequenziert wurde. |
|||||||||||||||||||||||||||||||
|
|||||||||||||||||||||||||||||||
| Benutzen Sie hierzu das Programm Phylip, das
auf
diesem Server speziell zur Analyse von 16S-RNA konfiguriert wurde. Eine Analyse auf dem RDP-Server läuft in drei Schritten ab.
|
|||||||||||||||||||||||||||||||
| Hinweise |
Der Server hat nun die 10 ähnlichsten Sequenzen aus der Datenbank geladen und zeigt sie im Feld RDP Sequences an.
|
||||||||||||||||||||||||||||||
| Hinweise | Benutzen Sie den Taxonomie-Browser am NIH. | ||||||||||||||||||||||||||||||
Phylip für Proteinsequenzen |
|||||||||||||||||||||||||||||||
|
Hier finden Sie
Informationen zu Servern, die im WEB Phylip-Module anbieten.
|
|||||||||||||||||||||||||||||||
| Übung | TAX_3, PHYLIP_SQR | ||||||||||||||||||||||||||||||
| Motivation |
Die
Sulfid-Chinon-Reduktase (SQR) ist ein Enzym, das für das Wachstum photo-
und chemolitoautotropher Bakterien und Archaeen, die Sulfid als
Elektronendonor verwenden, lebensnotwendig ist. Sie ist ein Teil der
Elektronentransportkette und katalysiert den ersten Schritt der
Sulfid-Oxidation. Dabei werden Elektronen von SH2 auf FAD und im
nächsten Schritt auf Chinon übertragen und letztendlich zur Reduktion
von NAD+ zu NADH eingesetzt. Die
SQR ist ein membrangebundenes Protein. In den meisten untersuchten
Organismen ist sie in die Membran integriert, nur in Rhodobacter
capsulatus lässt sie sich relativ leicht von der Membranfraktion
trennen und ist wahrscheinlich nur oberflächlich auf der
extrazellulären Seite an die Membran gebunden. Der Schwefelwasserstoff
gelangt von außen an die Zellen und so direkt an die SQR. Der
entstehende elementare Schwefel wird außerhalb der Zellen abgelagert. SQR
kommt auch in Eukaryonten vor. Falls die Sequenzen eukaryontischer SQR-Gene alle geclustert liegen, ist dies ein Hinweis auf einen gemeinsamen Vorfahren. Eine Quelle könnten mitochondriale Endosymbionten sein. Der Untersuchung der genannten Hypothese dient diese Übung.
|
||||||||||||||||||||||||||||||
| Teil 1 |
Benutzen Sie hierfür das geeignete Programm, das von einem der relevanten Server angeboten wird. Generieren Sie zunächst ein multiples Sequenzalignment (MSA) unter Verwendung von Clustal und stellen Sie als Ausgabeformat Phylip ein. Übernehmen Sie das von Ihnen generierte MSA oder zur Not dieses hier in das Eingabefenster des Programms und stoßen Sie die Ableitung eines taxonomischen Baumes an. Das Programm liefert eine grobe, textbasierte Darstellung der Resultate. Sie können aber auch die Ergebnisse in das Programm Phylodendron TreePrint per copy and paste übernehmen und dann unterschiedliche Arten der Darstellung wählen. Analysieren Sie den Baum. Erscheinen Ihnen die einzelnen Teilcluster sinnvoll in ihrer Zusammenstellung? Sehen Sie phylogenetische Verwandtschaften? Welche Spezies liegen extrem? Können Sie diese Stellung erklären? Ändert sich der Baum, wenn sie diese Spezies als outgroup wählen? |
||||||||||||||||||||||||||||||
| Teil 2 | Das Programm T-Coffee gilt als besser im Hinblick auf das Alignment
weniger gut übereinstimmender Sequenzen. Generieren Sie mit T-Coffee ein
Alignment und werten Sie es wiederum mit dem Parsimony-Ansatz aus.
Server, die T-Coffee anbieten, finden Sie per Suchmaschine oder indem Sie diesen Link benutzen. |
||||||||||||||||||||||||||||||
| Hinweise | Im Falle von Fehlermeldungen sollten Sie sich die von T-Coffee
gelieferte Ausgabe ansehen. Entspricht Sie den Phylip-Spezifikationen? Bitte kürzen Sie in der von T-Coffee generierten Ausgabe die
Speziesnamen auf max. 10 Zeichen und führen Sie ein Leerzeichen ein.
Falls Sie gar nicht zurechtkommen: Hier finden Sie ein von T-Coffee generiertes MSA. |
||||||||||||||||||||||||||||||
|
|||||||||||||||||||||||||||||||
|
Sind die Ergebnisse ein Beweis
für die oben eingeführte Hypothese? Einen großen Teil der Arbeit für diese Analyse haben wir Ihnen erspart. Der meiste Aufwand steckt in der Zusammenstellung der Sequenzen, die bei taxonomischen Untersuchungen ausgewertet werden. |
|||||||||||||||||||||||||||||||
|
|||||||||||||||||||||||||||||||
Distanzbasierte Verfahren |
|||||||||||||||||||||||||||||||
| Zu den einfachsten phylogenetischen Verfahren zählen die distanzbasierten. Mit den folgenden Übungen wollen wir deren Möglichkeiten und Grenzen ausloten. | |||||||||||||||||||||||||||||||
| Übung | DIST_1, UPGMA | ||||||||||||||||||||||||||||||
Es seien die folgenden homologen Sequenzen gegeben, die
aus vier Spezies stammen mögen:
Es sei die Anzahl der Unterschiede in den Sequenzen ein Maß für die taxonomische Distanz zwischen den Spezies.
|
|||||||||||||||||||||||||||||||
| Schritt 1: Distanzmatrix | Legen Sie zunächst eine Matrix an, in der Sie in den Zellen jeweils die Anzahl unterschiedlicher Symbole eintragen: | ||||||||||||||||||||||||||||||
Da die Matrix symmetrisch ist, genügt es, die obere Hälfte auszufüllen. Mit d(GCGG,ACGG) = 1 ist die Distanz zwischen den beiden Sequenzen gemeint, die in die entsprechende Zelle eingetragen ist. |
|||||||||||||||||||||||||||||||
| Schritt 2: Suche nach Cluster C1 |
Suchen Sie die beiden Sequenzen, die voneinander den kleinsten Abstand haben und vereinigen Sie diese zu einem Cluster C1, das auch den ersten Teilbaum definiert. Berechnen Sie dann die Distanzen von C1 zu allen anderen Sequenzen neu. | ||||||||||||||||||||||||||||||
| Im obigen Fall haben GCGG und ACGG voneinander den kleinsten Abstand
(1). Der neue Abstand d(C1,X) zu allen anderen Sequenzen X (Clustern) ergibt sich dann aus d(C1,X) = 1/2[d(GCGG,X)+d(ACGG,X)] Tragen Sie die Werte in eine reduzierte Distanzmatrix ein: |
|||||||||||||||||||||||||||||||
|
|||||||||||||||||||||||||||||||
| Schritt 3: Suche nach Cluster C1 |
Suchen Sie wiederum den kürzesten Abstand, vereinige die Elemente zu neuen, größere Cluster und bestimmen Sie die Distanzen. Stellen Sie den Baum fertig. | ||||||||||||||||||||||||||||||
| Dieses Verfahren wird als UPGMA Methode (Unweighted Pair Group
Method with Arithmetic mean) bezeichnet.
|
|||||||||||||||||||||||||||||||
| Übung | DIST_2, UPGMA_2 | ||||||||||||||||||||||||||||||
| Es seine vier Arten gegeben, die durch den folgenden phylogenetischen Stammbaum repräsentiert sein sollen: | |||||||||||||||||||||||||||||||
|
|||||||||||||||||||||||||||||||
| Die Distanzen werden jeweils symmetrisch auf die Teilpfade verteilt. Wir nehmen nun an, dass sich Art B z. B. aufgrund von starkem Selektionsdruck sehr schnell wandelt. Die phylogenetischen Verhältnisse bleiben natürlich noch die gleichen, aber nach einer gewissen Zeit ergibt sich aus den betrachteten Merkmalen (z. B. Sequenzen) die folgende Distanzmatrix: | |||||||||||||||||||||||||||||||
|
|||||||||||||||||||||||||||||||
|
|||||||||||||||||||||||||||||||
| Einsicht | Insbesondere die UPGMA Methode ist sehr anfällig gegenüber unterschiedlichen Evolutionsraten in den einzelnen Ästen des Baumes. Zur Absicherung der Ergebnisse wurden statistische Verfahren eingeführt und robustere Algorithmen entwickelt. Eine Möglichkeit der Validierung besteht in der Einführung einer outgroup. | ||||||||||||||||||||||||||||||
| Ausblick |
Zusätzlich sind in der Taxonomie statistische Tests eingeführt, die die Plausibilität der Ergebnisse hinterfragen bzw. gewichten. Die zwei wichtigsten Ansätze sind der Jackknife und das Bootstrapping. Beide Verfahren beruhen auf dem
folgenden Prinzip: |
||||||||||||||||||||||||||||||
| Übung | DIST_3 | ||||||||||||||||||||||||||||||
| Wir benutzen im folgenden eine Software, die an der Universität
Bielefeld entstand. Sie enthält einige Methoden, wie die SplitsTrees,
die wir erst später näher betrachten wollen. Im Moment nutzen wir die
Standardverfahren. Das Manual zu diesem Programm finden Sie
hier.
Bitte laden Sie die Software von dieser Site und installieren Sie das Paket. Hier finden Sie im NEXUS-Format, das für taxonomische Anwendungen häufiger benutzt wird, eine Zusammenstellung von Sequenzen aus höheren Säugern. Schneiden Sie eine Sequenz z.B. die humanen Ursprungs aus und stellen Sie durch BLASTEN fest, woher sie stammt. Speichern Sie diese Datei in einem lokalen Verzeichnis ab. Ignorieren Sie im Moment die resultierende Ausgabe, stellen Sie unter dem Pulldown-Menü Methods NJ für Neighbour-Joining ein und starten sie die Generierung des Taxonomiebaumes durch Drücken der Taste Apply.
|
|||||||||||||||||||||||||||||||
| Hinweise | Merkmale, statistische Tests. | ||||||||||||||||||||||||||||||
| Übung | DIST_4, Bootstrapping | ||||||||||||||||||||||||||||||
| Laden Sie die Datei \splitstree\bees.nex, die
Teil des Splitstrees-Paketes ist. Stellen Sie zunächst fest, um welche Sequenzen aus welchen Spezies es sich handelt. Aktivieren Sie hierzu den Reiter Source und betrachten Sie den Teil des Datensatzes, in dem die Sequenzen angegeben sind. Der gesamte Datensatz liegt im NEXUS-Format vor, dass für taxonomische Datensätze häufig verwendet wird. |
|||||||||||||||||||||||||||||||
| Hinweise | Benutzen Sie BLAST und den Taxonomie-Browser
Sie können die erste Sequenz des Datensatzes in einer einzigen Zeile ausgeben, wenn nach Wahl des Reiters "Source" im Pulldown-Menü View den Befehl Characters auswählen und Interleave deaktivieren. |
||||||||||||||||||||||||||||||
Wechseln Sie durch Betätigen des Reiters Network in die
Grafik-Ausgabe.
|
|||||||||||||||||||||||||||||||
| Experiment A | Wählen Sie unter Trees die Methode UPGMA achten Sie auf die Lage der einzelnen Zweige (Spezies) zueinander. | ||||||||||||||||||||||||||||||
| Experiment B | Eine verfeinerte Methode, die zur Korrektur unterschiedlicher Evolutionsgeschwindigkeiten entwickelt wurde, wird als Neighbour-Joining bezeichnet. Wählen Sie diese mit NJ (für Neighbour-Joining) aus und vergleichen Sie den resultierenden Baum mit dem aus der vorherigen Analyse. Wie unterscheiden Sie sich? | ||||||||||||||||||||||||||||||
Wählen Sie unter Analysis/Bootstrap den Bootstrap-Modus aus und geben Sie einen Wert von 1000 für die Anzahl der Iterationen ein. Machen Sie sich die Bedeutung der Zahlen klar, mit denen die Kanten markiert werden. Wo finden Sie die niedrigsten Zahlenangaben, vergleichen Sie diese mit den Unterschieden in den Taxonomiebäumen zu Experiment A und B. |
|||||||||||||||||||||||||||||||
| Übung | DIST_5, SplitsTree | ||||||||||||||||||||||||||||||
| Ein alternativer Ansatz zur Darstellung sich möglicherweise widersprechender taxonomischer Signale ist der SplitsTree-Algorithmus, der immer dann Teil-Bäume als Geflecht darstellt, wenn keine eindeutige Baumstruktur ableitbar ist. Im folgenden Experiment vergleichen Sie dieses Konzept mit den oben eingeführten. | |||||||||||||||||||||||||||||||
Wählen Sie /Methods/SplitDecomposition und starten Sie die Auswertung. Stoßen Sie anschließend das Bootstrap-Verfahren an und vergleichen Sie die Lage der "Netze", d. h. der Bäume und die Höhe der Bootstrap-Werte. Welche Übereinstimmung können Sie ableiten? |
|||||||||||||||||||||||||||||||
Kladistische Verfahren |
|||||||||||||||||||||||||||||||
| Übung | KLAD_1, Papier+Bleistift | ||||||||||||||||||||||||||||||
| Konzept verstehen | Hier finden Sie einen Datensatz von DNA-Sequenzen. | ||||||||||||||||||||||||||||||
|
|||||||||||||||||||||||||||||||
|
|||||||||||||||||||||||||||||||
| Jede Mutation soll mit gleichen "Kosten" bewertet werden.
|
|||||||||||||||||||||||||||||||
| Übung | KLAD_2, PHYLIP_DNA | ||||||||||||||||||||||||||||||
|
Einen ausführliche Beschreibung von Phylip finden Sie hier auf der Homepage des Programmpaketes. Verschaffen Sie sich zunächst einen Überblick zum Funktionsumfang der Software. |
|||||||||||||||||||||||||||||||
| Vorgehensweise, Überlegungen |
Welches Programm müssen Sie wählen, wenn Sie einen Parsimony-Ansatz
nutzen wollen? Welches für einen Maximum-Likelihood Ansatz? Welches Datenformat benötigt das Programm, wie generieren Sie ihn? Skizzieren Sie eine Vorgehensweise, um eine outgroup zu generieren. Denken Sie an den BLAST-Server und die Möglichkeiten, in dessen Ausgabe Sequenzen auszuwählen und darstellen zu lassen.
|
||||||||||||||||||||||||||||||
|
Hier finden Sie
Informationen zu Servern, die im WEB Phylip Module anbieten.
|
|||||||||||||||||||||||||||||||
|
|||||||||||||||||||||||||||||||
| Hier finden Sie den Datensatz bees in einem
anderen Datenformat, das von den oben angegebenen
Servern akzeptiert wird.
|
|||||||||||||||||||||||||||||||
| Vergleichen Sie den Taxonomie-Baum mit dem aus DIST_4.
|
|||||||||||||||||||||||||||||||
| Übung | KLAD_3, PHYLIP_PROT | ||||||||||||||||||||||||||||||
Wandeln Sie die DNA-Sequenzen des Satzes bees in Proteinsequenzen um und führen Sie eine Auswertung auf Proteinniveau durch. Erwarten Sie Unterschiede und wenn ja, warum? |
|||||||||||||||||||||||||||||||
| Hinweise | Welchen Leserahmen wählen Sie für die Konversion? | ||||||||||||||||||||||||||||||
| Übung | KLAD_4, Tryptophan-Synthase | ||||||||||||||||||||||||||||||
|
Die Tryptophan-Operon ist eines der am besten untersuchen Operons. In E. coli findet sich die hier dargestellte Genabfolge. Die Tryptophan-Synthase ist ein Heterodimer, das aus den Untereinheiten A und B besteht.
|
|||||||||||||||||||||||||||||||
| Vorgehensweise | Extrahieren Sie aus den folgenden Genomen Proteinsequenzen für die
genannten Untereinheiten:
Berechnen Sie für beide Untereinheiten jeweils einen Baum nach dem Neighbour-Joining- und einem kladistischen Verfahren. Diskutieren Sie Ihre Ergebnisse. |
||||||||||||||||||||||||||||||
Was Sie jetzt wissen sollten |
Distanzbasierte, Maximum-Likelihood- und Parsimony-Verfahren machen einen großen Teil phylogenetischer Analysen aus. Zunehmend an Bedeutung gewinnen bayessche Verfahren, die lange Rechenzeiten erfordern. Ein derartiges Paket ist PhyloBayes, das Sie hier finden. | ||||||||||||||||||||||||||||||