| Warum ist dieses Wissen wichtig? | DNA-Chip-Experimente gehören zu den wichtigsten
Hochdurchsatz-Verfahren in der Molekularbiologie. Mit einem einzigen
DNA-Chip kann die Expression aller Gene eines Organismus unter
verschiedenen Bedingungen untersuchen werden (z.B. verschiedene Gewebe,
verschiedene Lebensumstände). Zur Auswertung von Microarray-Experimenten ist nicht wenig Bioinformatik nötig: Zum Auslesen der Chips werden Bildverarbeitungsroutinen verwendet, die aus den Aufnahmen der Chips die Rohdaten extrahieren. Die Rohdaten müssen normalisiert werden, um experimentelle Schwankungen auszugleichen. Ergebnisse sind statistisch abzusichern. Schließlich gibt es aufwendige Cluster-Verfahren, um aus den Ergebnissen mehrerer Chip-Experimente auf funktionelle Zusammenhänge zwischen verschiedenen Genen zu schließen. |
||
| Bezug | Die theoretischen Grundlagen finden Sie im Kapitel 23 "Auswertung von Genexpressionsdaten". | ||
Lernziel |
|
||
| Übung | DNA_Chip_1 | ||
| Stellen Sie sich folgendes vor: Sie arbeiten an der
Aufklärung der Funktion uncharakterisierter Proteine und interessieren
sich speziell für die E. coli Proteine YfaE, YigN und YlbG. (Die
Namen von Proteinen unbekannter Funktion beginnen bei E. coli
immer mit „Y“). Sie wollen nachsehen, ob schon Expressionsstudien der
zugehörigen Gene gemacht wurden. Eine Datenbank, in der
Genexpressions-Daten gesammelt werden, ist GEO (Gene Expression Omnibus)
am NCBI. |
|||
| GEO-Datenbank | Die Einstiegsseite zur GEO Datenbank am NCBI finden Sie hier. | ||
| Machen Sie sich
zunächst hier mit der Terminologie der Datenbank vertraut. Mit
welcher Eingabemaske müssen Sie suchen? |
|||
|
|||
| Fragen | Was bedeuten die roten Balken und blauen Punkte in den
grafischen Expressionsprofilen? Unter welchen Bedingungen ändert sich das Expressionsniveau der drei Gene signifikant? Können Sie Rückschlüsse auf eine mögliche Funktion der Proteine ziehen? Können Sie eine Aussage dazu treffen, ob die Gene unter diesen Bedingungen auf unterschiedliche Weise reguliert werden? |
||
| Übung | DNA_Chip_2 | ||
| Datengrundlage | Die folgenden beiden Übungen arbeiten mit synthetischen
Datensätzen, die speziell dafür generiert wurden, die Einarbeitung in
die Prozessierungsverfahren zu erleichtern. Wir bedanken uns hiermit ganz herzlich bei den Mitarbeitern des Craig
Venter Instituts für die Überlassung der Datensätze. Diese bestehen aus
normalisierten Verhältniswerten (log-ratios). Die Datensätze interpretieren wir wie folgt: Der Datensatz besteht aus 24 Zeilen, die Expressionsdaten von 24
Genen repräsentieren. |
||
| Programm installieren und starten |
Laden und installieren Sie zunächst das Programm Mev,
dass Sie hier finden. Starten Sie MeV. Die
zwei Fenster von MeV sind der MultiExperiment Viewer und der für uns
wichtigere
Multiple Array Viewer.
|
||
| Expressionsdaten übertragen und laden | Sichern Sie in ein Verzeichnis Ihrer Wahl diesen ersten
Datensatz simple_experiment.txt. Laden Sie ihn anschließend mit File/Load Data. Das Programm wartet darauf, dass Sie den Expressionswert markieren, der in der Tabelle links oben liegt. Dieser Wert gehört zu Sample 1 und das betreffende Gen hat den Namen J50. Klicken Sie auf die betreffende Zelle und anschließend auf die Taste Load. |
||
| Der Inhalt des MAV hat sich verändert. Im linken
Teilfenster wurde ein "Datenbaum" angelegt. Rechts sehen Sie die
Rohdaten. Da es sich hier um ein Zweifarbenexperiment handelt, variieren
die Farbdarstellungen von sattem Grün bis zu sattem Rot. Im Folgenden nennen wir das linke Fenster Objektfenster und das rechte Ergebnisfenster. |
|||
| Oberfläche kennenlernen | Machen Sie sich mit der Oberfläche vertraut: Klicken Sie
auf einzelnen Datenpunkte im Ergebnisfenster und sehen Sie nach, welche
Informationen pro Datum gespeichert sind. Wie ist die Struktur der
Matrix? Wie viele Gene wurden unter welchen Bedingungen vermessen? Verändern sie die Darstellungsart: Mit Display/Set Element Size/50 x 10 können sie die Darstellung vergrößern. |
||
|
|||
| Klicken Sie zur Beantwortung auf den Spot, der zu G40-Wert in Sample 1 gehört und drücken Sie im Fenster Spot Information die Taste Gene Graph. Was stellt die Grafik dar? | |||
| Hierarchisches Clustern starten | Klicken Sie auf die Taste Clustering, wählen Sie Hierarchical Clustering, und Clustern Sie mit Default Einstellungen. | ||
| Im Objektfenster ist ein neuer Eintrag HCL(1) angelegt worden. Klicken sie auf HCL und dann auf das Icon HCL Tree. | |||
| Interpretieren Sie die Ausgabe. Es sind ein Genbaum (Gene Tree) und ein Experimentbaum (Sample Tree) berechnet worden. | |||
| Ergebnis bewerten |
|
||
| Gengruppen bilden | Klicken Sie vor leerem Hintergrund im Ergebnisfenster auf die rechte Maustaste, um ein Matrix-spezifisches Menu anzuzeigen. Wählen Sie GeneTree Properties und ändern Sie unter Verwendung des Reglers den Distance Threshold so, dass die Gene in 4 Gruppen aufgeteilt werden. Achten Sie hierbei auf die Chip-Matrix und die Größe der entstehenden blauen Dreiecke. Schließen Sie das Fenster mit OK. | ||
| Gengruppen bilden
|
Klicken Sie mit der Maus so auf einen Knoten des Genbaumes, dass jeweils eine Gruppe von Genen selektiert wird, die sie im letzten Schritt festgelegt haben. Die Farbe des ausgewählten Teilbaumes wechselt zu rot. Mit rechtem Mausklick und der Wahl des Befehles Store Cluster können Sie eine Gruppe benennen und markieren. Den Gruppen werden unterschiedliche Farben zugewiesen, die im Ergebnisfenster gezeigt werden. | ||
| Bilden Sie vier Gruppen und kontrollieren Sie die Ausgabe. Falls Sie sich vertun, können Sie mit entsprechenden Befehlen eines oder alle Cluster löschen. | |||
| Hauptkomponenten analyse |
Die Auswertung von DNA-Chips zielt häufig darauf ab, Gene in Gruppen zu sortieren und anschließend Gemeinsamkeiten festzustellen. Eine Methode, um eine geeignete Anzahl von Gruppen zu bestimmen, ist die Hauptkomponentenanalyse. | ||
| Wählen Sie im Menü Data Reduction/Principal Component Analysis und starten Sie das Programm mit den vorgeschlagenen Einstellungen. | |||
| Im Objektfenster wurde der Eintrag PCA angelegt. Wählen Sie
PCA/Projections
on PC axes /Components 1,2,3 und dann 3D View. Die
Darstellung im Ergebnisfenster hat sich verändert.
Interpretieren Sie das Ergebnis durch Vergleich mit der Gruppenbildung, die Sie vorher festgelegt haben. Durch das Klicken auf eine der Achsen können Sie die Projektion verändern. |
|||
|
|||
| Daten filtern | Chip-Daten sind in der Regel verrauscht und müssen gefiltert werden. Unter dem Menüeintrag Adjust Data finden sich entsprechende Routinen. | ||
| Wählen Sie den Varianz Filter und wählen Sie die 45% der Gene mit den auffälligsten Standardabweichungen. | |||
| Es ist ein weiterer Eintrag im Objektfenster entstanden. Klicken Sie auf /Data Filter/Expression Image und interpretieren Sie das Ergebnis. Vergleichen Sie mit der Darstellung von HCL (1). | |||
|
|||
| Statistische Absicherung | Die hierarchische Clusterung der Samples hat ergeben, dass die
Bedingungen (Samples) 1-4 und 5-10 zwei Gruppen bilden. Es stellt sich
die Frage, welche Gene unter diesen Bedingungen statistisch
auffällige Expressionsmuster zeigen. Dies wollen wir mit einem t-Test untersuchen. |
||
| Wählen Sie Statistics/t Tests und dann den Reiter
Between
subjects. Verteilen Sie die Proben auf zwei Gruppen: Gruppe A:
Samples 1-4, Gruppe B: Samples 5-10, die restlichen Samples
sollten keiner Gruppe angehören. |
|||
| Es ist ein weiterer Eintrag T Tests im Objektfenster hinzugekommen. Studieren Sie unter Expression Graphs die Kurven für Significant Genes und Non-Significant Genes. Vergleichen Sie die Kurven. | |||
|
|||
| Übung | DNA_Chip_3 | ||
| Schließen Sie den aktuellen MAV und starten Sie einen neuen MAV. | |||
| Laden Sie nun den Datensatz
TDMS_sample.txt, indem
Sie ihn zunächst sichern und dann laden. Wie viele Gene umfasst der Datensatz? Im Objektfenster unter History finden sie im Logfile entsprechende Angaben. |
|||
| Wir wollen uns zunächst einen Überblick über die Variabilität in den Daten verschaffen und führen wie oben beschrieben eine PCA aus. | |||
|
|||
| Bitte beachten Sie, dass Sie es hier mit artifiziellen Daten zu tun haben. Bei realen Datensätzen werden die Gruppen deutlich überlappen. | |||
| Nichtsignifikante Werte ausfiltern | Um statistisch nicht signifikante Werte zu eliminieren, benutzen wir wiederum den Varianz Filter. Er ist unter Adjust Data, Data Filters zu finden. Wir wählen 50% der Werte. | ||
| Anschließend führen wir wiederum eine PCA aus. | |||
|
|||
| Einfluss der Distanzfunktion bewerten | Analysieren Sie nun den Datensatz indem Sie jeweils
hierarchisch Clustern und jedesmal Optimize Gene Leaf
Order
und Optimize Sample Leaf Order wählen. Benutzen Sie beim ersten Experiment als Metrik die Euklidsche und beim zweiten Mal die Pearson Korrelation. Vergleichen Sie die Matrizen miteinander. Wie unterscheiden sich die Cluster? Vergleichen Sie einige Gen Graphs miteinander. |
||
|
|||
| Eine Alternative zu Clusterverfahren ist eine
Selbstorganisierende Karte nach Kohonen. Wählen Sie unter Clustering
die Methode Self Organizing Map und clustern Sie die Gene mit
Standardeinstellungen.
Analysieren Sie anschließend das Ergebnis. Verwenden Sie hierzu im Objektfenster den Eintrag SOM - genes und vergleichen Sie die Expression Graphs. Unter All Clusters sind alle Graphen zusammengefasst. |
|||
| Lassen Sie nochmals eine SOM berechnen. Verwenden Sie
aber jetzt als Metrik Pearson Squared.
Analysieren Sie die Expression Graphs/ All CLusters. |
|||
|
|||
| Übung | DNA_Chip_4 | ||
| Affymetrix Datensatz laden | In dieser Übung verwenden wir das erste Mal einer realen Datensatz.
Es ist in der Geo Datenbank abgelegt unter der Accession Number GDS2462. Schließen Sie den aktuellen MAV und starten Sie einen neuen. Laden Sie den Datensatz. Die Datei heißt GDS2462.txt Bitte beachten Sie beim Einlesen, dass Sie beim Filetype jetzt Affymetrix Array angeben müssen. In diesem Experiment werden zwei Medien (welche?) getestet, und jedes Experiment ist zweimal ausgeführt (Namen der Samples?) |
||
| Aufgabe | Sie sollen diejenigen Gene finden, deren Expression sich unter den beiden experimentellen Bedingungen am stärksten ändert. | ||
| Daten Filtern | Bitte filtern Sie die Daten mit dem Affymetrix p-value Filter. | ||
| Anschließend führen Sie bitte eine t-Test aus. | |||
| Parameter setzen | Wählen Sie den Reiter between subjects und
verteilen Sie die vier Datensätze so auf die Gruppen, dass jeweils die
selben experimentellen Bedingungen zur gleichen Gruppe gehören.
Setzen Sie unter P-Value-Parameter den critical p-Value auf 0.05 und lassen Sie unter Hierarchical Clustering für die signifikanten Gene einen hierarchischen Baum zeichnen. Starten Sie den Test durch Klicken auf OK. |
||
| Ergebnisse interpretieren | Im Objektfenster ist ein Eintrag T Test angelegt worden. Betrachten Sie unter Hierarchical Trees/Significant Genes die Clusterstruktur. | ||
| Hinweis | Sie erleichtern sich die Arbeit, wenn Sie
Display/Set Element Size/50 x 10 wählen und
Display/Gene Row
Labels auf Label by Identifier setzen.
|
||
|
|||
| Wählen Sie fünf Gene aus. Gibt es unter den statistisch auffälligen Genen solche, die beim Substart Glucose hohe und bei Galactose niedrige Expressionswerte besitzen? |
|||
| Studieren Sie jetzt die statistische Analyse. Unter
T Tests/Table Views/Significant genes finden sie die jeweiligen
p-Werte. Durch Klicken auf die Spaltenüberschrift können Sie die Tabelle
sortieren. Welche p-Werte haben die von Ihnen identifizierten Gene? |
|||
| Bonferroni Korrektur | Da wir hier den t-Test mehr als 8000 Mal durchführen,
müssen die kritischen Werte angepasst werden. Führen Sie nochmals einen t-Test wie oben beschrieben aus, wählen Sie als kritischen p-Wert 0.25 und bei P-Value/False Discovery Correction die Bonferroni Korrektur und lassen Sie für Alle Cluster einen hierarchischen Baum zeichnen. |
||
|
|||
| Übung | DNA_Chip_5 | ||
| Die Expressionsstudien werden dann besonders wertvoll, wenn aus den
Ergebnissen Hinweise auf eine gemeinsame Funktion einer Gruppe von Genen
abgeleitet werden kann. Dazu müssen für jeden Chip umfangreiche
Annotationsdateien angelegt werden. Verwendet man kommerziell
erhältliche Chips, werden diese Dateien vom Lieferanten angeboten. Im
folgenden Experiment werten wir Daten aus, die unter Verwendung des
Human Genome Chip U133 erzeugt wurden. Im Experiment wurden die
Genexpression von 19 Zelllinien
aus Prostata Gewebe untersucht. Davon sind 6 aus benignem und 6 aus malignem Gewebe
kultiviert worden. Wir sind daran interessiert, solche Zellfunktionen zu
identifizieren, deren Aktivität sich auffällig ändert. Hier finden Sie den GEO-Eintrag des Datensatzes. |
|||
| Datensatz laden | Schließen Sie den aktuellen MAV und starten Sie einen neuen. Sichern Sie zunächst den Datensatz affy_U133plus2_dataset.txt, die Annotationsdatei Affy_HG-U133_plus2.txt und tumors.groups.
Laden Sie den Datensatz affy_U133plus2_dataset.txt. Klicken Sie wie gewohnt auf den ersten Eintrag der Expression table und laden Sie den Datensatz. |
||
| Signifikante Gene wählen |
Benutzen Sie Adjust Data/Data Filters/Varianz Filter/ um die 50% der Gene mit der größten Varianz zu wählen. Führen Sie anschließend einen t-Test durch, um die Gene zu finden, deren Expressionsmuster sich zwischen den benignen und malignen Geweben am stärksten unterscheiden. Wählen Sie Statistics/t-Tests. Klicken Sie auf den Reiter Hierarchical Clustering und lassen Sie sich für alle Cluster einen Baum erzeugen. Klicken Sie jetzt auf OK, um den Test zu starten. |
||
|
Es ist ein neuer Eintrag T Tests im Objektfenster entstanden Studieren sie den Hierarchischen Baum für die Signifikanten Gene. |
|||
| Überexprimierte Gene auswählen |
Selektieren Sie die Menge von Genen, deren Aktivität in den malignen Tumoren abnimmt. Klicken Sie mit der Maus in den zugehörigen Teilbaum des Gene trees. Damit werden die Gene selektiert. Ohne die Maus zu bewegen, klicken Sie bitte auf die rechte Maustaste. Wählen Sie aus dem Menü den Befehl Store Cluster und erzeugen sie ein Cluster. Überprüfen Sie, ob die richtigen Gene ausgewählt sind. Die Auswahl wird durch einen farbigen Balken angezeigt. Zur Not können Sie Cluster löschen und neu selektieren. |
||
| Gemeinsame Funktion bestimmen |
Wählen Sie im Menü Meta Analysis den Befehl EASE Cluster Analysis. Wählen Sie im Feld Population Selection: Select background population from Current Viewer. Klicken Sie auf den Reiter Annotation Parameters. Klicken Sie auf Add Files. Starten Sie anschließend die Analyse. |
||
| Ergebnisse interpretieren |
Im Objektfenster ist ein neuer Eintrag EASE Analysis angelegt. Klicken Sie auf den Eintrag. Studieren Sie die Einträge des Table Viewers und interpretieren Sie die Einträge |
||
|
|||
Was Sie jetzt verstanden haben sollten |
Für die Auswertung von Transkriptomdaten ist eine aufwendige Software-Pipeline notwendig. Daten müssen zunächst gefiltert werden um diejenigen zu identifizieren, die statistisch auffällige Signale aufzeigen. Für die sich anschließende Auswertung eigenen sich Cluster- oder Korrelationsverfahren. Ein besonderes Problem ist der große Umfang der Datensätze, der bei der statistischen Analyse beachtet werden muss. | ||