Warum ist dieses Wissen wichtig? DNA-Chip-Experimente gehören zu den wichtigsten Hochdurchsatz-Verfahren in der Molekularbiologie. Mit einem einzigen DNA-Chip kann die Expression aller Gene eines Organismus unter verschiedenen Bedingungen untersuchen werden (z.B. verschiedene Gewebe, verschiedene Lebensumstände).

Zur Auswertung von Microarray-Experimenten ist nicht wenig Bioinformatik nötig:
Zum Auslesen der Chips werden Bildverarbeitungsroutinen verwendet, die aus den Aufnahmen der Chips die Rohdaten extrahieren. Die Rohdaten müssen normalisiert werden, um experimentelle Schwankungen auszugleichen. Ergebnisse sind statistisch abzusichern.
Schließlich gibt es aufwendige Cluster-Verfahren, um aus den Ergebnissen mehrerer Chip-Experimente auf funktionelle Zusammenhänge zwischen verschiedenen Genen zu schließen.
Bezug Die theoretischen Grundlagen finden Sie im Kapitel 23 "Auswertung von Genexpressionsdaten".

Lernziel

Nach dem Bearbeiten der Übung sollten Sie
  • eine Datenbank für Microarray-Experimente kennen,,
  • mit einem Programm zur Auswertung von Chip-Daten umgehen können
  • die wichtigsten Verfahren zur Analyse von Expressionsdaten kennen.
 
   
Übung DNA_Chip_1
   
Stellen Sie sich folgendes vor:

Sie arbeiten an der Aufklärung der Funktion uncharakterisierter Proteine und interessieren sich speziell für die E. coli Proteine YfaE, YigN und YlbG. (Die Namen von Proteinen unbekannter Funktion beginnen bei E. coli immer mit „Y“). Sie wollen nachsehen, ob schon Expressionsstudien der zugehörigen Gene gemacht wurden. Eine Datenbank, in der Genexpressions-Daten gesammelt werden, ist GEO (Gene Expression Omnibus) am NCBI.
 

GEO-Datenbank Die Einstiegsseite zur GEO Datenbank am NCBI finden Sie hier.
  Machen Sie sich zunächst hier mit der Terminologie der Datenbank vertraut. Mit welcher Eingabemaske müssen Sie suchen?
 
 
Suchen Sie nach Expressionsdaten zu den E. coli – Genen yfaE, yigN und ylbG.
 
Fragen Was bedeuten die roten Balken und blauen Punkte in den grafischen Expressionsprofilen?

Unter welchen Bedingungen ändert sich das Expressionsniveau der drei Gene signifikant?
Können Sie Rückschlüsse auf eine mögliche Funktion der Proteine ziehen?

Können Sie eine Aussage dazu treffen, ob die Gene unter diesen Bedingungen auf unterschiedliche Weise reguliert werden?

 
 
Übung DNA_Chip_2
   
Datengrundlage Die folgenden beiden Übungen arbeiten mit synthetischen Datensätzen, die speziell dafür generiert wurden, die Einarbeitung in die Prozessierungsverfahren zu erleichtern.  Wir bedanken uns hiermit ganz herzlich bei den Mitarbeitern des Craig Venter Instituts für die Überlassung der Datensätze. Diese bestehen aus normalisierten Verhältniswerten (log-ratios).

Die Datensätze interpretieren wir wie folgt:
Wir nehmen an, dass wir eine Zeitreihe auswerten, dass also zu 10 Zeitpunkten Expressionswerte vermessen worden sind. Jede Spalte (Sample) steht also für einen Zeitpunkt.

Der Datensatz besteht aus 24 Zeilen, die Expressionsdaten von 24 Genen repräsentieren.
Jeder Zelleneintrag ist das Verhältnis der Gen-Expressionsniveaus eines Wildtyps und jeweils der selben Mutante.

Programm installieren und starten
Laden und installieren Sie zunächst das Programm Mev, dass Sie hier finden.

Starten Sie MeV.

Die zwei Fenster von MeV sind der MultiExperiment Viewer und der für uns wichtigere Multiple Array Viewer.
Letzterer dient dazu, Expressionsdaten auszuwerten.

Die im Folgenden erklärten Befehle beziehen sich immer auf Menüs des Multiple Array Viewers. Dieser Name wird im Folgenden mit MAV abgekürzt.

Expressionsdaten übertragen und laden Sichern Sie in ein Verzeichnis Ihrer Wahl diesen ersten Datensatz simple_experiment.txt.
Laden Sie ihn anschließend  mit File/Load Data.

Das Programm wartet darauf, dass Sie den Expressionswert markieren, der in der Tabelle links oben liegt. Dieser Wert gehört zu Sample 1 und das betreffende Gen hat den Namen J50. Klicken Sie auf die betreffende Zelle und anschließend auf die Taste Load.

  Der Inhalt des MAV hat sich verändert. Im linken Teilfenster wurde ein "Datenbaum" angelegt. Rechts sehen Sie die Rohdaten. Da es sich hier um ein Zweifarbenexperiment handelt, variieren die Farbdarstellungen von sattem Grün bis zu sattem Rot.

Im Folgenden nennen wir das linke Fenster Objektfenster und das rechte Ergebnisfenster.

Oberfläche kennenlernen Machen Sie sich mit der Oberfläche vertraut: Klicken Sie auf einzelnen Datenpunkte im Ergebnisfenster und sehen Sie nach, welche Informationen pro Datum gespeichert sind. Wie ist die Struktur der Matrix? Wie viele Gene wurden unter welchen Bedingungen vermessen?

Verändern sie die Darstellungsart: Mit Display/Set Element Size/50 x 10 können sie die Darstellung vergrößern.

 
Wie verändert sich das Expressionsverhältnis für das Gen G40 innerhalb der 10 Samples?
Übernehmen Sie den größten und den kleinsten Ratio-Wert in ein Protokoll.
  Klicken Sie zur Beantwortung auf den Spot, der zu G40-Wert in Sample 1 gehört und drücken Sie im Fenster Spot Information die Taste Gene Graph. Was stellt die Grafik dar?
Hierarchisches Clustern starten Klicken Sie auf die Taste Clustering, wählen Sie Hierarchical Clustering, und Clustern Sie mit Default Einstellungen.  
  Im Objektfenster ist ein neuer Eintrag HCL(1) angelegt worden. Klicken sie auf HCL und dann auf das Icon HCL Tree.
  Interpretieren Sie die Ausgabe. Es sind ein Genbaum (Gene Tree) und ein Experimentbaum (Sample Tree) berechnet worden.  
Ergebnis bewerten
Welche Gruppierungen schlagen die beiden Bäume vor? Welche Gene bilden die auffälligsten Gruppen?
 
     
Gengruppen bilden Klicken Sie vor leerem Hintergrund im Ergebnisfenster auf die rechte Maustaste, um ein Matrix-spezifisches Menu  anzuzeigen. Wählen Sie GeneTree Properties und ändern Sie unter Verwendung des Reglers den Distance Threshold so, dass die Gene in 4 Gruppen aufgeteilt werden. Achten Sie hierbei auf die Chip-Matrix und die Größe der entstehenden blauen Dreiecke. Schließen Sie das Fenster mit OK.  
Gengruppen bilden

 

Klicken Sie mit der Maus so auf einen Knoten des Genbaumes, dass jeweils eine Gruppe von Genen selektiert wird, die sie im letzten Schritt festgelegt haben. Die Farbe des ausgewählten Teilbaumes wechselt zu rot. Mit rechtem Mausklick und der Wahl des Befehles Store Cluster können Sie eine Gruppe benennen und markieren. Den Gruppen werden unterschiedliche Farben zugewiesen, die im Ergebnisfenster gezeigt werden.  
  Bilden Sie vier Gruppen und kontrollieren Sie die Ausgabe. Falls Sie sich vertun, können Sie mit entsprechenden Befehlen eines oder alle Cluster löschen.  
     
Hauptkomponenten
analyse
Die Auswertung von DNA-Chips zielt häufig darauf ab, Gene in Gruppen zu sortieren und anschließend Gemeinsamkeiten festzustellen. Eine Methode, um eine geeignete Anzahl von Gruppen zu bestimmen, ist die Hauptkomponentenanalyse.  
     
  Wählen Sie im Menü Data Reduction/Principal Component Analysis und starten Sie das Programm mit den vorgeschlagenen Einstellungen.  
  Im Objektfenster wurde der Eintrag PCA angelegt. Wählen Sie PCA/Projections on PC axes /Components 1,2,3 und dann 3D View. Die Darstellung im Ergebnisfenster hat sich verändert.

Interpretieren Sie das Ergebnis durch Vergleich mit der Gruppenbildung, die Sie vorher festgelegt haben.

Durch das Klicken auf eine der Achsen können Sie die Projektion verändern.

 
 
Wie viele Gruppen schlägt diese Analyse vor?
 
     
Daten filtern Chip-Daten sind in der Regel verrauscht und müssen gefiltert werden. Unter dem Menüeintrag Adjust Data finden sich entsprechende Routinen.  
  Wählen Sie den Varianz Filter und wählen Sie die 45% der Gene mit den auffälligsten Standardabweichungen.  
  Es ist ein weiterer Eintrag im Objektfenster entstanden. Klicken Sie auf /Data Filter/Expression Image und interpretieren Sie das Ergebnis. Vergleichen Sie mit der Darstellung von HCL (1).  
 
In welcher Gruppe liegen die Gene mit den auffälligsten Abweichungen? Notieren Sie die Gennamen.
 
     
Statistische Absicherung Die hierarchische Clusterung der Samples hat ergeben, dass die Bedingungen (Samples) 1-4 und 5-10 zwei Gruppen bilden. Es stellt sich die Frage, welche Gene unter diesen Bedingungen statistisch auffällige Expressionsmuster zeigen.

Dies wollen wir mit einem t-Test untersuchen.

 
  Wählen Sie Statistics/t Tests und dann den Reiter Between subjects. Verteilen Sie die Proben auf zwei Gruppen:

Gruppe A: Samples 1-4, Gruppe B: Samples 5-10, die restlichen Samples sollten keiner Gruppe angehören.
Die restlichen Standardeinstellungen können so bleiben. Starten Sie den Test.

 
  Es ist ein weiterer Eintrag T Tests im Objektfenster hinzugekommen. Studieren Sie unter Expression Graphs die Kurven für Significant Genes und Non-Significant Genes. Vergleichen Sie die Kurven.  
 
Welche Gene sind statistisch auffällig?
 
     
Übung DNA_Chip_3
     
  Schließen Sie den aktuellen MAV und starten Sie einen neuen MAV.  
  Laden Sie nun den Datensatz TDMS_sample.txt, indem Sie ihn zunächst sichern und dann laden.

Wie viele Gene umfasst der Datensatz? Im Objektfenster unter History finden sie im Logfile entsprechende Angaben.

 
  Wir wollen uns zunächst einen Überblick über die Variabilität in den Daten verschaffen und führen wie oben beschrieben eine PCA aus.  
 
Wie viele Cluster schlägt die PCA vor?
 
  Bitte beachten Sie, dass Sie es hier mit artifiziellen Daten zu tun haben. Bei realen Datensätzen werden die Gruppen deutlich überlappen.  
Nichtsignifikante Werte ausfiltern Um statistisch nicht signifikante Werte zu eliminieren, benutzen wir wiederum den Varianz Filter. Er ist unter Adjust Data, Data Filters zu finden. Wir wählen 50% der Werte.  
  Anschließend führen wir wiederum eine PCA aus.  
Wie viele Cluster werden jetzt vorgeschlagen. Was folgern sie?
     
Einfluss der Distanzfunktion bewerten Analysieren Sie nun den Datensatz indem Sie jeweils hierarchisch Clustern und jedesmal Optimize Gene Leaf Order und Optimize Sample Leaf Order wählen.

Benutzen Sie beim ersten Experiment als Metrik die Euklidsche und beim zweiten Mal die Pearson Korrelation.

Vergleichen Sie die Matrizen miteinander. Wie unterscheiden sich die Cluster? Vergleichen Sie einige Gen Graphs miteinander.

 
 
Welche Gene gruppiert der Pearsonsche Korrelationskoeffizient?
 
  Eine Alternative zu Clusterverfahren ist eine Selbstorganisierende Karte nach Kohonen. Wählen Sie unter Clustering die Methode Self Organizing Map und clustern Sie die Gene mit Standardeinstellungen.

Analysieren Sie anschließend das Ergebnis.

Verwenden Sie hierzu im Objektfenster den Eintrag SOM - genes und vergleichen Sie die Expression Graphs. Unter All Clusters sind alle Graphen zusammengefasst.

 
  Lassen Sie nochmals eine SOM berechnen. Verwenden Sie aber jetzt als Metrik Pearson Squared.

Analysieren Sie die Expression Graphs/ All CLusters.

 
 
Wie erklärt sich die Komposition der Cluster? Vergleiche Sie die letzten beiden Ergebnisse.
 
     
Übung DNA_Chip_4
     
Affymetrix Datensatz laden In dieser Übung verwenden wir das erste Mal einer realen Datensatz.

Es ist in der Geo Datenbank abgelegt unter der Accession Number GDS2462.
Machen Sie sich zunächst mit dem Inhalt des Datensatzes vertraut.

Schließen Sie den aktuellen MAV und starten Sie einen neuen.

Laden Sie den Datensatz.
Er ist hier zu finden.

Die Datei heißt GDS2462.txt

Bitte beachten Sie beim Einlesen, dass Sie beim Filetype jetzt Affymetrix Array angeben müssen.

In diesem Experiment werden zwei Medien (welche?)  getestet, und jedes Experiment ist zweimal ausgeführt (Namen der Samples?)

 
     
Aufgabe Sie sollen diejenigen Gene finden, deren Expression sich unter den beiden experimentellen Bedingungen am stärksten ändert.  
Daten Filtern Bitte filtern Sie die Daten mit dem Affymetrix p-value Filter.  
  Anschließend führen Sie bitte eine t-Test aus.  
Parameter setzen Wählen Sie den Reiter between subjects und verteilen Sie die vier Datensätze so auf die Gruppen, dass jeweils die selben experimentellen Bedingungen zur gleichen Gruppe gehören.

Setzen Sie unter P-Value-Parameter den critical p-Value auf 0.05 und lassen Sie unter Hierarchical Clustering für die signifikanten Gene einen hierarchischen Baum zeichnen.

Starten Sie den Test durch Klicken auf OK.

 
Ergebnisse interpretieren Im Objektfenster ist ein Eintrag T Test angelegt worden. Betrachten Sie unter Hierarchical Trees/Significant Genes die Clusterstruktur.  
     
Hinweis Sie erleichtern sich die Arbeit, wenn Sie Display/Set Element Size/50 x 10 wählen und Display/Gene Row Labels auf Label by Identifier setzen.

 

 
 
Für welche Gene ist das Expressionsniveaus  beim Substrat Galactose hoch und gleichzeitig bei Glucose niedrig?
 
  Wählen Sie fünf Gene aus.
Gibt es unter den statistisch auffälligen Genen solche, die beim Substart Glucose hohe und bei Galactose niedrige Expressionswerte besitzen?
 
  Studieren Sie jetzt die statistische Analyse. Unter T Tests/Table Views/Significant genes finden sie die jeweiligen p-Werte. Durch Klicken auf die Spaltenüberschrift können Sie die Tabelle sortieren.

Welche p-Werte haben die von Ihnen identifizierten Gene?

 
Bonferroni Korrektur Da wir hier den t-Test mehr als 8000 Mal durchführen, müssen die kritischen Werte angepasst werden.

Führen Sie nochmals einen t-Test wie oben beschrieben aus, wählen Sie als kritischen p-Wert 0.25 und bei P-Value/False Discovery Correction die Bonferroni Korrektur und lassen Sie für Alle Cluster einen hierarchischen Baum zeichnen.

 
 
Wie lauten jetzt  die p-Werte? Wie viele Gene sind statistisch auffällig?
 
     
Übung DNA_Chip_5
     
  Die Expressionsstudien werden dann besonders wertvoll, wenn aus den Ergebnissen Hinweise auf eine gemeinsame Funktion einer Gruppe von Genen abgeleitet werden kann. Dazu müssen für jeden Chip umfangreiche Annotationsdateien angelegt werden. Verwendet man kommerziell erhältliche Chips, werden diese Dateien vom Lieferanten angeboten. Im folgenden Experiment werten wir Daten aus, die unter Verwendung des Human Genome Chip U133 erzeugt wurden. Im Experiment wurden die Genexpression von 19 Zelllinien aus Prostata Gewebe untersucht. Davon sind 6 aus benignem und 6 aus malignem Gewebe kultiviert worden. Wir sind daran interessiert, solche Zellfunktionen zu identifizieren, deren Aktivität sich auffällig ändert.

Hier finden Sie den GEO-Eintrag des Datensatzes.

 
Datensatz laden Schließen Sie den aktuellen MAV und starten Sie einen neuen.

Sichern Sie zunächst den Datensatz affy_U133plus2_dataset.txt, die Annotationsdatei Affy_HG-U133_plus2.txt und tumors.groups.

Laden Sie den Datensatz affy_U133plus2_dataset.txt.
Wählen Sie wiederum als Chip-Typ Affymetrix-Array und laden Sie anschließend obige Annotationsdatei mit Upload annotation.

Klicken Sie wie gewohnt auf den ersten Eintrag der Expression table und laden Sie den Datensatz.

 
Signifikante Gene wählen

Benutzen Sie Adjust Data/Data Filters/Varianz Filter/ um die 50% der Gene mit der größten Varianz zu wählen.

Führen Sie anschließend einen t-Test durch, um die Gene zu finden, deren Expressionsmuster sich zwischen den benignen und malignen Geweben am stärksten unterscheiden.

Wählen Sie Statistics/t-Tests.

Klicken Sie nun auf den Reiter Between subjects und benutzen Sie load grouping 
um die Datei tumors.groups zu laden.

Klicken Sie auf den Reiter Hierarchical Clustering und lassen Sie sich für alle Cluster einen Baum erzeugen.

Klicken Sie jetzt auf OK, um den Test zu starten.

 
 

Es ist ein neuer Eintrag T Tests im Objektfenster entstanden

Studieren sie den Hierarchischen Baum für die Signifikanten Gene.

 
Überexprimierte Gene auswählen

Selektieren Sie die Menge von Genen, deren Aktivität in den malignen Tumoren abnimmt.

Klicken Sie mit der Maus in den zugehörigen Teilbaum des Gene trees. Damit werden die Gene selektiert. Ohne die Maus zu bewegen, klicken Sie bitte auf die rechte Maustaste. Wählen Sie aus dem Menü den Befehl Store Cluster und erzeugen sie ein Cluster. Überprüfen Sie, ob die richtigen Gene ausgewählt sind. Die Auswahl wird durch einen farbigen Balken angezeigt. Zur Not können Sie Cluster löschen und neu selektieren.

 
Gemeinsame Funktion bestimmen

Wählen Sie im Menü Meta Analysis den Befehl EASE Cluster Analysis.

Wählen Sie im Feld Population Selection: Select background population from Current Viewer.

Klicken Sie auf den Reiter Annotation Parameters.
Nun müssen Gene Annotation / Gene Ontology Linking Files geladen werden.

Klicken Sie auf Add Files.
Wählen Sie die drei Dateien zur GO-Ontologie und die zu den KEGG-Pathways aus und übernehmen sie die Dateien.

Starten Sie anschließend die Analyse.

 
Ergebnisse interpretieren

Im Objektfenster ist ein neuer Eintrag EASE Analysis angelegt. Klicken Sie auf den Eintrag.

Studieren Sie die Einträge des Table Viewers und interpretieren Sie die Einträge

 
 
Welche KEGG-Pfade sind auffällig überrepräsentiert? Welche zellulären Komponenten?
 
     

Was Sie jetzt verstanden haben sollten

Für die Auswertung von Transkriptomdaten ist eine aufwendige Software-Pipeline notwendig. Daten müssen zunächst gefiltert werden um diejenigen zu identifizieren, die statistisch auffällige Signale aufzeigen. Für die sich anschließende Auswertung eigenen sich Cluster- oder Korrelationsverfahren. Ein besonderes Problem ist der große Umfang der Datensätze, der bei der statistischen Analyse beachtet werden muss.