Warum ist dieses Wissen wichtig? Wir beschäftigen uns hier mit einigen Problemen, die bei der Totalsequenzierung von Genomen zu lösen sind.

Häufig werden Sequenzierprojekte unter Verwendung der shotgut-Strategie durchgeführt. Sie berechnen hier überschlägig, wie viele Sequenzierläufe (und damit welche Kosten) für ein Projekt anfallen.

Ein häufig auftretendes Problem, speziell bei Anwendung der shotgun-Strategie, sind repetitive Elemente die den Assemblern, d. h. den Algorithmen die Teilsequenzen zusammenfügen müssen, große Schwierigkeiten machen. Hier lernen Sie ein derartiges Element kennen. 

Bezug Diese Übungen ergänzen das Kapitel 22 "Entschlüsselung von Genomen".

Lernziel

Nach dem Bearbeiten der Übung sollten Sie
  • die Anzahl von Sequenzierläufen für ein Projekt in shotgun-Strategie abschätzen, 
  • repetitive Elemente charakterisieren, 
  • erste Verfahren für den Genomvergleich ausführen

können.

 
   
Übung Genomics_1
     
  Verwenden Sie für Ihre Antwort den folgenden Text.  
  Nehmen Sie an, Sie wollen ein kleines bakterielles Genom der Größe 2 x 106 Basenpaaren per shotgun-Strategie sequenzieren. Schätzen Sie die Anzahl der Sequenzierläufe ab, die Sie ausführen müssen, wenn Sie höchstens 200 Contigs (!) abliefern dürfen, und die Sequenzierautomaten eine mittlere Leselänge von 500 Basen haben. Nehmen Sie an, dass der fürs Assemblieren notwendige Überlapp theta gegen 0 geht.  
 
Wie ändert sich die Anzahl zu sequenzierender Fragmente, wenn die mittlere Leselänge 1000 Basen beträgt?
  Bestimmen Sie die selben Werte für das Genom der Fruchtfliege Drosophila (180 x 106 Basenpaare) und für das des Menschen ( 3 x 109 Basenpaare).
 
     
Übung Genomics_2
   
 
     
   
     
Dotplot der unten angegebenen, repetitiven Sequenz.
Identische Basen ai , bj sind durch schwarze Punkte an Position (i, j) markiert.
   
 
ggcggatgcggcgtaaacgccttatccgccctacatgtgcaatcctcctg
gccggataaaacgcggcaagcgttgcatccggcaactgcaccgcgccact
ggcggatgcggcgtgaacgccttatccgccctacatgtgtgttcccgtag
gtcggataagacgcgacaagcgtcgcatccggcatctgcaccgcgccact
ggcggatgcggcgtggacgccttatccgccctacatgtg
caattccgtaa
cctggataaaacgcgacaagcgtcgcatccggc
Repetitive Sequenz aus E. coli K-12.
Teilsequenzen, die untereinander einen hohen Anteil an Übereinstimmung aufweisen sind,
farbig markiert.
  Werten Sie obigen Dotplot aus:  
Auswertung
 Können Sie die Lage der in der Sequenz farbig markierten repetitiven Elemente bestätigen?

Weshalb kommen an mehreren Stellen im Dotplot kreuzförmige Muster vor?

 
    
Übung Genomics_3
   
Nehmen Sie an, sie sollen zwei nahe verwandte Genome auf Gen-Niveau miteinander vergleichen. Sie interessiert die Frage, in wieweit das globale Arrangement der Gene in beiden Genomen ähnlich ist.
 
Skizzieren Sie einen Algorithmus, mit dem Sie die Fragestellung bearbeiten können.

Wie identifizieren Sie die Gene, die in beiden Genomen vorkommen? 

Wie stellen Sie die Genpools grafisch dar? Erwägen sie hierfür auch den simplen Dotplot.

 
 
Übung Genomics_4
   
Ein Tool mit erstaunlichem Funktionsumfang ist Artemis, das am Sanger Institute für die Annotation von Genomen entwickelt wurde. 
 
Installieren Sie das Programm auf Ihrem Rechner und annotieren Sie damit ein kleines Genom.
 
Sie können beispielsweise vom NCBI eine Virus- oder Plasmidsequenz laden und annotieren und anschließend Ihre Ergebnisse mit der veröffentlichten Annotation vergleichen.
   

Was Sie jetzt verstanden haben sollten

Das Ziel von Genomsequenzierprojekten ist die Entschlüsselung des kompletten Chromosomensatzes einer Spezies. Mithilfe der shotgun-Strategie ist es relativ einfach, einen großen Teil eines Genomes abzudecken. Schwierig und arbeitsaufwendig ist das Schließen von Lücken, die z. B. durch repetitive Elemente verursacht werden. Hierfür werden häufig alternative Sequenzierstrategien verwendet. Ist eine Menge von Contigs erstellt, kann mit den eingeführten bioinformatischen Methoden daran gegangen werden, informationstragende Teile zu identifizieren und zu annotieren. Hierfür sind semiautomatische Werkzeuge entwickelt, wie z. B. Artemis.