Warum ist dieses Wissen wichtig? Aus Sicht der Bioinformatik ist eine DNA-Sequenz eine Zeichenkette, in der sinntragende Teile "eingestreut" sind. Eine wichtige Aufgabe der Bioinformatik ist es, diese DNA-Abschnitte zu finden. Damit sind Gene, tRNAs etc. gemeint. Ziel dieses Prozesses muss es sein, mit höchster Sensitivität und Spezifität informationstragende Teilsequenzen zu identifizieren. In den folgenden Übungen lernen Sie zunächst die Begriffe ORF (open reading frame) und Gen kennen.

Ein ORF ist ein Stück DNA, welches von einem Start- und einem Stoppcodon flankiert wird und eine, ganzzahlig durch 3 teilbare Anzahl von Basen (die Codonen englisch codons) umfasst. Die Menge der ORFs ist eine Obermenge der Gene; dies sind diejenigen ORFs, die tatsächlich von der Zelle in Proteine übersetzt werden. Da jeder der sechs möglichen Leserahmen codieren kann, überlappen sich ORFs häufig. Es ist die hohe Kunst der Genidentifikation, aus der Menge der ORFs genau die Menge der Gene herauszufiltern. Die Schwelle zur Genvorhersage wird man in Algorithmen zur Genidentifikation so legen, dass der Fehler zweiter Art möglichst gering ist. Dann ist jedoch häufig mit einer gewissen Anzahl von Falsch-positiven zu rechnen. 

Für diese Aufgabe werden häufig Algorithmen eingesetzt, die vermöge statistischer Analyse aus den Unterschieden im Vorkommen der Nucleotide an den drei Positionen im Codon die korrekte Lage von Leserahmen ableiten. Durch die Auswertung zusätzlicher, in der DNA codierter Signale, wie ribosomaler Bindungsstellen oder Promotoren wird die Anzahl falsch positiver Treffer reduziert und die Vorhersage der exakten Lage des Startcodons verbessert.

Auf derartige Tools wird hier nicht weiter eingegangen. Sie üben hier diejenige Tätigkeit aus, die von so genannten Annotationsprogrammen automatisch oder semiautomatisch ausgeführt wird und zum Ziel hat, alle Gene in dem betrachteten Stück DNA zu identifizieren und zu charakterisieren. Einige Probleme, die bei dieser Aufgabe algorithmisch zu lösen sind, werden Ihnen unten vor Augen geführt. Annotation ist eine der wichtigsten Aufgaben im Rahmen der Genomanalyse.

Im folgenden benutzen Sie die Programme zum Sequenzvergleich (z. B. den BLAST-Server) noch als Blackbox. Später werden Sie genau wissen, nach welchem Verfahren diese Heuristiken arbeiten und was die Parameter bewirken, die sie interaktiv setzen können. Das Ergebnis eines paarweisen Sequenzvergleichs wird durch einen Score bewertet. Er gibt an, wie ähnlich sich die beiden Sequenzen sind. Je höher der Score, umso ähnlicher sind sich die beiden Sequenzen. Ein alternatives, statistisches Maß zur Bewertung eines Sequenzvergleichs ist der E-value (Erwartungswert). Er ist ein statistisches Maß, das angibt wie häufig ein derartiges Alignment der beiden Sequenzen bei gegebener Größe der Datenbank rein zufällig wenigstens einen solchen Score erreicht. Ein E-Value von 1 bedeutet, das eine Übereinstimmung der gefundenen Güte bei der gegebenen Anzahl von Sequenzen in der Datenbank mindestens 1 x rein zufällig zu erwarten ist. Bedenken Sie, dass der Server Ihre Eingabesequenz mit einer extrem großen Anzahl von Sequenzen (nämlich allen bisher bekannten und das sind sicherlich einige Millionen!) vergleicht. Je größer diese Datenbank, umso wahrscheinlicher wird es, dass aus purem Zufall ein Treffer auftritt.

Bezug Diese Übungen ergänzen die Kapitel 1 "Biologische Grundlagen", 2 "Sequenzen und ihre Funktion" und 3 "Datenbanken".  

Lernziel

Nach dem Bearbeiten dieser Übung sollten Sie
  • die Begriffe ORF und Gen unterscheiden, 
  • erste Methoden zur Identifizierung von Genen anwenden

können.

   
Übung Orf_1, Länge und Verteilung von offenen Leserahmen
   
  In einem DNA-Fragment, bestehend aus 7172 Nucleotiden, dessen Sequenz Sie hier finden, sind 20 offene Leserahmen enthalten, die länger als 150 Nucleotide sind.
   
  In der folgenden Grafik sind diese ORFs in den sechs Leserahmen (hier mit +1,+2,+3, -1, -2, -3 markiert) eingetragen, durch Anklicken eines blauen Kästchens, das einen ORF repräsentiert, erhalten Sie die Aminosäuresequenz im FASTA-Format. Die Grafiken dieser Seite wurde übrigens mit dem Annotationsprogramm Magpie generiert.
   
 
   
 
ORFs identifizieren
und
codierende
ORFs bestimmen
Überlegen Sie sich einen Algorithmus zur Identifikation offener Leserahmen.

Vergleichen Sie in obigem Beispiel die Länge der überlappenen ORFs in allen Leserahmen.

Welchen Einfluss hat der GC-Gehalt eines Genoms auf die Länge von ORFs in allen sechs Leserahmen?

  Beachten Sie bei der Beantwortung dieser Frage insbesondere die Nucleotidkomposition derjenigen Sequenzen (Tri- bzw. Hexanucleotide) , die als reverses Komplement in den Leserahmen -1, -2, -3 ein Stoppcodon ergeben.

Bestimmen Sie, welche ORFs für Proteine codieren.

  Stellen Sie eine Verbindung zum BLAST-Server des NCBI her.

Wählen Sie für diese Übung den Modus protein blast.

  Übertragen Sie per copy and paste jeweils die Aminosäuresequenz eines ORFs mit Nummer:

1, 4, 8, 12, 20

in das Eingabefenster des Servers und stoßen Sie die Auswertung durch Betätigen der Taste BLAST an.

  Studieren Sie die Ausgabe des Sequenzvergleichsprogramms. Warten Sie jeweils, bis die Graphik (Graphic Summary) und  die Beschreibung (Description) der Ergebnisse fertig gestellt ist.

Vergleichen Sie für die einzelnen Sequenzen die Scores und die E-values der besten Treffer sowie

die Anzahl identischer Aminosäurereste zwischen Ihrer Eingabe (Query) und der Vergleichssequenz (Sbjct).

Niedrige E-values deuten auf eine sehr gute Übereinstimmung der Eingabe und des Datenbankeintrages hin.

  (Frühere Ergebnisse für ORFs 1, 4, 8, 12, 20. Ihre Analysen sollten ähnliche Treffer ergeben.  
   
Weitere Fragen
Aus welchem Organismus stammt die untersuchte DNA-Sequenz?

Zu welchen ORFs wurden überhaupt Treffer gefunden?
Welchen Länge und Lage haben diese ORFs?

   
  Erst wenn Sie die obigen Fragen beantwortet haben, sollten Sie sich diesen Eintrag ansehen, die den kompletten Eintrag der Sequenz enthält. Versuchen Sie, den Inhalt dieser Datei zu verstehen, indem sie den Inhalt mit der Definition der Feature Table der Datenbank vergleichen.
Aufbau der NCBI-Einträge Wie Sie obiger Datei entnehmen können, haben Einträge in der NCBI-Nucleotide-Datenbank einen zweigeteilten Aufbau: Im oberen Teil (der Feature Table) finden Sie Informationen zur Herkunft, zu Veröffentlichungen und zu den informationstragenden Elementen der Sequenz. Im zweiten Teil, der mit dem Schlüssel ORIGIN beginnt, folgt die Sequenz.
   
Übung Orf_2, Identifizierung von Genen, Interpretation der codon usage
   
  Starten Sie in das Programm CUPlot, dass hier bereits für Sequenzen aus Escherichia coli parametrisiert ist. Es sagt Protein-codierende Gene vorher, wobei die codon usage der Art (in diesem Fall E. coli) berücksichtigt wird.
  Übernehmen Sie per copy and paste diese DNA-Sequenz.
Hinweis Benutzen Sie z. B. die Befehle Edit/Select all; Edit/Copy Ihres Browsers,  um die gesamte Sequenz auszuwählen. 
  Stellen Sie in CUPLot die Minimum ORF Size auf 50 und starten Sie das Programm durch Betätigen der Taste Cookin´.
  Machen Sie sich die Bedeutung des Plots klar, lesen sie diese Beschreibung und betrachten Sie dieses Beispiel.

Bitte beachten Sie, dass CUPlot die Übereinstimmung mit der codon usage, und nicht den GC-Gehalt als Plot aufbereitet. Je höher der lokale Wert, umso besser ist die Übereinstimmung mit den mittleren Codon-Häufigkeiten.

 
Wie werden in der Graphik Start- und Stoppcodons sowie ORFs eingetragen?
  In diesen Plots werden Startcodons durch ">" bzw. "<" Pfeile und Stoppcodons durch "|" Symbole markiert. Offene Leserahmen sind durch horizontale Linien kenntlich gemacht. Vergleichen Sie nun die Lage von ORFs mit ihrer Übereinstimmung mit der codon usage von E. coli.
 
Können Sie einen Zusammenhang zwischen "Codierpotential" und Länge der ORFs erkennen?
   
ORF auswählen Wählen Sie den zweiten ORF im (oberen) Leserahmen 1 aus, klicken Sie hierzu mit der Maus unmittelbar zwischen die zwei zugehörigen und mit kurzem Abstand aufeinander folgenden Startcodons. In einem weiteren Fenster (Features) werden die Protein und Codon-Sequenz des ORfs f1_(2122. .3084) angezeigt.
Suche anstoßen Starten Sie einen Sequenzvergleich mit der Proteinsequenz durch Betätigen der Taste Search und verwenden Sie das Programm blastp.
Ausgabe  konfigurieren Klicken Sie auf View report und betrachten Sie die Ausgabe. Niedrige E-Werte der einzelnen Treffer, die sie unter der Rubrik Alignments finden, deuten auf signifikante Treffen hin. E-Werte größer als 1.0 verweisen auf nicht signifikante Treffer.

In unserem Fall sollten mehrere Treffer mit E-Werte kleiner 1 x 10-100 auftreten. Diese Alignments sind hochsignifikant, der ORF codiert für einen ABC Transporter.

  Nun wollen wir einen alternativen ORF untersuchen. Wählen Sie im Frame 2 (oberhalb des Plots, grün markiert) den ersten ORF, der innerhalb des soeben untersuchten liegt. Auf der Seite Features ist er mit f2_(2618. .2956) bezeichnet.

Stoßen Sie wiederum eine BLAST-Suche mit blastp an. In diesem Fall sollte der BLAST-Report nur nicht-signifikante Treffer (E-Werte > 1) liefern. Dieser ORF codiert mit hoher Wahrscheinlichkeit nicht für ein Protein.

  Hier finden Sie den zugehörigen Eintrag dieses Genomfragments.
   
 
Wie viele Gene sind in diesem Datensatz annotiert? Beachten Sie hierzu die mit gene bezeichneten Einträge in der Feature Table.
 
Vergleichen Sie diese Angaben mit dem Verlauf der Graphen in CUPlot.

Was Sie jetzt können sollten

Sie können nun die Begriffe ORF und Gen unterscheiden und haben erste Verfahren zum Identifizieren informationstragender Sequenzen kennengelernt. Dies sind in diesem Fall die Gene.

Sie haben auch erkannt, dass die Verfahren des Sequenzvergleichs dazu verwendet werden können, bei mehreren Alternativen die vermutlich korrekte auszuwählen. Dies gilt allerdings nur, wenn bereits homologe Gene in der Datenbank hinterlegt sind.