| Warum ist dieses Wissen wichtig? | Aus Sicht der Bioinformatik ist eine
DNA-Sequenz eine Zeichenkette, in der sinntragende Teile "eingestreut"
sind. Eine wichtige Aufgabe der Bioinformatik ist es, diese
DNA-Abschnitte zu finden.
Damit sind Gene, tRNAs etc. gemeint. Ziel dieses Prozesses muss es
sein, mit höchster Sensitivität und Spezifität informationstragende
Teilsequenzen zu identifizieren. In den folgenden Übungen lernen Sie
zunächst die Begriffe ORF (open reading frame) und Gen kennen.
Ein ORF ist ein Stück DNA, welches von einem Start- und einem Stoppcodon flankiert wird und eine, ganzzahlig durch 3 teilbare Anzahl von Basen (die Codonen englisch codons) umfasst. Die Menge der ORFs ist eine Obermenge der Gene; dies sind diejenigen ORFs, die tatsächlich von der Zelle in Proteine übersetzt werden. Da jeder der sechs möglichen Leserahmen codieren kann, überlappen sich ORFs häufig. Es ist die hohe Kunst der Genidentifikation, aus der Menge der ORFs genau die Menge der Gene herauszufiltern. Die Schwelle zur Genvorhersage wird man in Algorithmen zur Genidentifikation so legen, dass der Fehler zweiter Art möglichst gering ist. Dann ist jedoch häufig mit einer gewissen Anzahl von Falsch-positiven zu rechnen. Für diese Aufgabe werden häufig Algorithmen eingesetzt, die vermöge statistischer Analyse aus den Unterschieden im Vorkommen der Nucleotide an den drei Positionen im Codon die korrekte Lage von Leserahmen ableiten. Durch die Auswertung zusätzlicher, in der DNA codierter Signale, wie ribosomaler Bindungsstellen oder Promotoren wird die Anzahl falsch positiver Treffer reduziert und die Vorhersage der exakten Lage des Startcodons verbessert. Auf derartige Tools wird hier nicht weiter eingegangen. Sie üben hier diejenige Tätigkeit aus, die von so genannten Annotationsprogrammen automatisch oder semiautomatisch ausgeführt wird und zum Ziel hat, alle Gene in dem betrachteten Stück DNA zu identifizieren und zu charakterisieren. Einige Probleme, die bei dieser Aufgabe algorithmisch zu lösen sind, werden Ihnen unten vor Augen geführt. Annotation ist eine der wichtigsten Aufgaben im Rahmen der Genomanalyse. Im folgenden benutzen Sie die Programme zum Sequenzvergleich (z. B. den BLAST-Server) noch als Blackbox. Später werden Sie genau wissen, nach welchem Verfahren diese Heuristiken arbeiten und was die Parameter bewirken, die sie interaktiv setzen können. Das Ergebnis eines paarweisen Sequenzvergleichs wird durch einen Score bewertet. Er gibt an, wie ähnlich sich die beiden Sequenzen sind. Je höher der Score, umso ähnlicher sind sich die beiden Sequenzen. Ein alternatives, statistisches Maß zur Bewertung eines Sequenzvergleichs ist der E-value (Erwartungswert). Er ist ein statistisches Maß, das angibt wie häufig ein derartiges Alignment der beiden Sequenzen bei gegebener Größe der Datenbank rein zufällig wenigstens einen solchen Score erreicht. Ein E-Value von 1 bedeutet, das eine Übereinstimmung der gefundenen Güte bei der gegebenen Anzahl von Sequenzen in der Datenbank mindestens 1 x rein zufällig zu erwarten ist. Bedenken Sie, dass der Server Ihre Eingabesequenz mit einer extrem großen Anzahl von Sequenzen (nämlich allen bisher bekannten und das sind sicherlich einige Millionen!) vergleicht. Je größer diese Datenbank, umso wahrscheinlicher wird es, dass aus purem Zufall ein Treffer auftritt. |
||
| Bezug | Diese Übungen ergänzen die Kapitel 1 "Biologische Grundlagen", 2 "Sequenzen und ihre Funktion" und 3 "Datenbanken". | ||
Lernziel |
|
||
| Übung | Orf_1, Länge und Verteilung von offenen Leserahmen | ||
| In einem DNA-Fragment, bestehend aus 7172 Nucleotiden, dessen Sequenz Sie hier finden, sind 20 offene Leserahmen enthalten, die länger als 150 Nucleotide sind. | |||
| In der folgenden Grafik sind diese ORFs in den sechs Leserahmen (hier mit +1,+2,+3, -1, -2, -3 markiert) eingetragen, durch Anklicken eines blauen Kästchens, das einen ORF repräsentiert, erhalten Sie die Aminosäuresequenz im FASTA-Format. Die Grafiken dieser Seite wurde übrigens mit dem Annotationsprogramm Magpie generiert. | |||
![]() |
|||
| ORFs
identifizieren und codierende ORFs bestimmen |
|
||
|
Beachten Sie bei der
Beantwortung dieser Frage insbesondere die Nucleotidkomposition derjenigen Sequenzen (Tri-
bzw. Hexanucleotide) , die als reverses
Komplement in den Leserahmen -1, -2, -3 ein
Stoppcodon ergeben.
Bestimmen Sie, welche ORFs für Proteine codieren. |
|||
| Stellen Sie
eine Verbindung zum BLAST-Server des NCBI her. Wählen Sie für diese Übung den Modus protein blast. |
|||
| Übertragen Sie per copy and paste jeweils die Aminosäuresequenz eines ORFs mit
Nummer:
in das Eingabefenster des Servers und stoßen Sie die Auswertung durch Betätigen der Taste BLAST an. |
|||
| Studieren Sie die
Ausgabe des Sequenzvergleichsprogramms. Warten Sie jeweils, bis die
Graphik (Graphic Summary) und die Beschreibung (Description)
der Ergebnisse fertig gestellt ist. Vergleichen Sie für die einzelnen Sequenzen die Scores und die E-values der besten Treffer sowie die Anzahl identischer Aminosäurereste zwischen Ihrer Eingabe (Query) und der Vergleichssequenz (Sbjct). Niedrige E-values deuten auf eine sehr gute Übereinstimmung der Eingabe und des Datenbankeintrages hin. |
|||
| (Frühere Ergebnisse für ORFs 1, 4, 8, 12, 20. Ihre Analysen sollten ähnliche Treffer ergeben. | |||
| Weitere Fragen |
|
||
| Erst wenn Sie die obigen Fragen beantwortet haben, sollten Sie sich diesen Eintrag ansehen, die den kompletten Eintrag der Sequenz enthält. Versuchen Sie, den Inhalt dieser Datei zu verstehen, indem sie den Inhalt mit der Definition der Feature Table der Datenbank vergleichen. | |||
| Aufbau der NCBI-Einträge | Wie Sie obiger Datei entnehmen können, haben Einträge in der NCBI-Nucleotide-Datenbank einen zweigeteilten Aufbau: Im oberen Teil (der Feature Table) finden Sie Informationen zur Herkunft, zu Veröffentlichungen und zu den informationstragenden Elementen der Sequenz. Im zweiten Teil, der mit dem Schlüssel ORIGIN beginnt, folgt die Sequenz. | ||
| Übung | Orf_2, Identifizierung von Genen, Interpretation der codon usage | ||
| Starten Sie in das Programm CUPlot, dass hier bereits für Sequenzen aus Escherichia coli parametrisiert ist. Es sagt Protein-codierende Gene vorher, wobei die codon usage der Art (in diesem Fall E. coli) berücksichtigt wird. | |||
| Übernehmen Sie per copy and paste diese DNA-Sequenz. | |||
| Hinweis | Benutzen Sie z. B. die Befehle Edit/Select all; Edit/Copy Ihres Browsers, um die gesamte Sequenz auszuwählen. | ||
| Stellen Sie in CUPLot die Minimum ORF Size auf 50 und starten Sie das Programm durch Betätigen der Taste Cookin´. | |||
| Machen
Sie sich die Bedeutung des Plots klar,
lesen sie diese Beschreibung und betrachten Sie
dieses Beispiel.
Bitte beachten Sie, dass CUPlot die Übereinstimmung mit der codon usage, und nicht den GC-Gehalt als Plot aufbereitet. Je höher der lokale Wert, umso besser ist die Übereinstimmung mit den mittleren Codon-Häufigkeiten. |
|||
|
|||
| In diesen Plots werden Startcodons durch ">" bzw. "<" Pfeile und Stoppcodons durch "|" Symbole markiert. Offene Leserahmen sind durch horizontale Linien kenntlich gemacht. Vergleichen Sie nun die Lage von ORFs mit ihrer Übereinstimmung mit der codon usage von E. coli. | |||
|
|||
| ORF auswählen | Wählen Sie den zweiten ORF im (oberen) Leserahmen 1 aus, klicken Sie hierzu mit der Maus unmittelbar zwischen die zwei zugehörigen und mit kurzem Abstand aufeinander folgenden Startcodons. In einem weiteren Fenster (Features) werden die Protein und Codon-Sequenz des ORfs f1_(2122. .3084) angezeigt. | ||
| Suche anstoßen | Starten Sie einen Sequenzvergleich mit der Proteinsequenz durch Betätigen der Taste Search und verwenden Sie das Programm blastp. | ||
| Ausgabe konfigurieren | Klicken Sie auf
View report und betrachten Sie die Ausgabe. Niedrige E-Werte
der einzelnen Treffer, die sie unter der Rubrik Alignments finden,
deuten auf signifikante Treffen hin. E-Werte größer als 1.0 verweisen
auf nicht signifikante Treffer. In unserem Fall sollten mehrere Treffer mit E-Werte kleiner 1 x 10-100 auftreten. Diese Alignments sind hochsignifikant, der ORF codiert für einen ABC Transporter. |
||
| Nun wollen wir einen alternativen ORF untersuchen.
Wählen Sie im Frame 2 (oberhalb des Plots, grün markiert) den ersten
ORF, der innerhalb des soeben untersuchten liegt. Auf der Seite
Features ist er mit f2_(2618. .2956) bezeichnet. Stoßen Sie wiederum eine BLAST-Suche mit blastp an. In diesem Fall sollte der BLAST-Report nur nicht-signifikante Treffer (E-Werte > 1) liefern. Dieser ORF codiert mit hoher Wahrscheinlichkeit nicht für ein Protein. |
|||
| Hier finden Sie den zugehörigen Eintrag dieses Genomfragments. | |||
|
|||
Vergleichen Sie diese Angaben mit dem Verlauf der Graphen in CUPlot. |
|||
Was Sie jetzt können sollten |
Sie können nun die Begriffe
ORF und Gen unterscheiden und haben erste Verfahren zum Identifizieren
informationstragender Sequenzen kennengelernt. Dies sind in diesem Fall
die Gene. Sie haben auch erkannt, dass die Verfahren des Sequenzvergleichs dazu verwendet werden können, bei mehreren Alternativen die vermutlich korrekte auszuwählen. Dies gilt allerdings nur, wenn bereits homologe Gene in der Datenbank hinterlegt sind. |
||