Warum ist dieses Wissen wichtig? Scoring-Matrizen sind neben den Parametern für das Behandeln von Lücken die wichtigsten Eingaben, die das Verhalten der Algorithmen für den Sequenzvergleich massiv beeinflussen. Via Scoring-Schema wird aus der Anwendungsdomäne Wissen über die Bedeutung und die Ähnlichkeit zwischen den Objekten importiert, die durch die Symbole repräsentiert werden. Halten Sie sich vor Augen, dass die Algorithmen rein schematisch mit Symbolen umgehen! Deswegen muss die Scoring-Matrix mit Bedacht gewählt werden.
Bezug Die Theorie zu den Scoring-Schemata finden Sie im Kapitel 11 "Scoring-Schemata".  

Lernziel

Nach dem Bearbeiten der Übung sollten Sie
  • den Aufbau und die Bedeutung von Scoring-Matrizen

verstanden haben.

 
     
  Hier finden Sie ein Venn-Diagramm, welches von physikalisch-chemischen Eigenschaften abgeleitet ist.  
     
Übung Scores_1, PAM250-Matrix
     
  Hier finden Sie die PAM250-Matrix.  
     
  Offensichtlich wurden die Werte in der PAM250-Matrix derart arrangiert, dass Aminosäuren mit ähnlichen Eigenschaften geclustert liegen.  
     
 
Weshalb sind
  • Lys und Arg,
  • Asp, Glu, Asn, Gln und His,
  • Phe und Tyr

geclustert, wie groß sind die paarweisen Scores und weshalb sind die Scores der genannten Gruppen in jeweils der gleichen Farbe dargestellt ?

Weshalb liegt Trp isoliert ? Wie erklären Sie sich den hohen Score für Trp?

 
     
Übung Scores_2, BLOSUM62  
     
  Hier finden Sie die BLOSUM62-Matrix.  
     
 
Bestimmen Sie die Scores für
  • alle Paare von aliphatischen Aminosäuren,
  • alle Paare von aromatischen Aminosäuren.
 
Hinweise
Suchen Sie den höchsten Score in der Matrix. Weshalb ist er genau an dieser Position?
Was schließen Sie daraus auf das Vorkommen der Aminosäure?
 
 

Das Vorkommen von Aminosäuren ist im Kapitel 1, Tabelle 1.3 gelistet.

In dieser Darstellung sind alle Einträge > 0 rot markiert.


Können Sie die Lage der Werte aufgrund physikalisch-chemischer Eigenschaften der Aminosäuren begründen?

Weshalb ist die Diagonale der Scoring-Matrix nicht mit "0en" besetzt?

 
     
Übung Scores_3  
     
 
Beantworten Sie die folgenden Fragen:
  • Sowohl BLOSUM, als auch PAM Matrizen werden mit einer Zahl genauer charakterisiert (z.B. BLOSUM 62). Warum korrespondieren BLOSUM Matrizen mit niedrigen Nummern mit PAM Matrizen, die hohe Nummern tragen?
  • Warum sollten die Kosten für das Einführen einer Lücke hoch und die für das Erweitern niedrig sein?
  • Welche der Substitutionen ist für die oben eingeführten Matrizen jeweils wahrscheinlicher: W vs. F oder H vs. R?
 
     
Übung Scores_4  
     
  Verwendet man BLAST, um sehr kurze Sequenzen in der Datenbank zu suchen, wird per Default auf die PAM 30-Matrix umgestellt.  
Weshalb benutzt BLAST für kurze Sequenzen die PAM 30-Matrix?
Hinweise Berechnen Sie den Score für den Vergleich der Sequenz S = AVIL mit sich selbst!
Benutzen Sie alternativ die PAM 30- und die BLOSUM 64-Matrix. Welcher Score ist größer?


Überlegen Sie sich, in welchem Schritt des BLAST-Algorithmus der Score für kurze Sequenzfragmente eine Rolle für die weitere Berechnung spielt. Was folgt hieraus allgemein für den Zusammenhang zwischen Seqeunzähnlichkeit und Score-Wert bei Verwendung unterschiedlicher Scoring-Matrizen?

 
Übung Scores_5  
  Die Einträge in Substitutionsmatrizen werden aus Substitutionshäufigkeiten f(asi , asj) berechnet. Wir wollen diesen Ansatz hier nachvollziehen.  
 
Bestimmen Sie exemplarisch das Vorkommen #(asi , asj) sämtlicher Paare für die zweite Spalte des folgenden Blocks.
 
     
 
AREA_EMENI|P17429 ( 673) CTNCFTQTTPLWRRNPEGQPLCNACGLFLKLHGVVRPL 7
AREA_FUSMO|P78688 ( 694) CTNCFTQTTPLWRRNPEGQPLCNACGLFLKLHGVVRPL 7
AREA_PENRO|O13508 ( 660) CTNCFTQTTPLWRRNPEGQPLCNACGLVLKLHGVVRPL 11
GAF1_SCHPO|Q10280 ( 70)  CTNCQTRTTPLWRRSPDGQPLCNACGLFMKINGVVRPL 16
GAT1_YEAST|P43574 ( 310) CSNCTTSTTPLWRKDPKGLPLCNACGLFLKLHGVTRPL 17
NIT2_NEUCR|P19212 ( 743) CTNCFTQTTPLWRRNPDGQPLCNACGLFLKLHGVVRPL 8
NRFA_PENUR|Q92269 ( 665) CTNCFTQTTPLWRRNPEGQPLCNACGLFLKLHGVVRPL 7
NUT1_MAGGR|Q01168 ( 663) CTNCATQTTPLWRRNPEGQPLCNACGLFLKLHGVVRPL 8
CGPB_FUSSO|Q00858 ( 403) TDCGTLDSPEWRKGPSGPKTLCNACGLRWAKKEKKRNS 49
WC2_NEUCR|P78714  ( 469) TDCGTLDSPEWRKGPSGPKTLCNACGLRWAKKEKKKNA 54
DA80_YEAST|P26343 ( 31)  CQNCFTVKTPLWRRDEHGTVLCNACGLFLKLHGEPRPI 17
GZF3_YEAST|P42944 ( 131) CKNCLTSTTPLWRRDEHGAMLCNACGLFLKLHGKPRPI 17
ELT1_CAEEL|P28515 ( 217) CVNCGVHNTPLWRRDGSGNYLCNACGLYFKMNHHARPL 17
GA1A_XENLA|P23767 ( 178) CVNCGATVTPLWRRDMSGHYLCNACGLYHKMNGQNRPL 9
GA1B_XENLA|P23768 ( 180) CVNCGATVTPLWRRDLSGHYLCNACGLYHKMNGQNRPL 9
GA5A_XENLA|P43695 ( 183) CVNCGAMSTPLWRRDGTGHYLCNACGLYHKMNGMNRPL 6
GA5B_XENLA|P43696 ( 184) CVNCGAMSTPLWRRDGTGHYLCNACGLYHKMNGINRPL 6
GA6A_XENLA|Q91678 ( 182) CVNCGSVQTPLWRRDGTGHFLCNACGLYSKMNGLSRPL 9
GA6B_XENLA|P70005 ( 182) CVNCGSVQTPLWRRDGTGHYLCNACGLYSKMNGLSRPL 7
GAT1_CHICK|P17678 ( 110) CVNCGATATPLWRRDGTGHYLCNACGLYHRLNGQNRPL 11
 
     

Was Sie jetzt verstanden haben sollten

Es besteht ein Zusammenhang zwischen den Eigenschaften der Aminosäuren und den Werten, die in den Scoring-Matrizen zu finden sind. Die beim Alignment erreichten Score-Werte hängen von der Wahl der Substitutions-Matrix ab. Diese Korrelation wird auch durch den Wert der Matrix-Entropie hergestellt, die im Abschnitt 11.8 beschrieben wird.