Information und Entropie Anwendungen Lagrange Multiplikatoren

Molekulare Bioinformatik Wintersemester 2013/2014

Prof. Thomas Martinetz Institut f¨ ur Neuro- und Bioinformatik Universit¨ at zu Luebeck

07.01.2014

1

Molekulare Bioinformatik - Vorlesung 10

Information und Entropie Anwendungen Lagrange Multiplikatoren

Wiederhohlung Die Entropie eines Systems X h¨angt von seiner Wahrscheinlichkeitsverteilung ab. H(X ) = −

N X

Pi log2 Pi ,

i=1

Shannon-Entropie beschreibt als einzige Realisierung die Unkenntnis eines physikalischen Systems Der Informationsgehalt einer Nachricht ist die Differenz der Entropie vor und nach der Nachricht. Die Entropie wird in Bits gemessen. In der Informatik ist die Einheit Byte u ¨blich, wobei gilt: 1Byte = 8Bits. 2

Molekulare Bioinformatik - Vorlesung 10

Information und Entropie Anwendungen Lagrange Multiplikatoren

Beispiel: Informationsgehalt eines Buches Annahme: 2000 Zeichen pro Seite und 200 Seiten. 30 verschiedene Zeichen (mit Umlauten). Vorher: Alle Zeichen sind gleich wahrscheinlich. Damit ergibt sich eine Entropie von: H(X ) = −200×2000

30 X 1 1 log2 ≈ 2×106 bit = 250kByte. 30 30 i=1

Nach dem Lesen des Buches sind alle Zeichen bekannt. Der Informationsgewinn ist also 250kByte. =⇒ Wichtig ist, das es um die Kenntnis des physischen Systems und nicht um dessen Bedeutung geht. 3

Molekulare Bioinformatik - Vorlesung 10

Information und Entropie Anwendungen Lagrange Multiplikatoren

Sequenz Motive Sequenzmotive: kurze, wiederkehrende Sequenzen auf der DNA mit eventueller biologischer Funktion. Meist sequenzspezifische Bindungsstellen, z.B. f¨ ur Proteine wie Nukleasen oder Transkriptionsfaktoren. Wichtig f¨ ur Analyse genetischer regulatorischer Netzwerke. Allerdings stimmen die Motive selten exakt u ¨berein. Die Sequenz, die in der Summe am wenigsten von den entsprechenden Mustern abweicht, wird Konsensussequenz genannt. 4

Molekulare Bioinformatik - Vorlesung 10

Information und Entropie Anwendungen Lagrange Multiplikatoren

Sequenz Motive Beispielsequenz aus einem Review Verschiedene Sequenzen, an denen der Rox1 Transkriptionsfaktor auf dem Saccharomyces cerevisiae (Backhefe) Genome bindet.

Konsensussequenz H¨aufigkeit der jeweiligen Base an der entsprechenden Position. 5

Molekulare Bioinformatik - Vorlesung 10

Information und Entropie Anwendungen Lagrange Multiplikatoren

Informationsgehalt von Sequenz Motive Frage: Welche Information besitzen diese Motive? Frage: Welche Teile der Motive sind wichtiger? Annahme 1: Ohne Messung sind alle Basen gleich wahrscheinlich. Annahme 2: Jede Position ist unabh¨angig von den anderen. =⇒ Dann ist die Information im Sequenzmotiv gleich der Summe der Information u ¨ber die Positionen i.

6

Molekulare Bioinformatik - Vorlesung 10

Information und Entropie Anwendungen Lagrange Multiplikatoren

Informationsgehalt von Sequenz Motive Ohne Vorwissen: X

Hi = −

b=A,C ,G ,T

1 1 log2 = 2bit. 4 4

Nach der Messung: Hi = −

X

fbi log2 fbi ,

b=A,C ,G ,T

fbi ist Frequenz, mit der Base b an Position i auftaucht. =⇒ Die Information an Position i ist dann X Ii = 2 − Hi = 2 +

fbi log2 fbi

b=A,C ,G ,T 7

Molekulare Bioinformatik - Vorlesung 10

Information und Entropie Anwendungen Lagrange Multiplikatoren

Sequenz Logos Zur Darstellung des Informationsgewinns werden Sequenz Logos verwendet. Konsensussequenz H¨aufigkeit der jeweiligen Base an der entsprechenden Position.

Sequenz Logo (H¨aufigkeit) Sequenz Logo (Informationsgehalt) Sequenz Logo (Informationsgehalt mit korrigierter Wahrscheinlichkeit) 8

Molekulare Bioinformatik - Vorlesung 10

Information und Entropie Anwendungen Lagrange Multiplikatoren

Entropiekodierung Laut obigen Beispiel, ben¨ otigt ein Buch von 200 Seiten L¨ange circa 250 kByte Speicher. Tats¨achlich sind es deutlich mehr, da nicht nur 30 Buchstaben ber¨ ucksichtigt werden m¨ ussen, sondern der komplette UTF-8 Zeichensatz (Sonderzeichen, Zahlen etc.). =⇒ Der ben¨otigte Speicher richtet sich nicht nach dem eigentlichen Text. Statt dessen wird genug Speicher bereitgestellt, um alle m¨ oglichen UTF-8 Zeichenfolgen der selben L¨ange darzustellen. Entropiekodierung ist eine verlustfreie Methode zur Datenkompression. Dabei wird jedem Zeichen im Text eine unterschiedlich lange Bitfolge zugeordnet, die sich nach der H¨aufigkeit des Zeichen im Text richtet. 9

Molekulare Bioinformatik - Vorlesung 10

Information und Entropie Anwendungen Lagrange Multiplikatoren

Entropiekodierung

Entropieberechnungen f¨ uhren meist zu nicht ganzzahligen Ergebnissen. Zum Speichern muss allerdings auf ganzzahlige Werte gerundet werden, wodurch man einen Teil der Komprimierung verliert. Es gibt daher zwei Klassen von Methoden: 1 2

Kodierungsverfahren, die ganze Bits annehmen. Rest.

Im Allgemeinen h¨angt die St¨arke der Kodierung vom Text ab.

10

Molekulare Bioinformatik - Vorlesung 10

Information und Entropie Anwendungen Lagrange Multiplikatoren

Entropiekodierung mit ganzen Bits Shannon-Fano-Kodierung und Huffman-Kodierung wurde bereits in den 60ern beschrieben. Dabei liefert die Huffman-Kodierung bessere Ergebnisse. Beide Verfahren beruhen auf der Erstellung eines bin¨aren Baumes. Die Zeichen mit der jeweils niedrigsten Wahrscheinlichkeit werden zu einem Knoten zusammen gefasst. Dies wird wiederholt, bis alle Knoten an einer Wurzel zusammen fallen. Zur eigentlichen Kodierung wird dann allen Kanten Wert 0 bzw 1 zugeordnet. Der Kode des jeweiligen Zeichens entspricht dann dem Weg zur Wurzel 11

Molekulare Bioinformatik - Vorlesung 10

Information und Entropie Anwendungen Lagrange Multiplikatoren

Beispiel Huffman-Kodierung Gegeben sei ein Text mit folgender Statistik: Zeichen # A 24 12 B C 10 D 8 E 8 Dieser Text ben¨otigt in UTF-8 62 × 8 = 496bit Speicher. Die Entropie des Textes betr¨agt nur 134.8822bit.

12

0

1 38

A 24

0

1

22

16

0

1

0

1

B

C

D

E

12

10

8

8

Molekulare Bioinformatik - Vorlesung 10

Information und Entropie Anwendungen Lagrange Multiplikatoren

Beispiel Huffman-Kodierung Gegeben sei ein Text mit folgender Statistik: Zeichen # Kode L¨ange A 24 0 1 12 100 3 B C 10 101 3 D 8 110 3 E 8 111 3 Dieser Text ben¨otigt nur noch 138bit Speicher. Die bitweise Entropiekodierung nach Huffman ist also nicht optimal.

13

0

1 38

A 24

0

1

22

16

0

1

0

1

B

C

D

E

12

10

8

8

Molekulare Bioinformatik - Vorlesung 10

Information und Entropie Anwendungen Lagrange Multiplikatoren

Anwendungen Entropiekodierung wir meist im Zusammenspiel mit anderen Kodierungsverfahren verwendet, zum Beispiel der Burrows-Wheeler-Transformation. G¨angige Standards die Entropiekodierung nutzen sind: 1 2 3

ZIP, Bzip JPEG MP3

Arithmetische Kodierung nutzt variable Bitzahlen und kann damit potentiell bessere Ergebnisse liefern als die Huffman-Kodierung.

14

Molekulare Bioinformatik - Vorlesung 10

Information und Entropie Anwendungen Lagrange Multiplikatoren

Optimierung

Im Zusammenhang mit Entropie treffen wir oft auf Optimierungsprobleme: 1 2 3 4

Welche Frage/Messung hat den gr¨ oßten Informationsgehalt? Welche Beschreibung hat die geringste Entropie? Wie beschreibt man Nebenbedingungen? Welchen Zusammenhang gibt es zwischen Energie und Entropie?

Die Methode der Lagrange Multiplikatoren behandelt Optimierungsprobleme unter Randbedingungen.

15

Molekulare Bioinformatik - Vorlesung 10

Information und Entropie Anwendungen Lagrange Multiplikatoren

Lagrange Formalismus Wir betrachten eine Funktion f (x, y ) die wir maximieren wollen. Als Randbedingung soll gelten g (x, y ) = c. Da f (x, y ) stetig sein soll, suchen wir die Menge an Punkten, f¨ ur die gilt max f (x, y ) g (x,y )=c

Die H¨ ohenlinie von f (x, y ) und g (x, y ) sind immer tangential zueinander. Daraus folgt: 5x,y f (x, y ) = −λ 5x,y g (x, y ). 16

Molekulare Bioinformatik - Vorlesung 10

Information und Entropie Anwendungen Lagrange Multiplikatoren

Lagrange Formalismus Wir betrachten eine Funktion f (x, y ) die wir maximieren wollen. Als Randbedingung soll gelten g (x, y ) = c. Da f (x, y ) stetig sein soll, suchen wir die Menge an Punkten, f¨ ur die gilt max f (x, y ) g (x,y )=c

Die H¨ ohenlinie von f (x, y ) und g (x, y ) sind dann immer tangential zueinander. Daraus folgt: 5x,y f (x, y ) = −λ 5x,y g (x, y ). 17

Molekulare Bioinformatik - Vorlesung 10

Information und Entropie Anwendungen Lagrange Multiplikatoren

Lagrange Formalismus Gesucht werden also diejenigen Punkte, die die folgenden Bedingungen erf¨ ullen: 1 2

5x,y g (x, y ) 6= 0, 5x,y f (x, y ) = −λ 5x,y g (x, y ).

Wir definieren die sogenannte Lagrangefunktion als: Λ(x, y , λ) := f (x, y ) + λ(g (x, y ) − c). Damit sind die obigen Bedingungen ¨aquivalent zu: 5x,y ,λ Λ(x, y λ) = 0. Die Ableitung von Λ nach λ ergibt immer die Randbedingung. 18

Molekulare Bioinformatik - Vorlesung 10

Information und Entropie Anwendungen Lagrange Multiplikatoren

Beispiel Wir hatten behauptet, dass die Entropie maximal ist, wenn alle Zust¨ande gleich wahrscheinlich sind. f = H(X ) = −

X

pi log2 (pi ).

i

Welche Randbedingung m¨ ussen wir dabei annehmen? Die Gesamtwahrscheinlichkeit aller Zust¨ande ist gleich 1: X pi = 1. i

Damit ergibt sich die Lagrangefunktion als: ! Λ(X , λ) = −

X i

19

pi log2 (pi ) − λ

X

pi − 1 .

i Molekulare Bioinformatik - Vorlesung 10

Information und Entropie Anwendungen Lagrange Multiplikatoren

Beispiel Wir leiten zun¨achst nach λ ab: X 5λ Λ = pi − 1. i

Es ergibt sich also wie gefordert die Randbedingung Die Ableitung nach einem beliebigen pi ergibt: 5pi Λ = − log2 (pi ) − 1 − λ. Diese Bedingung ist genau dann Null, wenn gilt: pi = e −1−λ . Das heißt, alle pi haben den gleichen Wert, also pi = 1/N 20

Molekulare Bioinformatik - Vorlesung 10

Information und Entropie Anwendungen Lagrange Multiplikatoren

Zusammenfassung

Wir haben Sequenz Motive kennengelernt und die zugeh¨origen Sequenz Logos. Als erste direkte Anwendung der Entropie haben wir ein Kompressionsverfahren besprochen, die Entropiekodierung. Wir haben die Methode der Lagrange Multiplikatoren eingef¨ uhrt, die es uns erm¨ oglicht Probleme unter Randbedingungen zu l¨ osen.

21

Molekulare Bioinformatik - Vorlesung 10