Bayes sche und probabilistische Netze

Bayes‘sche und probabilistische Netze Gliederung        Wahrscheinlichkeiten Bedingte Unabhängigkeit, Deduktion und Induktion Satz von Bayes...
1 downloads 0 Views 537KB Size
Bayes‘sche und probabilistische Netze

Gliederung       

Wahrscheinlichkeiten Bedingte Unabhängigkeit, Deduktion und Induktion Satz von Bayes Bayes‘sche Netze D-Separierung Probabilistische Inferenz Beispielanwendung

27.01.2004

2

Wahrscheinlichkeiten P ( A)

Wahrscheinlichkeit, dass ein Ereignis A eintritt

P( A, B )

Wahrscheinlichkeit, dass die Ereignisse A und B eintreten

P( A | B)

Wahrscheinlichkeit, dass das Ereignis A eintritt, wenn das Ereignis B eingetreten ist (bedingte Wahrscheinlichkeit)

27.01.2004

3

Baumdiagramme Erste Pfadregel: Die W ahrscheinlichkeit eines Ereignisses ist gleich dem Produkt der W ahrscheinlichkeiten auf dem Pfad, der zu diesem Ereignis führt.

Start 1/3

B

1/2

Zweite Pfadregel: Die W ahrscheinlichkeit eines Ereignisses ist gleich der Summe der D W ahrscheinlichkeiten der Pfade, die dieses Ereignis bilden Aus der ersten Pfadregel folgt: P(B,D) = P(B) * P(D|B) Daraus folgt: P(D|B) = P(B,D) / P(B) 27.01.2004

2/3

C 1/4 1/3

2/3

1/4 F

G

H

E

P(B,D)=P(B)*P(D|B)=1/6

4

Unabhängigkeit Zwei Ereignisse A und B sind unabhängig wenn:

P ( A, B )  P ( B | A)  P ( A)  P ( B)  P( A) Daraus folgt P ( B | A)  P ( B ) Die Wahrscheinlichkeit von B wird von A nicht beeinflusst. Zwei Ereignisse heißen bei gegebenem B bedingt unabhängig, wenn gilt: P (C | A, B )  P (C | B ) Die Wahrscheinlichkeit von C wird durch A nicht beeinflusst. 27.01.2004

5

Deduktion und Induktion Bei der Deduktion wird aus einem eingetretenen Ereignis auf ein davon abhängiges Ereignis geschlossen Bei der Induktion wird aus einem eingetretenen Ereignis auf ein erzeugendes Ereignis zurück geschlossen.

27.01.2004

6

Satz von Bayes Es existiert eine endliche Anzahl von Zufallsprozessen, aus dem einer ausgewählt wird und das Eintreten gewisser Ereignisse zur Folge hat. P(k) sei die Apriori W ahrscheinlichkeit des k-ten Prozesses und P(A|k) sei die bedingte W ahrscheinlichkeit von A und k, dann gilt :

P( k )  P( A | k ) P( k | A)  P( A) Mit der Formel von Bayes kann von einem eingetretenen Ereignis auf ein erzeugendes Ereignis geschlossen werden (Induktion).

27.01.2004

7

Bayes‘sche Netze allgemein(1)      

Systeme mit Unsicherheiten werden durch Bayes‘sche Netze dargestellt Bayes‘sche Netz stellt einen gerichteten azyklischen Graphen dar (DAG) Knoten repräsentieren Zufallsvariablen Kanten repräsentieren direkte stochastische Abhängigkeiten Gesamtmenge der Zufallsvariablen stellt das unsichere Wissen dar Bayes-Netz stellt die Wahrscheinlichkeitsverteilung des unsicheren Wissens graphisch dar.

27.01.2004

8

Bayes‘sche Netze allgemein(2) 

Das Modell besteht aus bedingten Wahrscheinlichkeiten und bedingt unabhängigen Variablen. Jede Variable ist von den Variablen abhängig mit deren Knoten sie durch eine Kante verbunden ist.



Die Kanten werden mit den bedingten Wahrscheinlichkeiten der benachbarten Knoten gewichtet

27.01.2004

9

Beispielszenario Beispielszenario für ein Bayes‘sches Netz: Ich bin nicht zu Hause. Mein Nachbar Harald ruft mich an, um mir mitzuteilen, dass in meinem Haus die Alarmanlage angegangen ist. Meine Nachbarin Stefanie ruft an und teilt mir dasselbe mit. Die Alarmanlage wird manchmal durch leichte Erdbeben ausgelöst oder es könnte sich um einen Einbrecher handeln. Variablen: Erdbeben, Einbruch, Alarm, Anruf Stefanie und Anruf Harald

27.01.2004

10

Beispielszenario Man weiß, dass Erdbeben und Einbruch voneinander unabhängig sind.



P(Erdbeben | Einbruch) = P(Erdbeben) P(Einbruch | Erdbeben) = P(Einbruch) Weiterhin weiß man, dass Harald und Stefanie anrufen, wenn sie den Alarm gehört haben. Dieses Wissen kann in einem Bayes‘schen Netz dargestellt werden. 27.01.2004

11

Beispielszenario Das W issen kann graphisch mit den dazugehörigen W ahrscheinlichkeiten dargestellt werden. P(Erdbeben)

Einbruch

Erdbeben

0,002

P(Einbruch) 0,001

Alarm A

P(H)

True

0,9

False

0,05

Anruf Harald

27.01.2004

Einb.

Erdb.

P(A)

True

True

0,95

True

False

0,94

False

True

0,29

False

False

0,001

Anruf Stefanie

A

P(S)

True

0,7

False

0,01

12

Konstruktion von Bayes‘schen Netzen 1. 2. 3.

Man wählt geeignete Zufallsvariablen aus Reihenfolge der Variablen wird bestimmt Solange noch nicht alle Variablen in‘s Netz eingefügt sind: a) Nimm nächste Variable X i b) Setze die Eltern vonX i auf minimale Menge c) Bestimme die W ahrscheinlichkeitstabelle fürX i

Die Kompaktheit eines Netzes hängt von der Reihenfolge der Variablen sehr stark ab. Beachtet man die Abhängigkeiten der Variablen nicht, kann dies zu sehr komplexen Netzen führen.

27.01.2004

13

Beispiel für eine ungünstige Reihenfolge Wählt man im Beispielszenario den Anruf Stefanie als erste und den Anruf Harald als zweite Variable aus, muss man überprüfen, ob Haralds Anruf von Stefanies Anruf unabhängig ist. P(Anruf Harald | Anruf Stefanie) = P(Anruf Harald)

???

Nein

Hinzufügen von Alarm Anruf Stefanie Anruf Stefanie

Anruf Harald

Anruf Harald

Alarm

27.01.2004

14

Beispiel für eine ungünstige Reihenfolge Beim Hinzufügen von Einbruch, muss überprüft werden, ob Einbruch von Alarm, Anruf Stefanie und Anruf Harald bedingt unabhängig ist. Da Einbruch von den Anrufen unabhängig ist folgt: P(Einbruch | Anruf Stefanie, Anruf Harald, Alarm) = P(Alarm) Anruf Stefanie

Anruf Harald

Alarm

Einbruch

27.01.2004

15

Beispiel für eine ungünstige Reihenfolge Beim Hinzufügen von Erdbeben muss überprüft werden, wovon Erdbeben bedingt unabhängig ist. Da bei einem Alarm die Information über einen Einbruch relevant ist, hängt Erbeben sowohl von Alarm wie auch von Einbruch ab.

Anruf Stefanie

Anruf Harald

Alarm

P(Erdbeben | Einbruch, Alarm, Anruf Stefanie, Anruf Harald) = P(Alarm, Einbruch)

Einbruch

Erdbeben

27.01.2004

16

Vergleich von günstiger und ungünstiger Reihenfolge Einbruch

Erdbeben

Anruf Stefanie

Anruf Harald Alarm Alarm Anruf Harald

Anruf Stefanie Einbruch

Erdbeben

27.01.2004

17

Un / Abhängigkeiten in Bayes‘schen Netzen Definition: | bedeutet: Bei gegebenem Y sind X und Z bedingt unabhängig. Y

Z U

X

V

Z X

| ?? Ja | ?? Nein | ?? JA 27.01.2004

18

D-Separierung Definition: Zwei Knoten X und Y sind d-separiert, durch eine Menge von Evidenzvariablen( Variablen deren Belegung bekannt ist), wenn jeder ungerichtete Pfad zwischen X und Y blockiert ist. Ein Pfad heißt blockiert, wenn eine der folgenden Situationen zutreffen: E

X

Y

Z Z

Z

27.01.2004

19

Beispiel zur D-Separierung Batterie

Radio

Benzin Zündung

Start

Benzin und Radio sind unabhängig, wenn bekannt ist, ob die Zündung funktioniert oder ob die Batterie voll ist. Aber sie werden voneinander abhängig, wenn bekannt wird, ob das Auto startet oder fährt. 27.01.2004

Fahrt

20

Nutzen der D-Separierung 

Mit Tiefensuche kann die D-Separierung in linearer Zeit erfolgen



Die D-Separierung liefert einen schnellen Algorithmus um anzugeben ob eine Belegung einer Variablen zusätzliche Hinweise über andere Variablen liefert.

27.01.2004

21

Probabilistische Inferenz(1) 1.

3.

3.

Diagnostische Inferenz: Es wird vom Symptom auf die Diagnose geschlossen P(Alarm | Anruf Stefanie) Kausale Inferenz: Es wird von der Ursache auf den Effekt geschlossen. P(Anruf Stefanie | Einbruch) Interkausale Inferenz: Zwischen verschiedenen Ursachen desselben Effektes. Die Gegenwart des einen Effektes macht den anderen weniger wahrscheinlich P(Einbruch | Alarm&Erdbeben)

27.01.2004

22

Probabilistische Inferenz(2) 1.

Gemischte Inferenz: Kombinationen aus 1-3 P(Alarm | Anruf Harald &  Erdbeben) Symptom

Ursache

Ursache

Effekt

Ursache

Effekt

Diagnose

Diagnost. Inferenz 27.01.2004

Ursache

Effekt

Kausale Inferenz

Interkausale Inferenz

Gemischte Inferenz 23

Berechnung der bedingten Wahrscheinlichkeit eines Knotens im probabilistischen Netzwerk(1) 1.

2.

5.

Vereinfachte Annahme, dass das Netz nur einfach verbunden ist; es gibt nur einen ungerichteten Pfad zwischen zwei Knoten. (Polytree) Ein Knoten X wird nach seiner diagnostischen und kausalen Evidenz aufgeteilt, die voneinander unabhängig sind. P( X | E )    P ( E X- | X )  P ( X | E X+ ) P ( X | E X+ )

Berechnung der kausalen Evidenz : Es werden alle Kombinationen der W erte der Elternknoten gemäß der W ahrscheinlichkeitstabelle von X betrachtet und diese werden mit ihren W ahrscheinlichkeiten gewichtet, die rekursiv auf die gleiche W eise berechnet wurden.

27.01.2004

24

Berechnung der bedingten Wahrscheinlichkeit eines Knotens im probabilistischen Netzwerk(2) 4. Berechnung der kausalen Evidenz P ( E X | X )

: Es werden alle

Kombinationen der W erte der Kinderknoten gemäß der W ahrscheinlichkeitstabelle der Kinder betrachtet und diese werden mit ihren W ahrscheinlichkeiten gewichtet, die rekursiv auf die gleiche W eise berechnet wurden. Dieser Algorithmus ist proportional zur Anzahl der Knoten n im Netz, also O(n).

27.01.2004

25

Aufteilung der Evidenz für einen Knoten E1

………..

E X+

Em E X+

X

E X-

K1

27.01.2004

……..

Km

26

Inferenz in mehrfach verbundenen probabilistischen Netzen P(w)=0,5

Beispiel:

wolkig

w

P(S)

T

0,1

F

0,5 Regen

Sprinkler

S

R

P(nG)

T

T

0,99

T

F

0,90

nasses

F

T

0,90

Gras

T

T

0,00

w

P(R)

T

0,8

F

0,2

Die Ursache kann mehrere Effekte bewirken. Inferenz in mehrfach verbundenen Netzwerken ist NP-vollständig. 27.01.2004

27

Methoden zur Effizienzsteigerung mehrfach verbundener Netzwerke (1) Cluster Methode: Gruppen von mehrfach verbundenen Knoten werden zu Superknoten zusammengefügt wolkig

Sprinkler und Regen

nasses Gras

27.01.2004

P(w)=0,5

S+R

P(nG)

T T

0,99

T F

0,90

F T

0,90

T T

0,00

28

Methoden zur Effizienzsteigerung mehrfach verbundener Netzwerke (2) Konditionale Methode: Durch W ertebelegung bestimmter Variablen werden einfach verbundene Netze erzeugt. wolkig -

wolkig -

Regen

Spronkler

27.01.2004

wolkig+

wolkig+

Regen

Spronkler

nasses

nasses

Grass

Grass

29

Methoden zur Effizienzsteigerung mehrfach verbundener Netzwerke (3) Stochastische Simulationsmethode: Es werden für die Knoten W erte entsprechend ihrer W ahrscheinlichkeiten gewählt und dies so oft wiederholt, dass man im Mittel eine bestimmt Frage ausreichend sicher wolkig=T

wolkig=T beantworten kann. wolkig=T wolkig=T wolkig=T Regen=T Spronkler=F wolkig=T Regen=T Spronkler=F Regen=T Spronkler=F Regen=T Spronkler=F nasses Regen=T Spronkler=F Gras=T nasses Gras=T nasses Gras=T nasses Gras=T nasses Gras=T 27.01.2004

Regen=T

Spronkler=F

nasses Gras=T

30

Beispielanwendung Online Erstellung individueller Kundenprofile auf elektronischen MarktPlätzen, um den potentiellen Kunden bei der Suche und Auswahl eines Produktes zu unterstützen. Verschiedene Aspekte des Produktes Umweltverträglichkeit werden in Dimensionen eingeteilt und Kunde gibt Bewertung für diese Produkt 1

Dimensionen ab. unscharfe Kundenwünsche

Raumangebot

Sportlichkeit

Produkt 2 kommt eventuell in Betracht 27.01.2004

31

Beispielanwendung Bayes‘sches Netz Soziales Milieu

Geschlecht

Grundorientierung zu Autos Relatives Gewicht von Attribut A auf Dimension D1 für Kunden im allgemeinen

Relatives Gewicht von Attribut A auf Dimension D2 für Kunden im Allgemeinen

Relatives Gewicht von Dimension D1 für Kunde K

Absolutes Gewicht für Attribut A für Kunde K

Signalisierte Präferenz für Dimension1

Relatives Gewicht für Attribut A für Kunde K

Absolutes Gewicht von Dimension D2 für Kunde K

Signalisierte Präferenz für Dimension2

Bewertung der Attributsausprägung durch Kunde K

27.01.2004

32

Zusammenfassung     

Bayes‘sche Netze sind eine Kombination von Graphentheorie und Wahrscheinlichkeitstheorie Wissen wird als Ansammlung von Wahrscheinlichkeiten ausgedrückt Bei Polytree exakte Inferenz in linearer Zeit möglich, ansonsten exponentielle Laufzeit Anwendungen: Entscheidungsfindung, Wissensrepräsentation, Wettervorhersagen, Diagnosen …….. Expertensystem Pathfinder soll besser in der Diagnose sein, als die besten Experten

27.01.2004

33