Klasyfikacja bayesowska

Wykład 14, 26 V 2010, str. 1 Klasyfikacja bayesowska Przykład: (Bishop) M Jabłka i pomarańcze: Wyciągnięto pomarańczę; jakie jest prawdopodobieństwo,...
5 downloads 2 Views 368KB Size
Wykład 14, 26 V 2010, str. 1

Klasyfikacja bayesowska Przykład: (Bishop) M Jabłka i pomarańcze:

Wyciągnięto pomarańczę; jakie jest prawdopodobieństwo, że naczynie było niebieskie?

Wykład 14, 26 V 2010, str. 2

Klasyfikacja bayesowska TWIERDZENIE: (Bayes) M

Wykład 14, 26 V 2010, str. 2

Klasyfikacja bayesowska TWIERDZENIE: (Bayes) M Załóżmy, że • T1 , . . . , Tn są rozłącznymi zdarzeniami

Wykład 14, 26 V 2010, str. 2

Klasyfikacja bayesowska TWIERDZENIE: (Bayes) M Załóżmy, że • T1 , . . . , Tn są rozłącznymi zdarzeniami, oraz Sn • X ⊆ i=1 Ti .

Wykład 14, 26 V 2010, str. 2

Klasyfikacja bayesowska TWIERDZENIE: (Bayes) M Załóżmy, że • T1 , . . . , Tn są rozłącznymi zdarzeniami, oraz Sn • X ⊆ i=1 Ti .

Wtedy

P (Tk | X) =

P (X | Tk ) · P (Tk ) P (X | Tk ) · P (Tk ) = Pn P (X) i=1 P (X | Ti ) · P (Ti )

Wykład 14, 26 V 2010, str. 2

Klasyfikacja bayesowska TWIERDZENIE: (Bayes) M Załóżmy, że • T1 , . . . , Tn są rozłącznymi zdarzeniami, oraz Sn • X ⊆ i=1 Ti .

Wtedy

P (Tk | X) = Dowód:

P (X | Tk ) · P (Tk ) P (X | Tk ) · P (Tk ) = Pn P (X) i=1 P (X | Ti ) · P (Ti )

Wykład 14, 26 V 2010, str. 2

Klasyfikacja bayesowska TWIERDZENIE: (Bayes) M Załóżmy, że • T1 , . . . , Tn są rozłącznymi zdarzeniami, oraz Sn • X ⊆ i=1 Ti .

Wtedy

P (Tk | X) =

P (X | Tk ) · P (Tk ) P (X | Tk ) · P (Tk ) = Pn P (X) i=1 P (X | Ti ) · P (Ti )

Dowód: Z definicji: P (A | B) =

P (A,B) P (B)

Wykład 14, 26 V 2010, str. 2

Klasyfikacja bayesowska TWIERDZENIE: (Bayes) M Załóżmy, że • T1 , . . . , Tn są rozłącznymi zdarzeniami, oraz Sn • X ⊆ i=1 Ti .

Wtedy

P (Tk | X) =

P (X | Tk ) · P (Tk ) P (X | Tk ) · P (Tk ) = Pn P (X) i=1 P (X | Ti ) · P (Ti )

Dowód: Z definicji: P (A | B) =

P (A,B) P (B)

Dla rozłącznych zdarzeń: P (

Sn

i=1 Ai ) =

Pn

i=1

P (Ai )

Wykład 14, 26 V 2010, str. 2

Klasyfikacja bayesowska TWIERDZENIE: (Bayes) M Załóżmy, że • T1 , . . . , Tn są rozłącznymi zdarzeniami, oraz Sn • X ⊆ i=1 Ti .

Wtedy

P (Tk | X) =

P (X | Tk ) · P (Tk ) P (X | Tk ) · P (Tk ) = Pn P (X) i=1 P (X | Ti ) · P (Ti )

Dowód: Z definicji: P (A | B) =

P (A,B) P (B)

Dla rozłącznych zdarzeń: P (

Sn

P (Tk , X) P (Tk | X) = P (X)

i=1

Ai ) =

Pn

i=1

P (Ai )

Wykład 14, 26 V 2010, str. 2

Klasyfikacja bayesowska TWIERDZENIE: (Bayes) M Załóżmy, że • T1 , . . . , Tn są rozłącznymi zdarzeniami, oraz Sn • X ⊆ i=1 Ti .

Wtedy

P (Tk | X) =

P (X | Tk ) · P (Tk ) P (X | Tk ) · P (Tk ) = Pn P (X) i=1 P (X | Ti ) · P (Ti )

Dowód: Z definicji: P (A | B) =

P (A,B) P (B)

Dla rozłącznych zdarzeń: P (

Sn

i=1

Ai ) =

Pn

i=1

P (Ai )

P (X, Tk ) P (Tk ) P (Tk , X) = · P (Tk | X) = P (X) P (Tk ) P (X)

Wykład 14, 26 V 2010, str. 2

Klasyfikacja bayesowska TWIERDZENIE: (Bayes) M Załóżmy, że • T1 , . . . , Tn są rozłącznymi zdarzeniami, oraz Sn • X ⊆ i=1 Ti .

Wtedy

P (Tk | X) =

P (X | Tk ) · P (Tk ) P (X | Tk ) · P (Tk ) = Pn P (X) i=1 P (X | Ti ) · P (Ti )

Dowód: Z definicji: P (A | B) =

P (A,B) P (B)

Dla rozłącznych zdarzeń: P ( P (Tk | X) =

=

Sn

i=1 Ai ) =

Pn

i=1

P (Ai )

P (X, Tk ) P (Tk ) P (Tk , X) = · P (X) P (Tk ) P (X)

P (X | Tk ) · P (Tk ) P (X)

Wykład 14, 26 V 2010, str. 2

Klasyfikacja bayesowska TWIERDZENIE: (Bayes) M Załóżmy, że • T1 , . . . , Tn są rozłącznymi zdarzeniami, oraz Sn • X ⊆ i=1 Ti .

Wtedy

P (Tk | X) =

P (X | Tk ) · P (Tk ) P (X | Tk ) · P (Tk ) = Pn P (X) i=1 P (X | Ti ) · P (Ti )

Dowód: Z definicji: P (A | B) =

P (A,B) P (B)

Dla rozłącznych zdarzeń: P ( P (Tk | X) =

=

Sn

i=1 Ai ) =

Pn

i=1

P (Ai )

P (X, Tk ) P (Tk ) P (Tk , X) = · P (X) P (Tk ) P (X)

P (X | Tk ) · P (Tk ) P (X | Tk ) · P (Tk ) = Pn P (X) i=1 P (X, Ti )

Wykład 14, 26 V 2010, str. 2

Klasyfikacja bayesowska TWIERDZENIE: (Bayes) M Załóżmy, że • T1 , . . . , Tn są rozłącznymi zdarzeniami, oraz Sn • X ⊆ i=1 Ti .

Wtedy

P (Tk | X) =

P (X | Tk ) · P (Tk ) P (X | Tk ) · P (Tk ) = Pn P (X) i=1 P (X | Ti ) · P (Ti )

Dowód: Z definicji: P (A | B) =

P (A,B) P (B)

Dla rozłącznych zdarzeń: P ( P (Tk | X) =

=

Sn

i=1 Ai ) =

Pn

i=1

P (Ai )

P (X, Tk ) P (Tk ) P (Tk , X) = · P (X) P (Tk ) P (X)

P (X | Tk ) · P (Tk ) P (X | Tk ) · P (Tk ) P (X | Tk ) · P (Tk ) = Pn = Pn P (X) i=1 P (X, Ti ) i=1 P (X | Ti ) · P (Ti )

Wykład 14, 26 V 2010, str. 3

Klasyfikacja bayesowska Przykład: (Bishop) M 7 7 P (pom) = 7+5 = 12

P (nb) =

P (pom | nb) =

1 4

4 8+4

=

1 3

Wykład 14, 26 V 2010, str. 3

Klasyfikacja bayesowska Przykład: (Bishop) M 7 7 P (pom) = 7+5 = 12

P (nb) =

P (pom | nb) =

1 4

4 8+4

=

1 3

Wykład 14, 26 V 2010, str. 3

Klasyfikacja bayesowska Przykład: (Bishop) M 7 7 P (pom) = 7+5 = 12

P (nb) =

P (pom | nb) =

1 4

4 8+4

=

1 3

Wykład 14, 26 V 2010, str. 3

Klasyfikacja bayesowska Przykład: (Bishop) M 7 7 P (pom) = 7+5 = 12

P (nb) =

P (pom | nb) =

1 4

4 8+4

=

1 3

Wykład 14, 26 V 2010, str. 3

Klasyfikacja bayesowska Przykład: (Bishop) M 7 7 P (pom) = 7+5 = 12

P (nb) =

P (pom | nb) = P (nb | pom)

1 4

4 8+4

=

1 3

Wykład 14, 26 V 2010, str. 3

Klasyfikacja bayesowska Przykład: (Bishop) M 7 7 = 12 P (pom) = 7+5

P (nb) =

P (pom | nb) =

1 4

P (nb | pom) = P (pom | nb) · P (nb) = P (pom)

4 8+4

=

1 3

Wykład 14, 26 V 2010, str. 3

Klasyfikacja bayesowska Przykład: (Bishop) M 7 7 P (pom) = 7+5 = 12

P (nb) =

P (pom | nb) =

1 4

P (nb | pom) = P (pom | nb) · P (nb) = P (pom) =

1 4

· 7 12

1 3

4 8+4

=

1 3

Wykład 14, 26 V 2010, str. 3

Klasyfikacja bayesowska Przykład: (Bishop) M 7 7 P (pom) = 7+5 = 12

P (nb) =

P (pom | nb) =

1 4

P (nb | pom) = P (pom | nb) · P (nb) = P (pom) =

1 4

· 7 12

1 3

1 1 12 = · · 4 3 7

4 8+4

=

1 3

Wykład 14, 26 V 2010, str. 3

Klasyfikacja bayesowska Przykład: (Bishop) M 7 7 P (pom) = 7+5 = 12

P (nb) =

P (pom | nb) =

4 8+4

=

1 4

P (nb | pom) = P (pom | nb) · P (nb) = P (pom) =

1 4

· 7 12

1 3

1 1 12 1 = · · = 4 3 7 7

1 3

Wykład 14, 26 V 2010, str. 4

Klasyfikacja bayesowska Przykład: (Wikipedia) M Załóżmy, że badamy ludzi testem na narkotyki.

Wykład 14, 26 V 2010, str. 4

Klasyfikacja bayesowska Przykład: (Wikipedia) M Załóżmy, że badamy ludzi testem na narkotyki. I że • prawd. że wynik tego testu dla narkomana jest dodatni: P (+ | nark) = 0.99

Wykład 14, 26 V 2010, str. 4

Klasyfikacja bayesowska Przykład: (Wikipedia) M Załóżmy, że badamy ludzi testem na narkotyki. I że • prawd. że wynik tego testu dla narkomana jest dodatni: P (+ | nark) = 0.99 więc P (− | nark) = 0.01

Wykład 14, 26 V 2010, str. 4

Klasyfikacja bayesowska Przykład: (Wikipedia) M Załóżmy, że badamy ludzi testem na narkotyki. I że • prawd. że wynik tego testu dla narkomana jest dodatni: P (+ | nark) = 0.99 więc P (− | nark) = 0.01; • prawd. że wynik tego testu dla nienarkomana jest ujemny: P (− | ¬nark) = 0.99

Wykład 14, 26 V 2010, str. 4

Klasyfikacja bayesowska Przykład: (Wikipedia) M Załóżmy, że badamy ludzi testem na narkotyki. I że • prawd. że wynik tego testu dla narkomana jest dodatni: P (+ | nark) = 0.99 więc P (− | nark) = 0.01; • prawd. że wynik tego testu dla nienarkomana jest ujemny: P (− | ¬nark) = 0.99 więc P (+ | ¬nark) = 0.01

Wykład 14, 26 V 2010, str. 4

Klasyfikacja bayesowska Przykład: (Wikipedia) M Załóżmy, że badamy ludzi testem na narkotyki. I że • prawd. że wynik tego testu dla narkomana jest dodatni: P (+ | nark) = 0.99 więc P (− | nark) = 0.01; • prawd. że wynik tego testu dla nienarkomana jest ujemny: P (− | ¬nark) = 0.99 więc P (+ | ¬nark) = 0.01; • 0.005 społeczeństwa to narkomani.

Wykład 14, 26 V 2010, str. 4

Klasyfikacja bayesowska Przykład: (Wikipedia) M Załóżmy, że badamy ludzi testem na narkotyki. I że • prawd. że wynik tego testu dla narkomana jest dodatni: P (+ | nark) = 0.99 więc P (− | nark) = 0.01; • prawd. że wynik tego testu dla nienarkomana jest ujemny: P (− | ¬nark) = 0.99 więc P (+ | ¬nark) = 0.01; • 0.005 społeczeństwa to narkomani. Badamy konkretną osobę i test daje wynik pozytywny. Jakie jest prawdopodobieństwo, że trafiliśmy na narkomana?

Wykład 14, 26 V 2010, str. 4

Klasyfikacja bayesowska Przykład: (Wikipedia) M Załóżmy, że badamy ludzi testem na narkotyki. I że • prawd. że wynik tego testu dla narkomana jest dodatni: P (+ | nark) = 0.99 więc P (− | nark) = 0.01; • prawd. że wynik tego testu dla nienarkomana jest ujemny: P (− | ¬nark) = 0.99 więc P (+ | ¬nark) = 0.01; • 0.005 społeczeństwa to narkomani. Badamy konkretną osobę i test daje wynik pozytywny. Jakie jest prawdopodobieństwo, że trafiliśmy na narkomana? P (+ | nark) · P (nark) P (nark | +) = P (+ | nark) · P (nark) + P (+ | ¬nark) · P (¬nark)

Wykład 14, 26 V 2010, str. 4

Klasyfikacja bayesowska Przykład: (Wikipedia) M Załóżmy, że badamy ludzi testem na narkotyki. I że • prawd. że wynik tego testu dla narkomana jest dodatni: P (+ | nark) = 0.99 więc P (− | nark) = 0.01; • prawd. że wynik tego testu dla nienarkomana jest ujemny: P (− | ¬nark) = 0.99 więc P (+ | ¬nark) = 0.01; • 0.005 społeczeństwa to narkomani. Badamy konkretną osobę i test daje wynik pozytywny. Jakie jest prawdopodobieństwo, że trafiliśmy na narkomana? P (+ | nark) · P (nark) P (nark | +) = P (+ | nark) · P (nark) + P (+ | ¬nark) · P (¬nark)

Wykład 14, 26 V 2010, str. 4

Klasyfikacja bayesowska Przykład: (Wikipedia) M Załóżmy, że badamy ludzi testem na narkotyki. I że • prawd. że wynik tego testu dla narkomana jest dodatni: P (+ | nark) = 0.99 więc P (− | nark) = 0.01; • prawd. że wynik tego testu dla nienarkomana jest ujemny: P (− | ¬nark) = 0.99 więc P (+ | ¬nark) = 0.01; • 0.005 społeczeństwa to narkomani. Badamy konkretną osobę i test daje wynik pozytywny. Jakie jest prawdopodobieństwo, że trafiliśmy na narkomana? P (+ | nark) · P (nark) P (nark | +) = P (+ | nark) · P (nark) + P (+ | ¬nark) · P (¬nark) 0.99 · 0.005 = 0.99 · 0.005 + 0.01 · 0.995

Wykład 14, 26 V 2010, str. 4

Klasyfikacja bayesowska Przykład: (Wikipedia) M Załóżmy, że badamy ludzi testem na narkotyki. I że • prawd. że wynik tego testu dla narkomana jest dodatni: P (+ | nark) = 0.99 więc P (− | nark) = 0.01; • prawd. że wynik tego testu dla nienarkomana jest ujemny: P (− | ¬nark) = 0.99 więc P (+ | ¬nark) = 0.01; • 0.005 społeczeństwa to narkomani. Badamy konkretną osobę i test daje wynik pozytywny. Jakie jest prawdopodobieństwo, że trafiliśmy na narkomana? P (+ | nark) · P (nark) P (nark | +) = P (+ | nark) · P (nark) + P (+ | ¬nark) · P (¬nark) 0.99 · 0.005 ≃ 0.332 = 0.99 · 0.005 + 0.01 · 0.995

Wykład 14, 26 V 2010, str. 5

Klasyfikacja bayesowska Przykład: (amerykańskie zaliczenia) M

Wykład 14, 26 V 2010, str. 5

Klasyfikacja bayesowska Przykład: (amerykańskie zaliczenia) M • wśród słuchaczy byli Amerykanie i Chińczycy: P (A) = 0.9 P (C) = 0.1

Wykład 14, 26 V 2010, str. 5

Klasyfikacja bayesowska Przykład: (amerykańskie zaliczenia) M • wśród słuchaczy byli Amerykanie i Chińczycy: P (A) = 0.9 P (C) = 0.1 • wśród Amerykanów było znacznie więcej mężczyzn niż kobiet; wśród Chińczyków po równo: P (k | A) = 0.1 P (m | A) = 0.9 P (k | C) = 0.5 P (m | C) = 0.5

Wykład 14, 26 V 2010, str. 5

Klasyfikacja bayesowska Przykład: (amerykańskie zaliczenia) M • wśród słuchaczy byli Amerykanie i Chińczycy: P (A) = 0.9 P (C) = 0.1 • wśród Amerykanów było znacznie więcej mężczyzn niż kobiet; wśród Chińczyków po równo: P (k | A) = 0.1 P (m | A) = 0.9 P (k | C) = 0.5 P (m | C) = 0.5 • Chińczycy nie mieli problemu z zaliczeniem, niezależnie od płci: P (zal | C, k) = 1 P (zal | C, m) = 1

Wykład 14, 26 V 2010, str. 5

Klasyfikacja bayesowska Przykład: (amerykańskie zaliczenia) M • wśród słuchaczy byli Amerykanie i Chińczycy: P (A) = 0.9 P (C) = 0.1 • wśród Amerykanów było znacznie więcej mężczyzn niż kobiet; wśród Chińczyków po równo: P (k | A) = 0.1 P (m | A) = 0.9 P (k | C) = 0.5 P (m | C) = 0.5 • Chińczycy nie mieli problemu z zaliczeniem, niezależnie od płci: P (zal | C, k) = 1 P (zal | C, m) = 1 • Amerykanie byli słabsi a Amerykanki beznadziejnie słabe: P (zal | A, k) = 0.2 P (zal | A, m) = 0.4

Wykład 14, 26 V 2010, str. 5

Klasyfikacja bayesowska Przykład: (amerykańskie zaliczenia) M • wśród słuchaczy byli Amerykanie i Chińczycy: P (A) = 0.9 P (C) = 0.1 • wśród Amerykanów było znacznie więcej mężczyzn niż kobiet; wśród Chińczyków po równo: P (k | A) = 0.1 P (m | A) = 0.9 P (k | C) = 0.5 P (m | C) = 0.5 • Chińczycy nie mieli problemu z zaliczeniem, niezależnie od płci: P (zal | C, k) = 1 P (zal | C, m) = 1 • Amerykanie byli słabsi a Amerykanki beznadziejnie słabe: P (zal | A, k) = 0.2 P (zal | A, m) = 0.4 Na tej podstawie zespół d/s equal opportunity (równego traktowania) zarzucił mi szykanowanie kobiet.

Wykład 14, 26 V 2010, str. 6

Klasyfikacja bayesowska Przykład: (amerykańskie zaliczenia) M P (A) = 0.9 P (C) = 0.1 P (k | A) = 0.1 P (k | C) = 0.5 P (zal | A, k) = 0.2 P (zal | C, k) = 1

P (m | A) = 0.9 P (zal | A, m) = 0.4

P (m | C) = 0.5 P (zal | C, m) = 1

Wykład 14, 26 V 2010, str. 6

Klasyfikacja bayesowska Przykład: (amerykańskie zaliczenia) M P (A) = 0.9 P (C) = 0.1 P (k | A) = 0.1 P (k | C) = 0.5 P (m | A) = 0.9 P (m | C) = 0.5 P (zal | A, k) = 0.2 P (zal | C, k) = 1 P (zal | A, m) = 0.4 P (zal | C, m) = 1 Tymczasem P (A, k) = P (k | A) · P (A) = 0.1 · 0.9 = 0.09

Wykład 14, 26 V 2010, str. 6

Klasyfikacja bayesowska Przykład: (amerykańskie zaliczenia) M P (A) = 0.9 P (C) = 0.1 P (k | A) = 0.1 P (zal | A, k) = 0.2

P (k | C) = 0.5 P (m | A) = 0.9 P (m | C) = 0.5 P (zal | C, k) = 1 P (zal | A, m) = 0.4 P (zal | C, m) = 1

Tymczasem P (A, k) = P (k | A) · P (A) = 0.1 · 0.9 = 0.09 P (C, k) = P (k | C) · P (C) = 0.5 · 0.1 = 0.05 P (A, m) = P (m | A) · P (A) = 0.9 · 0.9 = 0.81 P (C, m) = P (m | C) · P (C) = 0.5 · 0.1 = 0.05

Wykład 14, 26 V 2010, str. 6

Klasyfikacja bayesowska Przykład: (amerykańskie zaliczenia) M P (A) = 0.9 P (C) = 0.1 P (k | A) = 0.1 P (zal | A, k) = 0.2

P (k | C) = 0.5 P (m | A) = 0.9 P (m | C) = 0.5 P (zal | C, k) = 1 P (zal | A, m) = 0.4 P (zal | C, m) = 1

Tymczasem P (A, k) = P (k | A) · P (A) = 0.1 · 0.9 = 0.09 P (C, k) = P (k | C) · P (C) = 0.5 · 0.1 = 0.05 P (A, m) = P (m | A) · P (A) = 0.9 · 0.9 = 0.81 P (C, m) = P (m | C) · P (C) = 0.5 · 0.1 = 0.05 więc P (zal, k) P (zal | k) = P (k)

Wykład 14, 26 V 2010, str. 6

Klasyfikacja bayesowska Przykład: (amerykańskie zaliczenia) M P (A) = 0.9 P (C) = 0.1 P (k | A) = 0.1 P (zal | A, k) = 0.2

P (k | C) = 0.5 P (m | A) = 0.9 P (m | C) = 0.5 P (zal | C, k) = 1 P (zal | A, m) = 0.4 P (zal | C, m) = 1

Tymczasem P (A, k) = P (k | A) · P (A) = 0.1 · 0.9 = 0.09 P (C, k) = P (k | C) · P (C) = 0.5 · 0.1 = 0.05 P (A, m) = P (m | A) · P (A) = 0.9 · 0.9 = 0.81 P (C, m) = P (m | C) · P (C) = 0.5 · 0.1 = 0.05 więc P (zal, k) P (zal, A, k) + P (zal, C, k) P (zal | k) = = P (k) P (A, k) + P (C, k)

Wykład 14, 26 V 2010, str. 6

Klasyfikacja bayesowska Przykład: (amerykańskie zaliczenia) M P (A) = 0.9 P (C) = 0.1 P (k | A) = 0.1 P (k | C) = 0.5 P (zal | A, k) = 0.2 P (zal | C, k) = 1

P (m | A) = 0.9 P (zal | A, m) = 0.4

Tymczasem P (A, k) = P (k | A) · P (A) = 0.1 · 0.9 = 0.09 P (C, k) = P (k | C) · P (C) = 0.5 · 0.1 = 0.05 P (A, m) = P (m | A) · P (A) = 0.9 · 0.9 = 0.81 P (C, m) = P (m | C) · P (C) = 0.5 · 0.1 = 0.05 więc P (zal, A, k) + P (zal, C, k) P (zal, k) = P (zal | k) = P (k) P (A, k) + P (C, k) P (zal | A, k) · P (A, k) + P (zal | C, k) · P (C, k) = P (A, k) + P (C, k)

P (m | C) = 0.5 P (zal | C, m) = 1

Wykład 14, 26 V 2010, str. 6

Klasyfikacja bayesowska Przykład: (amerykańskie zaliczenia) M P (A) = 0.9 P (C) = 0.1 P (k | A) = 0.1 P (k | C) = 0.5 P (zal | A, k) = 0.2 P (zal | C, k) = 1

P (m | A) = 0.9 P (zal | A, m) = 0.4

P (m | C) = 0.5 P (zal | C, m) = 1

Tymczasem P (A, k) = P (k | A) · P (A) = 0.1 · 0.9 = 0.09 P (C, k) = P (k | C) · P (C) = 0.5 · 0.1 = 0.05 P (A, m) = P (m | A) · P (A) = 0.9 · 0.9 = 0.81 P (C, m) = P (m | C) · P (C) = 0.5 · 0.1 = 0.05 więc P (zal, A, k) + P (zal, C, k) P (zal, k) = P (zal | k) = P (k) P (A, k) + P (C, k) P (zal | A, k) · P (A, k) + P (zal | C, k) · P (C, k) 0.2 · 0.09 + 1 · 0.05 = = P (A, k) + P (C, k) 0.09 + 0.05

Wykład 14, 26 V 2010, str. 6

Klasyfikacja bayesowska Przykład: (amerykańskie zaliczenia) M P (A) = 0.9 P (C) = 0.1 P (k | A) = 0.1 P (k | C) = 0.5 P (m | A) = 0.9 P (m | C) = 0.5 P (zal | A, k) = 0.2 P (zal | C, k) = 1 P (zal | A, m) = 0.4 P (zal | C, m) = 1 Tymczasem P (A, k) = P (k | A) · P (A) = 0.1 · 0.9 = 0.09 P (C, k) = P (k | C) · P (C) = 0.5 · 0.1 = 0.05 P (A, m) = P (m | A) · P (A) = 0.9 · 0.9 = 0.81 P (C, m) = P (m | C) · P (C) = 0.5 · 0.1 = 0.05 więc P (zal, A, k) + P (zal, C, k) P (zal, k) = P (zal | k) = P (k) P (A, k) + P (C, k) P (zal | A, k) · P (A, k) + P (zal | C, k) · P (C, k) 0.2 · 0.09 + 1 · 0.05 = = P (A, k) + P (C, k) 0.09 + 0.05 ≃ 0.486

Wykład 14, 26 V 2010, str. 7

Klasyfikacja bayesowska Przykład: (amerykańskie zaliczenia) M P (A) = 0.9 P (C) = 0.1 P (k | A) = 0.1 P (zal | A, k) = 0.2

P (k | C) = 0.5 P (m | A) = 0.9 P (m | C) = 0.5 P (zal | C, k) = 1 P (zal | A, m) = 0.4 P (zal | C, m) = 1

Tymczasem P (A, k) = P (k | A) · P (A) = 0.1 · 0.9 = 0.09 P (C, k) = P (k | C) · P (C) = 0.5 · 0.1 = 0.05 P (A, m) = P (m | A) · P (A) = 0.9 · 0.9 = 0.81 P (C, m) = P (m | C) · P (C) = 0.5 · 0.1 = 0.05

Wykład 14, 26 V 2010, str. 7

Klasyfikacja bayesowska Przykład: (amerykańskie zaliczenia) M P (A) = 0.9 P (C) = 0.1 P (k | A) = 0.1 P (zal | A, k) = 0.2

P (k | C) = 0.5 P (m | A) = 0.9 P (m | C) = 0.5 P (zal | C, k) = 1 P (zal | A, m) = 0.4 P (zal | C, m) = 1

Tymczasem P (A, k) = P (k | A) · P (A) = 0.1 · 0.9 = 0.09 P (C, k) = P (k | C) · P (C) = 0.5 · 0.1 = 0.05 P (A, m) = P (m | A) · P (A) = 0.9 · 0.9 = 0.81 P (C, m) = P (m | C) · P (C) = 0.5 · 0.1 = 0.05 więc P (zal, m) P (zal | m) = P (m)

Wykład 14, 26 V 2010, str. 7

Klasyfikacja bayesowska Przykład: (amerykańskie zaliczenia) M P (A) = 0.9 P (C) = 0.1 P (k | A) = 0.1 P (zal | A, k) = 0.2

P (k | C) = 0.5 P (m | A) = 0.9 P (m | C) = 0.5 P (zal | C, k) = 1 P (zal | A, m) = 0.4 P (zal | C, m) = 1

Tymczasem P (A, k) = P (k | A) · P (A) = 0.1 · 0.9 = 0.09 P (C, k) = P (k | C) · P (C) = 0.5 · 0.1 = 0.05 P (A, m) = P (m | A) · P (A) = 0.9 · 0.9 = 0.81 P (C, m) = P (m | C) · P (C) = 0.5 · 0.1 = 0.05 więc P (zal, m) P (zal, A, m) + P (zal, C, m) P (zal | m) = = P (m) P (A, m) + P (C, m)

Wykład 14, 26 V 2010, str. 7

Klasyfikacja bayesowska Przykład: (amerykańskie zaliczenia) M P (A) = 0.9 P (C) = 0.1 P (k | A) = 0.1 P (k | C) = 0.5 P (zal | A, k) = 0.2 P (zal | C, k) = 1

P (m | A) = 0.9 P (zal | A, m) = 0.4

Tymczasem P (A, k) = P (k | A) · P (A) = 0.1 · 0.9 = 0.09 P (C, k) = P (k | C) · P (C) = 0.5 · 0.1 = 0.05 P (A, m) = P (m | A) · P (A) = 0.9 · 0.9 = 0.81 P (C, m) = P (m | C) · P (C) = 0.5 · 0.1 = 0.05 więc P (zal, A, m) + P (zal, C, m) P (zal, m) = P (zal | m) = P (m) P (A, m) + P (C, m) P (zal | A, m) · P (A, m) + P (zal | C, m) · P (C, m) = P (A, m) + P (C, m)

P (m | C) = 0.5 P (zal | C, m) = 1

Wykład 14, 26 V 2010, str. 7

Klasyfikacja bayesowska Przykład: (amerykańskie zaliczenia) M P (A) = 0.9 P (C) = 0.1 P (k | A) = 0.1 P (k | C) = 0.5 P (zal | A, k) = 0.2 P (zal | C, k) = 1

P (m | A) = 0.9 P (zal | A, m) = 0.4

P (m | C) = 0.5 P (zal | C, m) = 1

Tymczasem P (A, k) = P (k | A) · P (A) = 0.1 · 0.9 = 0.09 P (C, k) = P (k | C) · P (C) = 0.5 · 0.1 = 0.05 P (A, m) = P (m | A) · P (A) = 0.9 · 0.9 = 0.81 P (C, m) = P (m | C) · P (C) = 0.5 · 0.1 = 0.05 więc P (zal, A, m) + P (zal, C, m) P (zal, m) = P (zal | m) = P (m) P (A, m) + P (C, m) P (zal | A, m) · P (A, m) + P (zal | C, m) · P (C, m) 0.4 · 0.81 + 1 · 0.05 = = P (A, m) + P (C, m) 0.81 + 0.05

Wykład 14, 26 V 2010, str. 7

Klasyfikacja bayesowska Przykład: (amerykańskie zaliczenia) M P (A) = 0.9 P (C) = 0.1 P (k | A) = 0.1 P (k | C) = 0.5 P (m | A) = 0.9 P (m | C) = 0.5 P (zal | A, k) = 0.2 P (zal | C, k) = 1 P (zal | A, m) = 0.4 P (zal | C, m) = 1 Tymczasem P (A, k) = P (k | A) · P (A) = 0.1 · 0.9 = 0.09 P (C, k) = P (k | C) · P (C) = 0.5 · 0.1 = 0.05 P (A, m) = P (m | A) · P (A) = 0.9 · 0.9 = 0.81 P (C, m) = P (m | C) · P (C) = 0.5 · 0.1 = 0.05 więc P (zal, A, m) + P (zal, C, m) P (zal, m) = P (zal | m) = P (m) P (A, m) + P (C, m) P (zal | A, m) · P (A, m) + P (zal | C, m) · P (C, m) 0.4 · 0.81 + 1 · 0.05 = = P (A, m) + P (C, m) 0.81 + 0.05 ≃ 0.435

Wykład 14, 26 V 2010, str. 7

Klasyfikacja bayesowska Przykład: (amerykańskie zaliczenia) M P (A) = 0.9 P (C) = 0.1 P (k | A) = 0.1 P (k | C) = 0.5 P (m | A) = 0.9 P (m | C) = 0.5 P (zal | A, k) = 0.2 P (zal | C, k) = 1 P (zal | A, m) = 0.4 P (zal | C, m) = 1 Tymczasem P (A, k) = P (k | A) · P (A) = 0.1 · 0.9 = 0.09 P (C, k) = P (k | C) · P (C) = 0.5 · 0.1 = 0.05 P (A, m) = P (m | A) · P (A) = 0.9 · 0.9 = 0.81 P (C, m) = P (m | C) · P (C) = 0.5 · 0.1 = 0.05 więc P (zal, A, m) + P (zal, C, m) P (zal, m) = P (zal | m) = P (m) P (A, m) + P (C, m) P (zal | A, m) · P (A, m) + P (zal | C, m) · P (C, m) 0.4 · 0.81 + 1 · 0.05 = = P (A, m) + P (C, m) 0.81 + 0.05 ≃ 0.435 < 0.486 = P (zal | k)

Wykład 14, 26 V 2010, str. 8

Klasyfikacja bayesowska TWIERDZENIE: (uogólnione Bayesa) M Załóżmy, że e1 , . . . , en , e, h są zdarzeniami; ozn.: e ¯ def = e1 & . . . &en . Wtedy P (h | e, e ¯) =

P (e | h, e ¯) · P (h | e ¯) P (e | e ¯)

Wykład 14, 26 V 2010, str. 8

Klasyfikacja bayesowska TWIERDZENIE: (uogólnione Bayesa) M Załóżmy, że e1 , . . . , en , e, h są zdarzeniami; ozn.: e ¯ def = e1 & . . . &en . Wtedy P (h | e, e ¯) =

P (e | h, e ¯) · P (h | e ¯) P (e | e ¯)

Dowód: P (h, e, e ¯) P (h | e, e ¯) = P (e, e ¯)

Wykład 14, 26 V 2010, str. 8

Klasyfikacja bayesowska TWIERDZENIE: (uogólnione Bayesa) M Załóżmy, że e1 , . . . , en , e, h są zdarzeniami; ozn.: e ¯ def = e1 & . . . &en . Wtedy P (h | e, e ¯) =

P (e | h, e ¯) · P (h | e ¯) P (e | e ¯)

Dowód: P (h, e, e ¯) P (e | h, e ¯) · P (h, e ¯) P (h | e, e ¯) = = P (e, e ¯) P (e | e ¯) · P (¯ e)

Wykład 14, 26 V 2010, str. 8

Klasyfikacja bayesowska TWIERDZENIE: (uogólnione Bayesa) M Załóżmy, że e1 , . . . , en , e, h są zdarzeniami; ozn.: e ¯ def = e1 & . . . &en . Wtedy P (h | e, e ¯) =

P (e | h, e ¯) · P (h | e ¯) P (e | e ¯)

Dowód: P (h, e, e ¯) P (e | h, e ¯) · P (h, e ¯) P (h | e, e ¯) = = P (e, e ¯) P (e | e ¯) · P (¯ e) =

P (e | h, e ¯) · P (h | e ¯) · P (¯ e) P (e | e ¯) · P (¯ e)

Wykład 14, 26 V 2010, str. 8

Klasyfikacja bayesowska TWIERDZENIE: (uogólnione Bayesa) M Załóżmy, że e1 , . . . , en , e, h są zdarzeniami; ozn.: e ¯ def = e1 & . . . &en . Wtedy P (h | e, e ¯) =

P (e | h, e ¯) · P (h | e ¯) P (e | e ¯)

Dowód: P (h, e, e ¯) P (e | h, e ¯) · P (h, e ¯) P (h | e, e ¯) = = P (e, e ¯) P (e | e ¯) · P (¯ e) =

P (e | h, e ¯) · P (h | e ¯) P (e | h, e ¯) · P (h | e ¯) · P (¯ e) = P (e | e ¯) · P (¯ e) P (e | e ¯)

Wykład 14, 26 V 2010, str. 8

Klasyfikacja bayesowska TWIERDZENIE: (uogólnione Bayesa) M Załóżmy, że e1 , . . . , en , e, h są zdarzeniami; ozn.: e ¯ def = e1 & . . . &en . Wtedy P (h | e, e ¯) =

P (e | h, e ¯) · P (h | e ¯) P (e | e ¯)

Dowód: P (h, e, e ¯) P (e | h, e ¯) · P (h, e ¯) P (h | e, e ¯) = = P (e, e ¯) P (e | e ¯) · P (¯ e) =

P (e | h, e ¯) · P (h | e ¯) P (e | h, e ¯) · P (h | e ¯) · P (¯ e) = P (e | e ¯) · P (¯ e) P (e | e ¯)

Wniosek: M Jeśli zdarzenia e1 , . . . , en są niezależne, to P (h | e, e ¯) =

P (e | h) · P (h | e ¯) P (e)

Wykład 14, 26 V 2010, str. 9

Klasyfikacja bayesowska Wniosek: M Jeśli zdarzenia e1 , . . . , en są niezależne, to

P (e | h) · P (h | e ¯) P (h | e, e ¯) = P (e)

Wykład 14, 26 V 2010, str. 9

Klasyfikacja bayesowska Wniosek: M Jeśli zdarzenia e1 , . . . , en są niezależne, to

P (e | h) · P (h | e ¯) P (h | e, e ¯) = P (e)

• wniosek z uogólnionego tw. Bayesa stosowany jest do wyliczania prawdopodobieństwa, że zachodzi hipoteza h, w oparciu o hipotezy e ¯

Wykład 14, 26 V 2010, str. 9

Klasyfikacja bayesowska Wniosek: M Jeśli zdarzenia e1 , . . . , en są niezależne, to

P (e | h) · P (h | e ¯) P (h | e, e ¯) = P (e)

• wniosek z uogólnionego tw. Bayesa stosowany jest do wyliczania prawdopodobieństwa, że zachodzi hipoteza h, w oparciu o hipotezy e ¯; • założenie o niezależności obserwacji, bardzo upraszczające obliczenia, zwykle jest spełnione, lub przynajmniej spełnione w przybliżeniu

Wykład 14, 26 V 2010, str. 9

Klasyfikacja bayesowska Wniosek: M Jeśli zdarzenia e1 , . . . , en są niezależne, to

P (e | h) · P (h | e ¯) P (h | e, e ¯) = P (e)

• wniosek z uogólnionego tw. Bayesa stosowany jest do wyliczania prawdopodobień¯; stwa, że zachodzi hipoteza h, w oparciu o hipotezy e • założenie o niezależności obserwacji, bardzo upraszczające obliczenia, zwykle jest spełnione, lub przynajmniej spełnione w przybliżeniu; • wniosek pokazuje, jak zmienia się prawdopodobieństwo spełnienia h w wyniku dodania kolejnej obserwacji

Wykład 14, 26 V 2010, str. 9

Klasyfikacja bayesowska Wniosek: M Jeśli zdarzenia e1 , . . . , en są niezależne, to

P (e | h) · P (h | e ¯) P (h | e, e ¯) = P (e)

• wniosek z uogólnionego tw. Bayesa stosowany jest do wyliczania prawdopodobień¯; stwa, że zachodzi hipoteza h, w oparciu o hipotezy e • założenie o niezależności obserwacji, bardzo upraszczające obliczenia, zwykle jest spełnione, lub przynajmniej spełnione w przybliżeniu; • wniosek pokazuje, jak zmienia się prawdopodobieństwo spełnienia h w wyniku dodania kolejnej obserwacji; • dysponujemy trzema równościami:  P (e | h)   · P (h | e ¯) P (h | e, e ¯ ) =    P (e) P (e | ¬h) · P (¬h | e ¯) P (¬h | e, e ¯ ) =    P (e)  P (h | e, e ¯) + P (¬h | e, e ¯) = 1

Wykład 14, 26 V 2010, str. 9

Klasyfikacja bayesowska Wniosek: M Jeśli zdarzenia e1 , . . . , en są niezależne, to

P (e | h) · P (h | e ¯) P (h | e, e ¯) = P (e)

• wniosek z uogólnionego tw. Bayesa stosowany jest do wyliczania prawdopodobień¯; stwa, że zachodzi hipoteza h, w oparciu o hipotezy e • założenie o niezależności obserwacji, bardzo upraszczające obliczenia, zwykle jest spełnione, lub przynajmniej spełnione w przybliżeniu; • wniosek pokazuje, jak zmienia się prawdopodobieństwo spełnienia h w wyniku dodania kolejnej obserwacji; • dysponujemy trzema równościami:  P (e | h)   P (h | e, e ¯ ) = · P (h | e ¯)    P (e) P (e | ¬h) P (¬h | e, e ¯ ) = · P (¬h | e ¯)    P (e)  P (h | e, e ¯) + P (¬h | e, e ¯) = 1 nie znamy P (e), P (h | e, e ¯), P (¬h | e, e ¯)

Wykład 14, 26 V 2010, str. 9

Klasyfikacja bayesowska Wniosek: M Jeśli zdarzenia e1 , . . . , en są niezależne, to

P (e | h) · P (h | e ¯) P (h | e, e ¯) = P (e)

• wniosek z uogólnionego tw. Bayesa stosowany jest do wyliczania prawdopodobień¯; stwa, że zachodzi hipoteza h, w oparciu o hipotezy e • założenie o niezależności obserwacji, bardzo upraszczające obliczenia, zwykle jest spełnione, lub przynajmniej spełnione w przybliżeniu; • wniosek pokazuje, jak zmienia się prawdopodobieństwo spełnienia h w wyniku dodania kolejnej obserwacji; • dysponujemy trzema równościami:  P (e | h)   P (h | e, e ¯ ) = · P (h | e ¯)    P (e) P (e | ¬h) P (¬h | e, e ¯ ) = · P (¬h | e ¯)    P (e)  P (h | e, e ¯) + P (¬h | e, e ¯) = 1 nie znamy P (e), P (h | e, e ¯), P (¬h | e, e ¯) znamy P (e | h), P (e | ¬h), P (h | e ¯), P (¬h | e ¯)

Wykład 14, 26 V 2010, str. 10

Klasyfikacja bayesowska Przykład: (prof. Wierzchoń) M Obserwacje: • e1 — pacjent ma gorączkę, • e2 — pacjent kaszle, • e3 — pacjent ma katar.

Wykład 14, 26 V 2010, str. 10

Klasyfikacja bayesowska Przykład: (prof. Wierzchoń) M Obserwacje: • e1 — pacjent ma gorączkę, • e2 — pacjent kaszle, • e3 — pacjent ma katar. Hipoteza: h — pacjent ma grypę.

Wykład 14, 26 V 2010, str. 10

Klasyfikacja bayesowska Przykład: (prof. Wierzchoń) M Obserwacje: • e1 — pacjent ma gorączkę, • e2 — pacjent kaszle, • e3 — pacjent ma katar. Hipoteza: h — pacjent ma grypę. Panuje grypa; prawdopodobieństwo, że pacjent, zgłaszający się do lekarza, ma grypę, wynosi P (h) = 0.8 .

Wykład 14, 26 V 2010, str. 10

Klasyfikacja bayesowska Przykład: (prof. Wierzchoń) M Obserwacje: • e1 — pacjent ma gorączkę, • e2 — pacjent kaszle, • e3 — pacjent ma katar. Hipoteza: h — pacjent ma grypę. Panuje grypa; prawdopodobieństwo, że pacjent, zgłaszający się do lekarza, ma grypę, wynosi P (h) = 0.8 . Z podręcznika medycyny: P (e1 | h) = 0.7 P (e2 | h) = 0.4 P (e3 | h) = 0.6

Wykład 14, 26 V 2010, str. 10

Klasyfikacja bayesowska Przykład: (prof. Wierzchoń) M Obserwacje: • e1 — pacjent ma gorączkę, • e2 — pacjent kaszle, • e3 — pacjent ma katar. Hipoteza: h — pacjent ma grypę. Panuje grypa; prawdopodobieństwo, że pacjent, zgłaszający się do lekarza, ma grypę, wynosi P (h) = 0.8 . Z podręcznika medycyny: P (e1 | h) = 0.7 P (e2 | h) = 0.4 P (e3 | h) = 0.6 P (e1 | ¬h) = 0.6 P (e2 | ¬h) = 0.3 P (e3 | ¬h) = 0.4

Wykład 14, 26 V 2010, str. 10

Klasyfikacja bayesowska Przykład: (prof. Wierzchoń) M Obserwacje: • e1 — pacjent ma gorączkę, • e2 — pacjent kaszle, • e3 — pacjent ma katar. Hipoteza: h — pacjent ma grypę. Panuje grypa; prawdopodobieństwo, że pacjent, zgłaszający się do lekarza, ma grypę, wynosi P (h) = 0.8 . Z podręcznika medycyny: P (e1 | h) = 0.7 P (e2 | h) = 0.4 P (e3 | h) = 0.6 P (e1 | ¬h) = 0.6 P (e2 | ¬h) = 0.3 P (e3 | ¬h) = 0.4 Konkretny pacjent ma gorączkę i katar, ale nie kaszle; jakie jest prawdopodobieństwo, że ma grypę?

Wykład 14, 26 V 2010, str. 10

Klasyfikacja bayesowska Przykład: (prof. Wierzchoń) M Obserwacje: • e1 — pacjent ma gorączkę, • e2 — pacjent kaszle, • e3 — pacjent ma katar. Hipoteza: h — pacjent ma grypę. Panuje grypa; prawdopodobieństwo, że pacjent, zgłaszający się do lekarza, ma grypę, wynosi P (h) = 0.8 . Z podręcznika medycyny: P (e1 | h) = 0.7 P (e2 | h) = 0.4 P (e3 | h) = 0.6 P (e1 | ¬h) = 0.6 P (e2 | ¬h) = 0.3 P (e3 | ¬h) = 0.4 Konkretny pacjent ma gorączkę i katar, ale nie kaszle; jakie jest prawdopodobieństwo, że ma grypę? P (h | e1 , ¬e2 , e3 ) = ?

Wykład 14, 26 V 2010, str. 11

Klasyfikacja bayesowska Przykład: (prof. Wierzchoń) P (h) = 0.8 P (e2 | h) = 0.4 P (e3 | h) = 0.6 M P (e1 | h) = 0.7 P (e1 | ¬h) = 0.6 P (e2 | ¬h) = 0.3 P (e3 | ¬h) = 0.4

Wykład 14, 26 V 2010, str. 11

Klasyfikacja bayesowska Przykład: (prof. Wierzchoń) P (h) = 0.8 P (e2 | h) = 0.4 M P (e1 | h) = 0.7 P (e1 | ¬h) = 0.6 P (e2 | ¬h) = 0.3 P (h | e1 ) =

P (e3 | h) = 0.6 P (e3 | ¬h) = 0.4

0.7 P (e1 | h) · P (h) = · 0.8 P (e1 ) P (e1 )

Wykład 14, 26 V 2010, str. 11

Klasyfikacja bayesowska Przykład: (prof. Wierzchoń) P (h) = 0.8 P (e2 | h) = 0.4 P (e3 | h) = 0.6 M P (e1 | h) = 0.7 P (e1 | ¬h) = 0.6 P (e2 | ¬h) = 0.3 P (e3 | ¬h) = 0.4 P (e1 | h) 0.7 P (h | e1 ) = · P (h) = · 0.8 P (e1 ) P (e1 ) 0.6 P (e1 | ¬h) · P (¬h) = · 0.2 P (¬h | e1 ) = P (e1 ) P (e1 )

Wykład 14, 26 V 2010, str. 11

Klasyfikacja bayesowska Przykład: (prof. Wierzchoń) P (h) = 0.8 P (e2 | h) = 0.4 P (e3 | h) = 0.6 M P (e1 | h) = 0.7 P (e1 | ¬h) = 0.6 P (e2 | ¬h) = 0.3 P (e3 | ¬h) = 0.4 P (e1 | h) 0.7 P (h | e1 ) = · P (h) = · 0.8 P (e1 ) P (e1 ) P (e1 | ¬h) 0.6 P (¬h | e1 ) = · P (¬h) = · 0.2 P (e1 ) P (e1 ) 1=

1 · (0.7 · 0.8 + 0.6 · 0.2) P (e1 )

Wykład 14, 26 V 2010, str. 11

Klasyfikacja bayesowska Przykład: (prof. Wierzchoń) P (h) = 0.8 P (e2 | h) = 0.4 P (e3 | h) = 0.6 M P (e1 | h) = 0.7 P (e1 | ¬h) = 0.6 P (e2 | ¬h) = 0.3 P (e3 | ¬h) = 0.4 0.7 P (e1 | h) · P (h) = · 0.8 P (h | e1 ) = P (e1 ) P (e1 ) P (e1 | ¬h) 0.6 P (¬h | e1 ) = · P (¬h) = · 0.2 P (e1 ) P (e1 ) 1=

1 · (0.7 · 0.8 + 0.6 · 0.2) P (e1 )

P (e1 ) = 0.7 · 0.8 + 0.6 · 0.2 = 0.68

Wykład 14, 26 V 2010, str. 11

Klasyfikacja bayesowska Przykład: (prof. Wierzchoń) P (h) = 0.8 P (e2 | h) = 0.4 M P (e1 | h) = 0.7 P (e1 | ¬h) = 0.6 P (e2 | ¬h) = 0.3 P (h | e1 ) =

P (e3 | h) = 0.6 P (e3 | ¬h) = 0.4

0.7 P (e1 | h) · P (h) = · 0.8 P (e1 ) P (e1 )

P (e1 | ¬h) 0.6 P (¬h | e1 ) = · P (¬h) = · 0.2 P (e1 ) P (e1 ) 1=

1 · (0.7 · 0.8 + 0.6 · 0.2) P (e1 )

P (e1 ) = 0.7 · 0.8 + 0.6 · 0.2 = 0.68

0.7 P (h | e1 ) = · 0.8 = 0.82 0.68

Wykład 14, 26 V 2010, str. 11

Klasyfikacja bayesowska Przykład: (prof. Wierzchoń) P (h) = 0.8 P (e2 | h) = 0.4 M P (e1 | h) = 0.7 P (e1 | ¬h) = 0.6 P (e2 | ¬h) = 0.3 P (h | e1 ) =

P (e3 | h) = 0.6 P (e3 | ¬h) = 0.4

0.7 P (e1 | h) · P (h) = · 0.8 P (e1 ) P (e1 )

P (e1 | ¬h) 0.6 P (¬h | e1 ) = · P (¬h) = · 0.2 P (e1 ) P (e1 ) 1=

1 · (0.7 · 0.8 + 0.6 · 0.2) P (e1 )

P (e1 ) = 0.7 · 0.8 + 0.6 · 0.2 = 0.68

0.7 P (h | e1 ) = · 0.8 = 0.82 0.68

0.6 P (¬h | e1 ) = · 0.2 = 0.18 0.68

Wykład 14, 26 V 2010, str. 12

Klasyfikacja bayesowska Przykład: (prof. Wierzchoń) P (h) = 0.8 P (e1 | h) = 0.7 P (e2 | h) = 0.4 M P (e1 | ¬h) = 0.6 P (e2 | ¬h) = 0.3 P (h | e1 ) = 0.82 P (¬h | e1 ) = 0.18

P (e3 | h) = 0.6 P (e3 | ¬h) = 0.4

Wykład 14, 26 V 2010, str. 12

Klasyfikacja bayesowska Przykład: (prof. Wierzchoń) P (h) = 0.8 P (e1 | h) = 0.7 P (e2 | h) = 0.4 P (e3 | h) = 0.6 M P (e1 | ¬h) = 0.6 P (e2 | ¬h) = 0.3 P (e3 | ¬h) = 0.4 P (h | e1 ) = 0.82 P (¬h | e1 ) = 0.18 P (¬e2 | h) 0.6 P (h | e1 , ¬e2 ) = · P (h | e1 ) = · 0.82 P (¬e2 ) P (¬e2 )

Wykład 14, 26 V 2010, str. 12

Klasyfikacja bayesowska Przykład: (prof. Wierzchoń) P (h) = 0.8 P (e1 | h) = 0.7 P (e2 | h) = 0.4 M P (e1 | ¬h) = 0.6 P (e2 | ¬h) = 0.3 P (h | e1 ) = 0.82 P (¬h | e1 ) = 0.18

P (e3 | h) = 0.6 P (e3 | ¬h) = 0.4

0.6 P (¬e2 | h) · P (h | e1 ) = · 0.82 P (h | e1 , ¬e2 ) = P (¬e2 ) P (¬e2 ) 0.7 P (¬e2 | ¬h) · P (¬h | e1 ) = · 0.18 P (¬h | e1 , ¬e2 ) = P (¬e2 ) P (¬e2 )

Wykład 14, 26 V 2010, str. 12

Klasyfikacja bayesowska Przykład: (prof. Wierzchoń) P (h) = 0.8 P (e1 | h) = 0.7 P (e2 | h) = 0.4 M P (e1 | ¬h) = 0.6 P (e2 | ¬h) = 0.3 P (h | e1 ) = 0.82 P (¬h | e1 ) = 0.18

P (e3 | h) = 0.6 P (e3 | ¬h) = 0.4

0.6 P (¬e2 | h) · P (h | e1 ) = · 0.82 P (h | e1 , ¬e2 ) = P (¬e2 ) P (¬e2 ) 0.7 P (¬e2 | ¬h) · P (¬h | e1 ) = · 0.18 P (¬h | e1 , ¬e2 ) = P (¬e2 ) P (¬e2 ) 1 1= · (0.6 · 0.82 + 0.7 · 0.18) P (¬e2 )

Wykład 14, 26 V 2010, str. 12

Klasyfikacja bayesowska Przykład: (prof. Wierzchoń) P (h) = 0.8 P (e1 | h) = 0.7 P (e2 | h) = 0.4 P (e3 | h) = 0.6 M P (e1 | ¬h) = 0.6 P (e2 | ¬h) = 0.3 P (e3 | ¬h) = 0.4 P (h | e1 ) = 0.82 P (¬h | e1 ) = 0.18 P (¬e2 | h) 0.6 P (h | e1 , ¬e2 ) = · P (h | e1 ) = · 0.82 P (¬e2 ) P (¬e2 ) 0.7 P (¬e2 | ¬h) · P (¬h | e1 ) = · 0.18 P (¬h | e1 , ¬e2 ) = P (¬e2 ) P (¬e2 ) 1 · (0.6 · 0.82 + 0.7 · 0.18) 1= P (¬e2 ) P (¬e2 ) = 0.6 · 0.82 + 0.7 · 0.18 = 0.62

Wykład 14, 26 V 2010, str. 12

Klasyfikacja bayesowska Przykład: (prof. Wierzchoń) P (h) = 0.8 P (e1 | h) = 0.7 P (e2 | h) = 0.4 M P (e1 | ¬h) = 0.6 P (e2 | ¬h) = 0.3 P (h | e1 ) = 0.82 P (¬h | e1 ) = 0.18

P (e3 | h) = 0.6 P (e3 | ¬h) = 0.4

0.6 P (¬e2 | h) · P (h | e1 ) = · 0.82 P (h | e1 , ¬e2 ) = P (¬e2 ) P (¬e2 ) 0.7 P (¬e2 | ¬h) · P (¬h | e1 ) = · 0.18 P (¬h | e1 , ¬e2 ) = P (¬e2 ) P (¬e2 ) 1 1= · (0.6 · 0.82 + 0.7 · 0.18) P (¬e2 ) P (¬e2 ) = 0.6 · 0.82 + 0.7 · 0.18 = 0.62

0.6 ·0.82 = 0.8 P (h | e1 , ¬e2 ) = 0.62

0.7 P (¬h | e1 , ¬e2 ) = ·0.18 = 0.2 0.62

Wykład 14, 26 V 2010, str. 13

Klasyfikacja bayesowska Przykład: (prof. Wierzchoń) P (h) = 0.8 P (e1 | h) = 0.7 P (e2 | h) = 0.4 P (e2 | ¬h) = 0.3 M P (e1 | ¬h) = 0.6 P (h | e1 ) = 0.82 P (¬h | e1 ) = 0.18 P (h | e1 , ¬e2 ) = 0.8 P (¬h | e1 , ¬e2 ) = 0.2

P (e3 | h) = 0.6 P (e3 | ¬h) = 0.4

Wykład 14, 26 V 2010, str. 13

Klasyfikacja bayesowska Przykład: (prof. Wierzchoń) P (h) = 0.8 P (e1 | h) = 0.7 P (e2 | h) = 0.4 P (e3 | h) = 0.6 P (e2 | ¬h) = 0.3 P (e3 | ¬h) = 0.4 M P (e1 | ¬h) = 0.6 P (h | e1 ) = 0.82 P (¬h | e1 ) = 0.18 P (h | e1 , ¬e2 ) = 0.8 P (¬h | e1 , ¬e2 ) = 0.2 0.6 P (e3 | h) · P (h | e1 , ¬e2 ) = · 0.8 P (h | e1 , ¬e2 , e3 ) = P (e3 ) P (e3 ) P (e3 | ¬h) 0.4 P (¬h | e1 , ¬e2 , e3 ) = · P (¬h | e1 , ¬e2 ) = · 0.2 P (e3 ) P (e3 ) 1 · (0.6 · 0.8 + 0.4 · 0.2) 1= P (e3 ) P (e3 ) = 0.6 · 0.8 + 0.4 · 0.2 = 0.56

Wykład 14, 26 V 2010, str. 13

Klasyfikacja bayesowska Przykład: (prof. Wierzchoń) P (h) = 0.8 P (e1 | h) = 0.7 P (e2 | h) = 0.4 P (e3 | h) = 0.6 P (e2 | ¬h) = 0.3 P (e3 | ¬h) = 0.4 M P (e1 | ¬h) = 0.6 P (h | e1 ) = 0.82 P (¬h | e1 ) = 0.18 P (h | e1 , ¬e2 ) = 0.8 P (¬h | e1 , ¬e2 ) = 0.2 0.6 P (e3 | h) · P (h | e1 , ¬e2 ) = · 0.8 P (h | e1 , ¬e2 , e3 ) = P (e3 ) P (e3 ) P (e3 | ¬h) 0.4 P (¬h | e1 , ¬e2 , e3 ) = · P (¬h | e1 , ¬e2 ) = · 0.2 P (e3 ) P (e3 ) 1 · (0.6 · 0.8 + 0.4 · 0.2) 1= P (e3 ) P (e3 ) = 0.6 · 0.8 + 0.4 · 0.2 = 0.56

0.6 · 0.8 = 0.86 P (h | e1 , ¬e2 , e3 ) = 0.56

Wykład 14, 26 V 2010, str. 13

Klasyfikacja bayesowska Przykład: (prof. Wierzchoń) P (h) = 0.8 P (e1 | h) = 0.7 P (e2 | h) = 0.4 P (e3 | h) = 0.6 P (e2 | ¬h) = 0.3 P (e3 | ¬h) = 0.4 M P (e1 | ¬h) = 0.6 P (h | e1 ) = 0.82 P (¬h | e1 ) = 0.18 P (h | e1 , ¬e2 ) = 0.8 P (¬h | e1 , ¬e2 ) = 0.2 0.6 P (e3 | h) · P (h | e1 , ¬e2 ) = · 0.8 P (h | e1 , ¬e2 , e3 ) = P (e3 ) P (e3 ) P (e3 | ¬h) 0.4 P (¬h | e1 , ¬e2 , e3 ) = · P (¬h | e1 , ¬e2 ) = · 0.2 P (e3 ) P (e3 ) 1 · (0.6 · 0.8 + 0.4 · 0.2) 1= P (e3 ) P (e3 ) = 0.6 · 0.8 + 0.4 · 0.2 = 0.56

0.6 · 0.8 = 0.86 P (h | e1 , ¬e2 , e3 ) = 0.56

Wykład 14, 26 V 2010, str. 14

Klasyfikacja bayesowska Jak nowe obserwacje zmieniają prawdopodobieństwo spełnienia hipotezy h ?

Wykład 14, 26 V 2010, str. 14

Klasyfikacja bayesowska Jak nowe obserwacje zmieniają prawdopodobieństwo spełnienia hipotezy h: P (h) = 0.8 P (h | e1 ) = 0.82 P (h | e1 , ¬e2 ) = 0.8 P (h | e1 , ¬e2 , e3 ) = 0.86

Wykład 14, 26 V 2010, str. 14

Klasyfikacja bayesowska Jak nowe obserwacje zmieniają prawdopodobieństwo spełnienia hipotezy h: P (h) = 0.8 P (h | e1 ) = 0.82 P (h | e1 , ¬e2 ) = 0.8 P (h | e1 , ¬e2 , e3 ) = 0.86

Wykład 14, 26 V 2010, str. 14

Klasyfikacja bayesowska Jak nowe obserwacje zmieniają prawdopodobieństwo spełnienia hipotezy h: P (h) = 0.8 P (h | e1 ) = 0.82 P (h | e1 , ¬e2 ) = 0.8 P (h | e1 , ¬e2 , e3 ) = 0.86

Wykład 14, 26 V 2010, str. 14

Klasyfikacja bayesowska Jak nowe obserwacje zmieniają prawdopodobieństwo spełnienia hipotezy h: P (h) = 0.8 P (h | e1 ) = 0.82 P (h | e1 , ¬e2 ) = 0.8 P (h | e1 , ¬e2 , e3 ) = 0.86

Wykład 14, 26 V 2010, str. 15

Klasyfikacja bayesowska Naiwny klasyfikator Bayesowski

Wykład 14, 26 V 2010, str. 15

Klasyfikacja bayesowska Naiwny klasyfikator Bayesowski Treningowy zbiór dokumentów: pieniądze szybko pieniądze SPAM

pieniądze wygrałeś SPAM

pieniądze rynek analiza NIE SPAM

rynek wygrałeś szybko SPAM

Wykład 14, 26 V 2010, str. 15

Klasyfikacja bayesowska Naiwny klasyfikator Bayesowski Treningowy zbiór dokumentów: pieniądze szybko pieniądze SPAM

pieniądze wygrałeś SPAM

Jak zaklasyfikować nowy dokument?

pieniądze rynek analiza NIE SPAM

rynek wygrałeś szybko SPAM

Wykład 14, 26 V 2010, str. 15

Klasyfikacja bayesowska Naiwny klasyfikator Bayesowski Treningowy zbiór dokumentów: pieniądze szybko pieniądze SPAM

pieniądze wygrałeś SPAM

pieniądze rynek analiza NIE SPAM

Jak zaklasyfikować nowy dokument? rynek szybko CZY SPAM?

rynek wygrałeś szybko SPAM

Wykład 14, 26 V 2010, str. 16

Klasyfikacja bayesowska prawd. a priori, że spam: P (S) = 2 = P (rynek | S) = 1+1 8+5 13 3 2+1 = 13 P (szybko | S) = 8+5 prawd., że spam: P (S)·P (rynek|S)·P (szybko|S) =

3 4

pieniądze szybko pieniądze SPAM

0+1 2+5

=

1 7

pieniądze wygrałeś SPAM

pieniądze rynek analiza NIE SPAM

3·2·3 Jak zaklasyfikować nowy dokument? 4·13·13

prawd. a priori, że nie spam: P (¬S) = 1+1 = 27 P (rynek | ¬S) = 2+5 P (szybko | ¬S) =

Treningowy zbiór dokumentów:

1 4

rynek szybko CZY SPAM?

rynek wygrałeś szybko SPAM

Wykład 14, 26 V 2010, str. 16

Klasyfikacja bayesowska prawd. a priori, że spam: P (S) = 2 P (rynek | S) = 1+1 = 8+5 13 3 2+1 = 13 P (szybko | S) = 8+5 prawd., że spam: P (S)·P (rynek|S)·P (szybko|S) =

3 4

pieniądze szybko pieniądze SPAM

0+1 2+5

=

1 7

pieniądze wygrałeś SPAM

pieniądze rynek analiza NIE SPAM

3·2·3 4·13·13 Jak zaklasyfikować nowy dokument?

prawd. a priori, że nie spam: P (¬S) = 1+1 = 27 P (rynek | ¬S) = 2+5 P (szybko | ¬S) =

Treningowy zbiór dokumentów:

1 4

rynek szybko CZY SPAM?

rynek wygrałeś szybko SPAM

Wykład 14, 26 V 2010, str. 16

Klasyfikacja bayesowska prawd. a priori, że spam: P (S) = 2 = P (rynek | S) = 1+1 8+5 13 2+1 3 P (szybko | S) = 8+5 = 13 prawd., że spam: P (S)·P (rynek|S)·P (szybko|S) =

3 4

pieniądze szybko pieniądze SPAM

0+1 2+5

=

1 7

pieniądze wygrałeś SPAM

pieniądze rynek analiza NIE SPAM

3·2·3 4·13·13 Jak zaklasyfikować nowy dokument?

prawd. a priori, że nie spam: P (¬S) = 1+1 = 27 P (rynek | ¬S) = 2+5 P (szybko | ¬S) =

Treningowy zbiór dokumentów:

1 4

rynek szybko CZY SPAM?

rynek wygrałeś szybko SPAM

Wykład 14, 26 V 2010, str. 16

Klasyfikacja bayesowska prawd. a priori, że spam: P (S) = 2 = P (rynek | S) = 1+1 8+5 13 3 2+1 = 13 P (szybko | S) = 8+5 prawd., że spam: P (S)·P (rynek|S)·P (szybko|S) =

3 4

pieniądze szybko pieniądze SPAM

0+1 2+5

=

1 7

pieniądze wygrałeś SPAM

pieniądze rynek analiza NIE SPAM

3·2·3 4·13·13 Jak zaklasyfikować nowy dokument?

prawd. a priori, że nie spam: P (¬S) = 1+1 = 27 P (rynek | ¬S) = 2+5 P (szybko | ¬S) =

Treningowy zbiór dokumentów:

1 4

rynek szybko CZY SPAM?

rynek wygrałeś szybko SPAM

Wykład 14, 26 V 2010, str. 16

Klasyfikacja bayesowska prawd. a priori, że spam: P (S) = 2 = P (rynek | S) = 1+1 8+5 13 3 2+1 = 13 P (szybko | S) = 8+5 prawd., że spam: P (S)·P (rynek|S)·P (szybko|S) =

3 4

pieniądze szybko pieniądze SPAM

0+1 2+5

=

1 7

pieniądze wygrałeś SPAM

pieniądze rynek analiza NIE SPAM

3·2·3 4·13·13 Jak zaklasyfikować nowy dokument?

prawd. a priori, że nie spam: P (¬S) = 1+1 = 27 P (rynek | ¬S) = 2+5 P (szybko | ¬S) =

Treningowy zbiór dokumentów:

1 4

rynek szybko CZY SPAM?

rynek wygrałeś szybko SPAM

Wykład 14, 26 V 2010, str. 16

Klasyfikacja bayesowska prawd. a priori, że spam: P (S) = 2 = P (rynek | S) = 1+1 8+5 13 3 2+1 = 13 P (szybko | S) = 8+5 prawd., że spam: P (S)·P (rynek|S)·P (szybko|S) =

3 4

pieniądze szybko pieniądze SPAM

0+1 2+5

=

1 7

pieniądze wygrałeś SPAM

pieniądze rynek analiza NIE SPAM

3·2·3 4·13·13 Jak zaklasyfikować nowy dokument?

prawd. a priori, że nie spam: P (¬S) = 1+1 P (rynek | ¬S) = 2+5 = 27 P (szybko | ¬S) =

Treningowy zbiór dokumentów:

1 4

rynek szybko CZY SPAM?

rynek wygrałeś szybko SPAM

Wykład 14, 26 V 2010, str. 16

Klasyfikacja bayesowska prawd. a priori, że spam: P (S) = 2 = P (rynek | S) = 1+1 8+5 13 3 2+1 = 13 P (szybko | S) = 8+5 prawd., że spam: P (S)·P (rynek|S)·P (szybko|S) =

3 4

pieniądze szybko pieniądze SPAM

0+1 2+5

=

1 7

pieniądze wygrałeś SPAM

pieniądze rynek analiza NIE SPAM

3·2·3 4·13·13 Jak zaklasyfikować nowy dokument?

prawd. a priori, że nie spam: P (¬S) = 1+1 = 27 P (rynek | ¬S) = 2+5 P (szybko | ¬S) =

Treningowy zbiór dokumentów:

1 4

rynek szybko CZY SPAM?

rynek wygrałeś szybko SPAM

Wykład 14, 26 V 2010, str. 16

Klasyfikacja bayesowska prawd. a priori, że spam: P (S) = 2 = P (rynek | S) = 1+1 8+5 13 3 2+1 = 13 P (szybko | S) = 8+5 prawd., że spam: P (S)·P (rynek|S)·P (szybko|S) =

3 4

pieniądze szybko pieniądze SPAM

0+1 2+5

=

1 7

pieniądze wygrałeś SPAM

pieniądze rynek analiza NIE SPAM

3·2·3 4·13·13 Jak zaklasyfikować nowy dokument?

prawd. a priori, że nie spam: P (¬S) = 1+1 = 27 P (rynek | ¬S) = 2+5 P (szybko | ¬S) =

Treningowy zbiór dokumentów:

1 4

rynek szybko CZY SPAM?

rynek wygrałeś szybko SPAM

Wykład 14, 26 V 2010, str. 16

Klasyfikacja bayesowska prawd. a priori, że spam: P (S) = 2 = P (rynek | S) = 1+1 8+5 13 3 2+1 = 13 P (szybko | S) = 8+5 prawd., że spam: P (S)·P (rynek|S)·P (szybko|S) =

3 4

Treningowy zbiór dokumentów: pieniądze szybko pieniądze SPAM

pieniądze wygrałeś SPAM

pieniądze rynek analiza NIE SPAM

3·2·3 4·13·13 Jak zaklasyfikować nowy dokument?

prawd. a priori, że nie spam: P (¬S) = 2 P (rynek | ¬S) = 1+1 = 2+5 7 1 P (szybko | ¬S) = 0+1 = 2+5 7 prawd., że nie spam: P (¬S)·P (rynek|¬S)·P (szybko|¬S)

1 4

rynek szybko CZY SPAM?

rynek wygrałeś szybko SPAM

Wykład 14, 26 V 2010, str. 16

Klasyfikacja bayesowska prawd. a priori, że spam: P (S) = 2 = P (rynek | S) = 1+1 8+5 13 3 2+1 = 13 P (szybko | S) = 8+5 prawd., że spam: P (S)·P (rynek|S)·P (szybko|S) =

3 4

Treningowy zbiór dokumentów: pieniądze szybko pieniądze SPAM

pieniądze wygrałeś SPAM

pieniądze rynek analiza NIE SPAM

3·2·3 4·13·13 Jak zaklasyfikować nowy dokument?

prawd. a priori, że nie spam: P (¬S) = 1+1 = 72 P (rynek | ¬S) = 2+5 1 P (szybko | ¬S) = 0+1 = 2+5 7 prawd., że nie spam: P (¬S)·P (rynek|¬S)·P (szybko|¬S) =

1 4

1·2·1 4·7·7

rynek szybko CZY SPAM?

rynek wygrałeś szybko SPAM

Wykład 14, 26 V 2010, str. 16

Klasyfikacja bayesowska prawd. a priori, że spam: P (S) = 2 = P (rynek | S) = 1+1 8+5 13 3 2+1 = 13 P (szybko | S) = 8+5 prawd., że spam: P (S)·P (rynek|S)·P (szybko|S) =

3 4

pieniądze szybko pieniądze SPAM

0+1 P (szybko | ¬S) = 2+5 = 17 prawd., że nie spam: P (¬S)·P (rynek|¬S)·P (szybko|¬S) = 3·2·3 4·13·13

pieniądze wygrałeś SPAM

pieniądze rynek analiza NIE SPAM

3·2·3 4·13·13 Jak zaklasyfikować nowy dokument?

prawd. a priori, że nie spam: P (¬S) = 1+1 = 27 P (rynek | ¬S) = 2+5

P (S | rynek, szybko) =

Treningowy zbiór dokumentów:

1 4

1·2·1 4·7·7

rynek szybko CZY SPAM?

rynek wygrałeś szybko SPAM

Wykład 14, 26 V 2010, str. 16

Klasyfikacja bayesowska prawd. a priori, że spam: P (S) = 2 = P (rynek | S) = 1+1 8+5 13 3 2+1 = 13 P (szybko | S) = 8+5 prawd., że spam: P (S)·P (rynek|S)·P (szybko|S) =

3 4

pieniądze szybko pieniądze SPAM

0+1 P (szybko | ¬S) = 2+5 = 17 prawd., że nie spam: P (¬S)·P (rynek|¬S)·P (szybko|¬S) = 3·2·3 4·13·13

pieniądze wygrałeś SPAM

pieniądze rynek analiza NIE SPAM

3·2·3 4·13·13 Jak zaklasyfikować nowy dokument?

prawd. a priori, że nie spam: P (¬S) = 1+1 = 27 P (rynek | ¬S) = 2+5

P (S | rynek, szybko) =

Treningowy zbiór dokumentów:

1 4

1·2·1 4·7·7

≃ 0.0266

rynek szybko CZY SPAM?

rynek wygrałeś szybko SPAM

Wykład 14, 26 V 2010, str. 16

Klasyfikacja bayesowska prawd. a priori, że spam: P (S) = 2 = P (rynek | S) = 1+1 8+5 13 3 2+1 = 13 P (szybko | S) = 8+5 prawd., że spam: P (S)·P (rynek|S)·P (szybko|S) =

3 4

pieniądze szybko pieniądze SPAM

0+1 P (szybko | ¬S) = 2+5 = 17 prawd., że nie spam: P (¬S)·P (rynek|¬S)·P (szybko|¬S) =

1 4

1·2·1 4·7·7

3·2·3 4·13·13

≃ 0.0266

1·2·1 4·7·7

≃ 0.0102

P (¬S | rynek, szybko) =

pieniądze wygrałeś SPAM

pieniądze rynek analiza NIE SPAM

3·2·3 4·13·13 Jak zaklasyfikować nowy dokument?

prawd. a priori, że nie spam: P (¬S) = 1+1 = 27 P (rynek | ¬S) = 2+5

P (S | rynek, szybko) =

Treningowy zbiór dokumentów:

rynek szybko CZY SPAM?

rynek wygrałeś szybko SPAM

Wykład 14, 26 V 2010, str. 16

Klasyfikacja bayesowska prawd. a priori, że spam: P (S) = 2 = P (rynek | S) = 1+1 8+5 13 3 2+1 = 13 P (szybko | S) = 8+5 prawd., że spam: P (S)·P (rynek|S)·P (szybko|S) =

3 4

pieniądze szybko pieniądze SPAM

0+1 P (szybko | ¬S) = 2+5 = 17 prawd., że nie spam: P (¬S)·P (rynek|¬S)·P (szybko|¬S) = 3·2·3 4·13·13

P (¬S | rynek, szybko) =

1·2·1 4·7·7

pieniądze wygrałeś SPAM

pieniądze rynek analiza NIE SPAM

3·2·3 4·13·13 Jak zaklasyfikować nowy dokument?

prawd. a priori, że nie spam: P (¬S) = 1+1 = 27 P (rynek | ¬S) = 2+5

P (S | rynek, szybko) =

Treningowy zbiór dokumentów:

1 4

rynek szybko CZY SPAM?

1·2·1 4·7·7

≃ 0.0266 ≃ 0.0102 < P (S | rynek, szybko)

rynek wygrałeś szybko SPAM

Wykład 14, 26 V 2010, str. 16

Klasyfikacja bayesowska prawd. a priori, że spam: P (S) = 2 = P (rynek | S) = 1+1 8+5 13 3 2+1 = 13 P (szybko | S) = 8+5 prawd., że spam: P (S)·P (rynek|S)·P (szybko|S) =

3 4

pieniądze szybko pieniądze SPAM

1 P (szybko | ¬S) = 0+1 = 2+5 7 prawd., że nie spam: P (¬S)·P (rynek|¬S)·P (szybko|¬S) = 3·2·3 4·13·13

P (¬S | rynek, szybko) = Więc spam.

1·2·1 4·7·7

pieniądze wygrałeś SPAM

pieniądze rynek analiza NIE SPAM

3·2·3 4·13·13 Jak zaklasyfikować nowy dokument?

prawd. a priori, że nie spam: P (¬S) = 2 P (rynek | ¬S) = 1+1 = 2+5 7

P (S | rynek, szybko) =

Treningowy zbiór dokumentów:

1 4

rynek szybko CZY SPAM?

1·2·1 4·7·7

≃ 0.0266 ≃ 0.0102 < P (S | rynek, szybko)

rynek wygrałeś szybko SPAM

Wykład 14, 26 V 2010, str. 17

Klasyfikacja bayesowska Zakładamy, że obserwacje x1 , . . . , xn są warunkowo niezależne względem hipotezy h

Wykład 14, 26 V 2010, str. 17

Klasyfikacja bayesowska Zakładamy, że obserwacje x1 , . . . , xn są warunkowo niezależne względem hipotezy h: P (h, x1 , . . . , xn ) = P (h) · P (x1 | h) · . . . · P (xn | h) (założenie z sufitu, ale daje zadziwiająco dobre wyniki).

Wykład 14, 26 V 2010, str. 17

Klasyfikacja bayesowska Zakładamy, że obserwacje x1 , . . . , xn są warunkowo niezależne względem hipotezy h: P (h, x1 , . . . , xn ) = P (h) · P (x1 | h) · . . . · P (xn | h) (założenie z sufitu, ale daje zadziwiająco dobre wyniki). Wtedy P (h, x1 , . . . , xn ) P (h | x1 , . . . , xn ) = P (x1 , . . . , xn )

Wykład 14, 26 V 2010, str. 17

Klasyfikacja bayesowska Zakładamy, że obserwacje x1 , . . . , xn są warunkowo niezależne względem hipotezy h: P (h, x1 , . . . , xn ) = P (h) · P (x1 | h) · . . . · P (xn | h) (założenie z sufitu, ale daje zadziwiająco dobre wyniki). Wtedy P (h, x1 , . . . , xn ) P (h | x1 , . . . , xn ) = P (x1 , . . . , xn ) 1 = · P (h) · P (x1 | h) · . . . · P (xn | h) P (x1 , . . . , xn )

Wykład 14, 26 V 2010, str. 17

Klasyfikacja bayesowska Zakładamy, że obserwacje x1 , . . . , xn są warunkowo niezależne względem hipotezy h: P (h, x1 , . . . , xn ) = P (h) · P (x1 | h) · . . . · P (xn | h) (założenie z sufitu, ale daje zadziwiająco dobre wyniki). Wtedy P (h, x1 , . . . , xn ) P (h | x1 , . . . , xn ) = P (x1 , . . . , xn ) 1 = · P (h) · P (x1 | h) · . . . · P (xn | h) P (x1 , . . . , xn ) Dh • P (h) = D

Wykład 14, 26 V 2010, str. 17

Klasyfikacja bayesowska Zakładamy, że obserwacje x1 , . . . , xn są warunkowo niezależne względem hipotezy h: P (h, x1 , . . . , xn ) = P (h) · P (x1 | h) · . . . · P (xn | h) (założenie z sufitu, ale daje zadziwiająco dobre wyniki). Wtedy P (h, x1 , . . . , xn ) P (h | x1 , . . . , xn ) = P (x1 , . . . , xn ) 1 = · P (h) · P (x1 | h) · . . . · P (xn | h) P (x1 , . . . , xn ) Dh • P (h) = — prawd. h a priori: Dh to liczba dok. spełniających h D

Wykład 14, 26 V 2010, str. 17

Klasyfikacja bayesowska Zakładamy, że obserwacje x1 , . . . , xn są warunkowo niezależne względem hipotezy h: P (h, x1 , . . . , xn ) = P (h) · P (x1 | h) · . . . · P (xn | h) (założenie z sufitu, ale daje zadziwiająco dobre wyniki). Wtedy P (h, x1 , . . . , xn ) P (h | x1 , . . . , xn ) = P (x1 , . . . , xn ) 1 · P (h) · P (x1 | h) · . . . · P (xn | h) = P (x1 , . . . , xn ) Dh • P (h) = — prawd. h a priori: Dh to liczba dok. spełniających h, D D to liczba wszystkich dok.

Wykład 14, 26 V 2010, str. 17

Klasyfikacja bayesowska Zakładamy, że obserwacje x1 , . . . , xn są warunkowo niezależne względem hipotezy h: P (h, x1 , . . . , xn ) = P (h) · P (x1 | h) · . . . · P (xn | h) (założenie z sufitu, ale daje zadziwiająco dobre wyniki). Wtedy P (h, x1 , . . . , xn ) P (h | x1 , . . . , xn ) = P (x1 , . . . , xn ) 1 = · P (h) · P (x1 | h) · . . . · P (xn | h) P (x1 , . . . , xn ) Dh • P (h) = — prawd. h a priori: Dh to liczba dok. spełniających h, D D to liczba wszystkich dok. • P (xi | h) ≃ PZ

Ti + 1

k=1 (Tk

+ 1)

Wykład 14, 26 V 2010, str. 17

Klasyfikacja bayesowska Zakładamy, że obserwacje x1 , . . . , xn są warunkowo niezależne względem hipotezy h: P (h, x1 , . . . , xn ) = P (h) · P (x1 | h) · . . . · P (xn | h) (założenie z sufitu, ale daje zadziwiająco dobre wyniki). Wtedy P (h, x1 , . . . , xn ) P (h | x1 , . . . , xn ) = P (x1 , . . . , xn ) 1 = · P (h) · P (x1 | h) · . . . · P (xn | h) P (x1 , . . . , xn ) Dh • P (h) = — prawd. h a priori: Dh to liczba dok. spełniających h, D D to liczba wszystkich dok. • P (xi | h) ≃ PZ

Ti + 1

Ti + 1

= PZ ( k=1 Tk ) + Z k=1 (Tk + 1)

Wykład 14, 26 V 2010, str. 17

Klasyfikacja bayesowska Zakładamy, że obserwacje x1 , . . . , xn są warunkowo niezależne względem hipotezy h: P (h, x1 , . . . , xn ) = P (h) · P (x1 | h) · . . . · P (xn | h) (założenie z sufitu, ale daje zadziwiająco dobre wyniki). Wtedy P (h, x1 , . . . , xn ) P (h | x1 , . . . , xn ) = P (x1 , . . . , xn ) 1 = · P (h) · P (x1 | h) · . . . · P (xn | h) P (x1 , . . . , xn ) Dh • P (h) = — prawd. h a priori: Dh to liczba dok. spełniających h, D D to liczba wszystkich dok. • P (xi | h) ≃ PZ

Ti + 1

Ti + 1

= PZ ( k=1 Tk ) + Z k=1 (Tk + 1)

Ti to liczba wystąpień cechy xi w dokumentach spełniających h

Wykład 14, 26 V 2010, str. 17

Klasyfikacja bayesowska Zakładamy, że obserwacje x1 , . . . , xn są warunkowo niezależne względem hipotezy h: P (h, x1 , . . . , xn ) = P (h) · P (x1 | h) · . . . · P (xn | h) (założenie z sufitu, ale daje zadziwiająco dobre wyniki). Wtedy P (h, x1 , . . . , xn ) P (h | x1 , . . . , xn ) = P (x1 , . . . , xn ) 1 = · P (h) · P (x1 | h) · . . . · P (xn | h) P (x1 , . . . , xn ) Dh • P (h) = — prawd. h a priori: Dh to liczba dok. spełniających h, D D to liczba wszystkich dok. • P (xi | h) ≃ PZ

Ti + 1

Ti + 1

= PZ ( k=1 Tk ) + Z k=1 (Tk + 1)

Ti to liczba wystąpień cechy xi w dokumentach spełniających h, Z to liczba cech występujących w dokumentach spełniających h

Wykład 14, 26 V 2010, str. 17

Klasyfikacja bayesowska Zakładamy, że obserwacje x1 , . . . , xn są warunkowo niezależne względem hipotezy h: P (h, x1 , . . . , xn ) = P (h) · P (x1 | h) · . . . · P (xn | h) (założenie z sufitu, ale daje zadziwiająco dobre wyniki). Wtedy P (h, x1 , . . . , xn ) P (h | x1 , . . . , xn ) = P (x1 , . . . , xn ) 1 = · P (h) · P (x1 | h) · . . . · P (xn | h) P (x1 , . . . , xn ) Dh • P (h) = — prawd. h a priori: Dh to liczba dok. spełniających h, D D to liczba wszystkich dok. • P (xi | h) ≃ PZ

Ti + 1

Ti + 1

= PZ ( k=1 Tk ) + Z k=1 (Tk + 1)

Ti to liczba wystąpień cechy xi w dokumentach spełniających h, Z to liczba cech występujących w dokumentach spełniających h, PZ k=1 Tk to liczba wystąpień wszystkich cech we wszystkich dok. spełniających h

Wykład 14, 26 V 2010, str. 18

Klasyfikacja bayesowska Ti + 1 P (xi | h) ≃ PZ k=1 (Tk + 1)

Wykład 14, 26 V 2010, str. 18

Klasyfikacja bayesowska Ti + 1 P (xi | h) ≃ PZ k=1 (Tk + 1)

Wygładzanie Laplace’a — jedynki dodane po to, żeby żaden czynnik iloczynu nie był zerem; wprowadzają niewielki błąd.

Wykład 14, 26 V 2010, str. 18

Klasyfikacja bayesowska Ti + 1 P (xi | h) ≃ PZ k=1 (Tk + 1)

Wygładzanie Laplace’a — jedynki dodane po to, żeby żaden czynnik iloczynu nie był zerem; wprowadzają niewielki błąd. Do licznika dodajemy 1; ile dodać do mianownika, żeby wartość ułamka się nie zmieniła? a a+1 = b b+x

Wykład 14, 26 V 2010, str. 18

Klasyfikacja bayesowska Ti + 1 P (xi | h) ≃ PZ k=1 (Tk + 1)

Wygładzanie Laplace’a — jedynki dodane po to, żeby żaden czynnik iloczynu nie był zerem; wprowadzają niewielki błąd. Do licznika dodajemy 1; ile dodać do mianownika, żeby wartość ułamka się nie zmieniła? a a+1 = b b+x

⇐⇒

b x= a

Wykład 14, 26 V 2010, str. 18

Klasyfikacja bayesowska Ti + 1 P (xi | h) ≃ PZ k=1 (Tk + 1)

Wygładzanie Laplace’a — jedynki dodane po to, żeby żaden czynnik iloczynu nie był zerem; wprowadzają niewielki błąd. Do licznika dodajemy 1; ile dodać do mianownika, żeby wartość ułamka się nie zmieniła? a a+1 = b b+x

⇐⇒

b x= a

1 ≃ . Jeśli wartości a1 , . . . , an niewiele się różnią, to Pn n i=1 ai ai

Wykład 14, 26 V 2010, str. 18

Klasyfikacja bayesowska Ti + 1 P (xi | h) ≃ PZ k=1 (Tk + 1)

Wygładzanie Laplace’a — jedynki dodane po to, żeby żaden czynnik iloczynu nie był zerem; wprowadzają niewielki błąd. Do licznika dodajemy 1; ile dodać do mianownika, żeby wartość ułamka się nie zmieniła? a a+1 = b b+x

⇐⇒

b x= a

1 ≃ . Wobec tego Jeśli wartości a1 , . . . , an niewiele się różnią, to Pn n i=1 ai ai

ai + 1 ≃ Pn Pn ( i=1 ai ) + n i=1 ai ai

Wykład 14, 26 V 2010, str. 18

Klasyfikacja bayesowska Ti + 1 P (xi | h) ≃ PZ k=1 (Tk + 1)

Wygładzanie Laplace’a — jedynki dodane po to, żeby żaden czynnik iloczynu nie był zerem; wprowadzają niewielki błąd. Do licznika dodajemy 1; ile dodać do mianownika, żeby wartość ułamka się nie zmieniła? a a+1 = b b+x

⇐⇒

b x= a

1 ≃ . Wobec tego Jeśli wartości a1 , . . . , an niewiele się różnią, to Pn n i=1 ai ai

ai + 1 ai + 1 ≃ Pn = Pn Pn ( i=1 ai ) + n i=1 ai i=1 (ai + 1) ai