Wykład 14, 26 V 2010, str. 1
Klasyfikacja bayesowska Przykład: (Bishop) M Jabłka i pomarańcze:
Wyciągnięto pomarańczę; jakie jest prawdopodobieństwo, że naczynie było niebieskie?
Wykład 14, 26 V 2010, str. 2
Klasyfikacja bayesowska TWIERDZENIE: (Bayes) M
Wykład 14, 26 V 2010, str. 2
Klasyfikacja bayesowska TWIERDZENIE: (Bayes) M Załóżmy, że • T1 , . . . , Tn są rozłącznymi zdarzeniami
Wykład 14, 26 V 2010, str. 2
Klasyfikacja bayesowska TWIERDZENIE: (Bayes) M Załóżmy, że • T1 , . . . , Tn są rozłącznymi zdarzeniami, oraz Sn • X ⊆ i=1 Ti .
Wykład 14, 26 V 2010, str. 2
Klasyfikacja bayesowska TWIERDZENIE: (Bayes) M Załóżmy, że • T1 , . . . , Tn są rozłącznymi zdarzeniami, oraz Sn • X ⊆ i=1 Ti .
Wtedy
P (Tk | X) =
P (X | Tk ) · P (Tk ) P (X | Tk ) · P (Tk ) = Pn P (X) i=1 P (X | Ti ) · P (Ti )
Wykład 14, 26 V 2010, str. 2
Klasyfikacja bayesowska TWIERDZENIE: (Bayes) M Załóżmy, że • T1 , . . . , Tn są rozłącznymi zdarzeniami, oraz Sn • X ⊆ i=1 Ti .
Wtedy
P (Tk | X) = Dowód:
P (X | Tk ) · P (Tk ) P (X | Tk ) · P (Tk ) = Pn P (X) i=1 P (X | Ti ) · P (Ti )
Wykład 14, 26 V 2010, str. 2
Klasyfikacja bayesowska TWIERDZENIE: (Bayes) M Załóżmy, że • T1 , . . . , Tn są rozłącznymi zdarzeniami, oraz Sn • X ⊆ i=1 Ti .
Wtedy
P (Tk | X) =
P (X | Tk ) · P (Tk ) P (X | Tk ) · P (Tk ) = Pn P (X) i=1 P (X | Ti ) · P (Ti )
Dowód: Z definicji: P (A | B) =
P (A,B) P (B)
Wykład 14, 26 V 2010, str. 2
Klasyfikacja bayesowska TWIERDZENIE: (Bayes) M Załóżmy, że • T1 , . . . , Tn są rozłącznymi zdarzeniami, oraz Sn • X ⊆ i=1 Ti .
Wtedy
P (Tk | X) =
P (X | Tk ) · P (Tk ) P (X | Tk ) · P (Tk ) = Pn P (X) i=1 P (X | Ti ) · P (Ti )
Dowód: Z definicji: P (A | B) =
P (A,B) P (B)
Dla rozłącznych zdarzeń: P (
Sn
i=1 Ai ) =
Pn
i=1
P (Ai )
Wykład 14, 26 V 2010, str. 2
Klasyfikacja bayesowska TWIERDZENIE: (Bayes) M Załóżmy, że • T1 , . . . , Tn są rozłącznymi zdarzeniami, oraz Sn • X ⊆ i=1 Ti .
Wtedy
P (Tk | X) =
P (X | Tk ) · P (Tk ) P (X | Tk ) · P (Tk ) = Pn P (X) i=1 P (X | Ti ) · P (Ti )
Dowód: Z definicji: P (A | B) =
P (A,B) P (B)
Dla rozłącznych zdarzeń: P (
Sn
P (Tk , X) P (Tk | X) = P (X)
i=1
Ai ) =
Pn
i=1
P (Ai )
Wykład 14, 26 V 2010, str. 2
Klasyfikacja bayesowska TWIERDZENIE: (Bayes) M Załóżmy, że • T1 , . . . , Tn są rozłącznymi zdarzeniami, oraz Sn • X ⊆ i=1 Ti .
Wtedy
P (Tk | X) =
P (X | Tk ) · P (Tk ) P (X | Tk ) · P (Tk ) = Pn P (X) i=1 P (X | Ti ) · P (Ti )
Dowód: Z definicji: P (A | B) =
P (A,B) P (B)
Dla rozłącznych zdarzeń: P (
Sn
i=1
Ai ) =
Pn
i=1
P (Ai )
P (X, Tk ) P (Tk ) P (Tk , X) = · P (Tk | X) = P (X) P (Tk ) P (X)
Wykład 14, 26 V 2010, str. 2
Klasyfikacja bayesowska TWIERDZENIE: (Bayes) M Załóżmy, że • T1 , . . . , Tn są rozłącznymi zdarzeniami, oraz Sn • X ⊆ i=1 Ti .
Wtedy
P (Tk | X) =
P (X | Tk ) · P (Tk ) P (X | Tk ) · P (Tk ) = Pn P (X) i=1 P (X | Ti ) · P (Ti )
Dowód: Z definicji: P (A | B) =
P (A,B) P (B)
Dla rozłącznych zdarzeń: P ( P (Tk | X) =
=
Sn
i=1 Ai ) =
Pn
i=1
P (Ai )
P (X, Tk ) P (Tk ) P (Tk , X) = · P (X) P (Tk ) P (X)
P (X | Tk ) · P (Tk ) P (X)
Wykład 14, 26 V 2010, str. 2
Klasyfikacja bayesowska TWIERDZENIE: (Bayes) M Załóżmy, że • T1 , . . . , Tn są rozłącznymi zdarzeniami, oraz Sn • X ⊆ i=1 Ti .
Wtedy
P (Tk | X) =
P (X | Tk ) · P (Tk ) P (X | Tk ) · P (Tk ) = Pn P (X) i=1 P (X | Ti ) · P (Ti )
Dowód: Z definicji: P (A | B) =
P (A,B) P (B)
Dla rozłącznych zdarzeń: P ( P (Tk | X) =
=
Sn
i=1 Ai ) =
Pn
i=1
P (Ai )
P (X, Tk ) P (Tk ) P (Tk , X) = · P (X) P (Tk ) P (X)
P (X | Tk ) · P (Tk ) P (X | Tk ) · P (Tk ) = Pn P (X) i=1 P (X, Ti )
Wykład 14, 26 V 2010, str. 2
Klasyfikacja bayesowska TWIERDZENIE: (Bayes) M Załóżmy, że • T1 , . . . , Tn są rozłącznymi zdarzeniami, oraz Sn • X ⊆ i=1 Ti .
Wtedy
P (Tk | X) =
P (X | Tk ) · P (Tk ) P (X | Tk ) · P (Tk ) = Pn P (X) i=1 P (X | Ti ) · P (Ti )
Dowód: Z definicji: P (A | B) =
P (A,B) P (B)
Dla rozłącznych zdarzeń: P ( P (Tk | X) =
=
Sn
i=1 Ai ) =
Pn
i=1
P (Ai )
P (X, Tk ) P (Tk ) P (Tk , X) = · P (X) P (Tk ) P (X)
P (X | Tk ) · P (Tk ) P (X | Tk ) · P (Tk ) P (X | Tk ) · P (Tk ) = Pn = Pn P (X) i=1 P (X, Ti ) i=1 P (X | Ti ) · P (Ti )
Wykład 14, 26 V 2010, str. 3
Klasyfikacja bayesowska Przykład: (Bishop) M 7 7 P (pom) = 7+5 = 12
P (nb) =
P (pom | nb) =
1 4
4 8+4
=
1 3
Wykład 14, 26 V 2010, str. 3
Klasyfikacja bayesowska Przykład: (Bishop) M 7 7 P (pom) = 7+5 = 12
P (nb) =
P (pom | nb) =
1 4
4 8+4
=
1 3
Wykład 14, 26 V 2010, str. 3
Klasyfikacja bayesowska Przykład: (Bishop) M 7 7 P (pom) = 7+5 = 12
P (nb) =
P (pom | nb) =
1 4
4 8+4
=
1 3
Wykład 14, 26 V 2010, str. 3
Klasyfikacja bayesowska Przykład: (Bishop) M 7 7 P (pom) = 7+5 = 12
P (nb) =
P (pom | nb) =
1 4
4 8+4
=
1 3
Wykład 14, 26 V 2010, str. 3
Klasyfikacja bayesowska Przykład: (Bishop) M 7 7 P (pom) = 7+5 = 12
P (nb) =
P (pom | nb) = P (nb | pom)
1 4
4 8+4
=
1 3
Wykład 14, 26 V 2010, str. 3
Klasyfikacja bayesowska Przykład: (Bishop) M 7 7 = 12 P (pom) = 7+5
P (nb) =
P (pom | nb) =
1 4
P (nb | pom) = P (pom | nb) · P (nb) = P (pom)
4 8+4
=
1 3
Wykład 14, 26 V 2010, str. 3
Klasyfikacja bayesowska Przykład: (Bishop) M 7 7 P (pom) = 7+5 = 12
P (nb) =
P (pom | nb) =
1 4
P (nb | pom) = P (pom | nb) · P (nb) = P (pom) =
1 4
· 7 12
1 3
4 8+4
=
1 3
Wykład 14, 26 V 2010, str. 3
Klasyfikacja bayesowska Przykład: (Bishop) M 7 7 P (pom) = 7+5 = 12
P (nb) =
P (pom | nb) =
1 4
P (nb | pom) = P (pom | nb) · P (nb) = P (pom) =
1 4
· 7 12
1 3
1 1 12 = · · 4 3 7
4 8+4
=
1 3
Wykład 14, 26 V 2010, str. 3
Klasyfikacja bayesowska Przykład: (Bishop) M 7 7 P (pom) = 7+5 = 12
P (nb) =
P (pom | nb) =
4 8+4
=
1 4
P (nb | pom) = P (pom | nb) · P (nb) = P (pom) =
1 4
· 7 12
1 3
1 1 12 1 = · · = 4 3 7 7
1 3
Wykład 14, 26 V 2010, str. 4
Klasyfikacja bayesowska Przykład: (Wikipedia) M Załóżmy, że badamy ludzi testem na narkotyki.
Wykład 14, 26 V 2010, str. 4
Klasyfikacja bayesowska Przykład: (Wikipedia) M Załóżmy, że badamy ludzi testem na narkotyki. I że • prawd. że wynik tego testu dla narkomana jest dodatni: P (+ | nark) = 0.99
Wykład 14, 26 V 2010, str. 4
Klasyfikacja bayesowska Przykład: (Wikipedia) M Załóżmy, że badamy ludzi testem na narkotyki. I że • prawd. że wynik tego testu dla narkomana jest dodatni: P (+ | nark) = 0.99 więc P (− | nark) = 0.01
Wykład 14, 26 V 2010, str. 4
Klasyfikacja bayesowska Przykład: (Wikipedia) M Załóżmy, że badamy ludzi testem na narkotyki. I że • prawd. że wynik tego testu dla narkomana jest dodatni: P (+ | nark) = 0.99 więc P (− | nark) = 0.01; • prawd. że wynik tego testu dla nienarkomana jest ujemny: P (− | ¬nark) = 0.99
Wykład 14, 26 V 2010, str. 4
Klasyfikacja bayesowska Przykład: (Wikipedia) M Załóżmy, że badamy ludzi testem na narkotyki. I że • prawd. że wynik tego testu dla narkomana jest dodatni: P (+ | nark) = 0.99 więc P (− | nark) = 0.01; • prawd. że wynik tego testu dla nienarkomana jest ujemny: P (− | ¬nark) = 0.99 więc P (+ | ¬nark) = 0.01
Wykład 14, 26 V 2010, str. 4
Klasyfikacja bayesowska Przykład: (Wikipedia) M Załóżmy, że badamy ludzi testem na narkotyki. I że • prawd. że wynik tego testu dla narkomana jest dodatni: P (+ | nark) = 0.99 więc P (− | nark) = 0.01; • prawd. że wynik tego testu dla nienarkomana jest ujemny: P (− | ¬nark) = 0.99 więc P (+ | ¬nark) = 0.01; • 0.005 społeczeństwa to narkomani.
Wykład 14, 26 V 2010, str. 4
Klasyfikacja bayesowska Przykład: (Wikipedia) M Załóżmy, że badamy ludzi testem na narkotyki. I że • prawd. że wynik tego testu dla narkomana jest dodatni: P (+ | nark) = 0.99 więc P (− | nark) = 0.01; • prawd. że wynik tego testu dla nienarkomana jest ujemny: P (− | ¬nark) = 0.99 więc P (+ | ¬nark) = 0.01; • 0.005 społeczeństwa to narkomani. Badamy konkretną osobę i test daje wynik pozytywny. Jakie jest prawdopodobieństwo, że trafiliśmy na narkomana?
Wykład 14, 26 V 2010, str. 4
Klasyfikacja bayesowska Przykład: (Wikipedia) M Załóżmy, że badamy ludzi testem na narkotyki. I że • prawd. że wynik tego testu dla narkomana jest dodatni: P (+ | nark) = 0.99 więc P (− | nark) = 0.01; • prawd. że wynik tego testu dla nienarkomana jest ujemny: P (− | ¬nark) = 0.99 więc P (+ | ¬nark) = 0.01; • 0.005 społeczeństwa to narkomani. Badamy konkretną osobę i test daje wynik pozytywny. Jakie jest prawdopodobieństwo, że trafiliśmy na narkomana? P (+ | nark) · P (nark) P (nark | +) = P (+ | nark) · P (nark) + P (+ | ¬nark) · P (¬nark)
Wykład 14, 26 V 2010, str. 4
Klasyfikacja bayesowska Przykład: (Wikipedia) M Załóżmy, że badamy ludzi testem na narkotyki. I że • prawd. że wynik tego testu dla narkomana jest dodatni: P (+ | nark) = 0.99 więc P (− | nark) = 0.01; • prawd. że wynik tego testu dla nienarkomana jest ujemny: P (− | ¬nark) = 0.99 więc P (+ | ¬nark) = 0.01; • 0.005 społeczeństwa to narkomani. Badamy konkretną osobę i test daje wynik pozytywny. Jakie jest prawdopodobieństwo, że trafiliśmy na narkomana? P (+ | nark) · P (nark) P (nark | +) = P (+ | nark) · P (nark) + P (+ | ¬nark) · P (¬nark)
Wykład 14, 26 V 2010, str. 4
Klasyfikacja bayesowska Przykład: (Wikipedia) M Załóżmy, że badamy ludzi testem na narkotyki. I że • prawd. że wynik tego testu dla narkomana jest dodatni: P (+ | nark) = 0.99 więc P (− | nark) = 0.01; • prawd. że wynik tego testu dla nienarkomana jest ujemny: P (− | ¬nark) = 0.99 więc P (+ | ¬nark) = 0.01; • 0.005 społeczeństwa to narkomani. Badamy konkretną osobę i test daje wynik pozytywny. Jakie jest prawdopodobieństwo, że trafiliśmy na narkomana? P (+ | nark) · P (nark) P (nark | +) = P (+ | nark) · P (nark) + P (+ | ¬nark) · P (¬nark) 0.99 · 0.005 = 0.99 · 0.005 + 0.01 · 0.995
Wykład 14, 26 V 2010, str. 4
Klasyfikacja bayesowska Przykład: (Wikipedia) M Załóżmy, że badamy ludzi testem na narkotyki. I że • prawd. że wynik tego testu dla narkomana jest dodatni: P (+ | nark) = 0.99 więc P (− | nark) = 0.01; • prawd. że wynik tego testu dla nienarkomana jest ujemny: P (− | ¬nark) = 0.99 więc P (+ | ¬nark) = 0.01; • 0.005 społeczeństwa to narkomani. Badamy konkretną osobę i test daje wynik pozytywny. Jakie jest prawdopodobieństwo, że trafiliśmy na narkomana? P (+ | nark) · P (nark) P (nark | +) = P (+ | nark) · P (nark) + P (+ | ¬nark) · P (¬nark) 0.99 · 0.005 ≃ 0.332 = 0.99 · 0.005 + 0.01 · 0.995
Wykład 14, 26 V 2010, str. 5
Klasyfikacja bayesowska Przykład: (amerykańskie zaliczenia) M
Wykład 14, 26 V 2010, str. 5
Klasyfikacja bayesowska Przykład: (amerykańskie zaliczenia) M • wśród słuchaczy byli Amerykanie i Chińczycy: P (A) = 0.9 P (C) = 0.1
Wykład 14, 26 V 2010, str. 5
Klasyfikacja bayesowska Przykład: (amerykańskie zaliczenia) M • wśród słuchaczy byli Amerykanie i Chińczycy: P (A) = 0.9 P (C) = 0.1 • wśród Amerykanów było znacznie więcej mężczyzn niż kobiet; wśród Chińczyków po równo: P (k | A) = 0.1 P (m | A) = 0.9 P (k | C) = 0.5 P (m | C) = 0.5
Wykład 14, 26 V 2010, str. 5
Klasyfikacja bayesowska Przykład: (amerykańskie zaliczenia) M • wśród słuchaczy byli Amerykanie i Chińczycy: P (A) = 0.9 P (C) = 0.1 • wśród Amerykanów było znacznie więcej mężczyzn niż kobiet; wśród Chińczyków po równo: P (k | A) = 0.1 P (m | A) = 0.9 P (k | C) = 0.5 P (m | C) = 0.5 • Chińczycy nie mieli problemu z zaliczeniem, niezależnie od płci: P (zal | C, k) = 1 P (zal | C, m) = 1
Wykład 14, 26 V 2010, str. 5
Klasyfikacja bayesowska Przykład: (amerykańskie zaliczenia) M • wśród słuchaczy byli Amerykanie i Chińczycy: P (A) = 0.9 P (C) = 0.1 • wśród Amerykanów było znacznie więcej mężczyzn niż kobiet; wśród Chińczyków po równo: P (k | A) = 0.1 P (m | A) = 0.9 P (k | C) = 0.5 P (m | C) = 0.5 • Chińczycy nie mieli problemu z zaliczeniem, niezależnie od płci: P (zal | C, k) = 1 P (zal | C, m) = 1 • Amerykanie byli słabsi a Amerykanki beznadziejnie słabe: P (zal | A, k) = 0.2 P (zal | A, m) = 0.4
Wykład 14, 26 V 2010, str. 5
Klasyfikacja bayesowska Przykład: (amerykańskie zaliczenia) M • wśród słuchaczy byli Amerykanie i Chińczycy: P (A) = 0.9 P (C) = 0.1 • wśród Amerykanów było znacznie więcej mężczyzn niż kobiet; wśród Chińczyków po równo: P (k | A) = 0.1 P (m | A) = 0.9 P (k | C) = 0.5 P (m | C) = 0.5 • Chińczycy nie mieli problemu z zaliczeniem, niezależnie od płci: P (zal | C, k) = 1 P (zal | C, m) = 1 • Amerykanie byli słabsi a Amerykanki beznadziejnie słabe: P (zal | A, k) = 0.2 P (zal | A, m) = 0.4 Na tej podstawie zespół d/s equal opportunity (równego traktowania) zarzucił mi szykanowanie kobiet.
Wykład 14, 26 V 2010, str. 6
Klasyfikacja bayesowska Przykład: (amerykańskie zaliczenia) M P (A) = 0.9 P (C) = 0.1 P (k | A) = 0.1 P (k | C) = 0.5 P (zal | A, k) = 0.2 P (zal | C, k) = 1
P (m | A) = 0.9 P (zal | A, m) = 0.4
P (m | C) = 0.5 P (zal | C, m) = 1
Wykład 14, 26 V 2010, str. 6
Klasyfikacja bayesowska Przykład: (amerykańskie zaliczenia) M P (A) = 0.9 P (C) = 0.1 P (k | A) = 0.1 P (k | C) = 0.5 P (m | A) = 0.9 P (m | C) = 0.5 P (zal | A, k) = 0.2 P (zal | C, k) = 1 P (zal | A, m) = 0.4 P (zal | C, m) = 1 Tymczasem P (A, k) = P (k | A) · P (A) = 0.1 · 0.9 = 0.09
Wykład 14, 26 V 2010, str. 6
Klasyfikacja bayesowska Przykład: (amerykańskie zaliczenia) M P (A) = 0.9 P (C) = 0.1 P (k | A) = 0.1 P (zal | A, k) = 0.2
P (k | C) = 0.5 P (m | A) = 0.9 P (m | C) = 0.5 P (zal | C, k) = 1 P (zal | A, m) = 0.4 P (zal | C, m) = 1
Tymczasem P (A, k) = P (k | A) · P (A) = 0.1 · 0.9 = 0.09 P (C, k) = P (k | C) · P (C) = 0.5 · 0.1 = 0.05 P (A, m) = P (m | A) · P (A) = 0.9 · 0.9 = 0.81 P (C, m) = P (m | C) · P (C) = 0.5 · 0.1 = 0.05
Wykład 14, 26 V 2010, str. 6
Klasyfikacja bayesowska Przykład: (amerykańskie zaliczenia) M P (A) = 0.9 P (C) = 0.1 P (k | A) = 0.1 P (zal | A, k) = 0.2
P (k | C) = 0.5 P (m | A) = 0.9 P (m | C) = 0.5 P (zal | C, k) = 1 P (zal | A, m) = 0.4 P (zal | C, m) = 1
Tymczasem P (A, k) = P (k | A) · P (A) = 0.1 · 0.9 = 0.09 P (C, k) = P (k | C) · P (C) = 0.5 · 0.1 = 0.05 P (A, m) = P (m | A) · P (A) = 0.9 · 0.9 = 0.81 P (C, m) = P (m | C) · P (C) = 0.5 · 0.1 = 0.05 więc P (zal, k) P (zal | k) = P (k)
Wykład 14, 26 V 2010, str. 6
Klasyfikacja bayesowska Przykład: (amerykańskie zaliczenia) M P (A) = 0.9 P (C) = 0.1 P (k | A) = 0.1 P (zal | A, k) = 0.2
P (k | C) = 0.5 P (m | A) = 0.9 P (m | C) = 0.5 P (zal | C, k) = 1 P (zal | A, m) = 0.4 P (zal | C, m) = 1
Tymczasem P (A, k) = P (k | A) · P (A) = 0.1 · 0.9 = 0.09 P (C, k) = P (k | C) · P (C) = 0.5 · 0.1 = 0.05 P (A, m) = P (m | A) · P (A) = 0.9 · 0.9 = 0.81 P (C, m) = P (m | C) · P (C) = 0.5 · 0.1 = 0.05 więc P (zal, k) P (zal, A, k) + P (zal, C, k) P (zal | k) = = P (k) P (A, k) + P (C, k)
Wykład 14, 26 V 2010, str. 6
Klasyfikacja bayesowska Przykład: (amerykańskie zaliczenia) M P (A) = 0.9 P (C) = 0.1 P (k | A) = 0.1 P (k | C) = 0.5 P (zal | A, k) = 0.2 P (zal | C, k) = 1
P (m | A) = 0.9 P (zal | A, m) = 0.4
Tymczasem P (A, k) = P (k | A) · P (A) = 0.1 · 0.9 = 0.09 P (C, k) = P (k | C) · P (C) = 0.5 · 0.1 = 0.05 P (A, m) = P (m | A) · P (A) = 0.9 · 0.9 = 0.81 P (C, m) = P (m | C) · P (C) = 0.5 · 0.1 = 0.05 więc P (zal, A, k) + P (zal, C, k) P (zal, k) = P (zal | k) = P (k) P (A, k) + P (C, k) P (zal | A, k) · P (A, k) + P (zal | C, k) · P (C, k) = P (A, k) + P (C, k)
P (m | C) = 0.5 P (zal | C, m) = 1
Wykład 14, 26 V 2010, str. 6
Klasyfikacja bayesowska Przykład: (amerykańskie zaliczenia) M P (A) = 0.9 P (C) = 0.1 P (k | A) = 0.1 P (k | C) = 0.5 P (zal | A, k) = 0.2 P (zal | C, k) = 1
P (m | A) = 0.9 P (zal | A, m) = 0.4
P (m | C) = 0.5 P (zal | C, m) = 1
Tymczasem P (A, k) = P (k | A) · P (A) = 0.1 · 0.9 = 0.09 P (C, k) = P (k | C) · P (C) = 0.5 · 0.1 = 0.05 P (A, m) = P (m | A) · P (A) = 0.9 · 0.9 = 0.81 P (C, m) = P (m | C) · P (C) = 0.5 · 0.1 = 0.05 więc P (zal, A, k) + P (zal, C, k) P (zal, k) = P (zal | k) = P (k) P (A, k) + P (C, k) P (zal | A, k) · P (A, k) + P (zal | C, k) · P (C, k) 0.2 · 0.09 + 1 · 0.05 = = P (A, k) + P (C, k) 0.09 + 0.05
Wykład 14, 26 V 2010, str. 6
Klasyfikacja bayesowska Przykład: (amerykańskie zaliczenia) M P (A) = 0.9 P (C) = 0.1 P (k | A) = 0.1 P (k | C) = 0.5 P (m | A) = 0.9 P (m | C) = 0.5 P (zal | A, k) = 0.2 P (zal | C, k) = 1 P (zal | A, m) = 0.4 P (zal | C, m) = 1 Tymczasem P (A, k) = P (k | A) · P (A) = 0.1 · 0.9 = 0.09 P (C, k) = P (k | C) · P (C) = 0.5 · 0.1 = 0.05 P (A, m) = P (m | A) · P (A) = 0.9 · 0.9 = 0.81 P (C, m) = P (m | C) · P (C) = 0.5 · 0.1 = 0.05 więc P (zal, A, k) + P (zal, C, k) P (zal, k) = P (zal | k) = P (k) P (A, k) + P (C, k) P (zal | A, k) · P (A, k) + P (zal | C, k) · P (C, k) 0.2 · 0.09 + 1 · 0.05 = = P (A, k) + P (C, k) 0.09 + 0.05 ≃ 0.486
Wykład 14, 26 V 2010, str. 7
Klasyfikacja bayesowska Przykład: (amerykańskie zaliczenia) M P (A) = 0.9 P (C) = 0.1 P (k | A) = 0.1 P (zal | A, k) = 0.2
P (k | C) = 0.5 P (m | A) = 0.9 P (m | C) = 0.5 P (zal | C, k) = 1 P (zal | A, m) = 0.4 P (zal | C, m) = 1
Tymczasem P (A, k) = P (k | A) · P (A) = 0.1 · 0.9 = 0.09 P (C, k) = P (k | C) · P (C) = 0.5 · 0.1 = 0.05 P (A, m) = P (m | A) · P (A) = 0.9 · 0.9 = 0.81 P (C, m) = P (m | C) · P (C) = 0.5 · 0.1 = 0.05
Wykład 14, 26 V 2010, str. 7
Klasyfikacja bayesowska Przykład: (amerykańskie zaliczenia) M P (A) = 0.9 P (C) = 0.1 P (k | A) = 0.1 P (zal | A, k) = 0.2
P (k | C) = 0.5 P (m | A) = 0.9 P (m | C) = 0.5 P (zal | C, k) = 1 P (zal | A, m) = 0.4 P (zal | C, m) = 1
Tymczasem P (A, k) = P (k | A) · P (A) = 0.1 · 0.9 = 0.09 P (C, k) = P (k | C) · P (C) = 0.5 · 0.1 = 0.05 P (A, m) = P (m | A) · P (A) = 0.9 · 0.9 = 0.81 P (C, m) = P (m | C) · P (C) = 0.5 · 0.1 = 0.05 więc P (zal, m) P (zal | m) = P (m)
Wykład 14, 26 V 2010, str. 7
Klasyfikacja bayesowska Przykład: (amerykańskie zaliczenia) M P (A) = 0.9 P (C) = 0.1 P (k | A) = 0.1 P (zal | A, k) = 0.2
P (k | C) = 0.5 P (m | A) = 0.9 P (m | C) = 0.5 P (zal | C, k) = 1 P (zal | A, m) = 0.4 P (zal | C, m) = 1
Tymczasem P (A, k) = P (k | A) · P (A) = 0.1 · 0.9 = 0.09 P (C, k) = P (k | C) · P (C) = 0.5 · 0.1 = 0.05 P (A, m) = P (m | A) · P (A) = 0.9 · 0.9 = 0.81 P (C, m) = P (m | C) · P (C) = 0.5 · 0.1 = 0.05 więc P (zal, m) P (zal, A, m) + P (zal, C, m) P (zal | m) = = P (m) P (A, m) + P (C, m)
Wykład 14, 26 V 2010, str. 7
Klasyfikacja bayesowska Przykład: (amerykańskie zaliczenia) M P (A) = 0.9 P (C) = 0.1 P (k | A) = 0.1 P (k | C) = 0.5 P (zal | A, k) = 0.2 P (zal | C, k) = 1
P (m | A) = 0.9 P (zal | A, m) = 0.4
Tymczasem P (A, k) = P (k | A) · P (A) = 0.1 · 0.9 = 0.09 P (C, k) = P (k | C) · P (C) = 0.5 · 0.1 = 0.05 P (A, m) = P (m | A) · P (A) = 0.9 · 0.9 = 0.81 P (C, m) = P (m | C) · P (C) = 0.5 · 0.1 = 0.05 więc P (zal, A, m) + P (zal, C, m) P (zal, m) = P (zal | m) = P (m) P (A, m) + P (C, m) P (zal | A, m) · P (A, m) + P (zal | C, m) · P (C, m) = P (A, m) + P (C, m)
P (m | C) = 0.5 P (zal | C, m) = 1
Wykład 14, 26 V 2010, str. 7
Klasyfikacja bayesowska Przykład: (amerykańskie zaliczenia) M P (A) = 0.9 P (C) = 0.1 P (k | A) = 0.1 P (k | C) = 0.5 P (zal | A, k) = 0.2 P (zal | C, k) = 1
P (m | A) = 0.9 P (zal | A, m) = 0.4
P (m | C) = 0.5 P (zal | C, m) = 1
Tymczasem P (A, k) = P (k | A) · P (A) = 0.1 · 0.9 = 0.09 P (C, k) = P (k | C) · P (C) = 0.5 · 0.1 = 0.05 P (A, m) = P (m | A) · P (A) = 0.9 · 0.9 = 0.81 P (C, m) = P (m | C) · P (C) = 0.5 · 0.1 = 0.05 więc P (zal, A, m) + P (zal, C, m) P (zal, m) = P (zal | m) = P (m) P (A, m) + P (C, m) P (zal | A, m) · P (A, m) + P (zal | C, m) · P (C, m) 0.4 · 0.81 + 1 · 0.05 = = P (A, m) + P (C, m) 0.81 + 0.05
Wykład 14, 26 V 2010, str. 7
Klasyfikacja bayesowska Przykład: (amerykańskie zaliczenia) M P (A) = 0.9 P (C) = 0.1 P (k | A) = 0.1 P (k | C) = 0.5 P (m | A) = 0.9 P (m | C) = 0.5 P (zal | A, k) = 0.2 P (zal | C, k) = 1 P (zal | A, m) = 0.4 P (zal | C, m) = 1 Tymczasem P (A, k) = P (k | A) · P (A) = 0.1 · 0.9 = 0.09 P (C, k) = P (k | C) · P (C) = 0.5 · 0.1 = 0.05 P (A, m) = P (m | A) · P (A) = 0.9 · 0.9 = 0.81 P (C, m) = P (m | C) · P (C) = 0.5 · 0.1 = 0.05 więc P (zal, A, m) + P (zal, C, m) P (zal, m) = P (zal | m) = P (m) P (A, m) + P (C, m) P (zal | A, m) · P (A, m) + P (zal | C, m) · P (C, m) 0.4 · 0.81 + 1 · 0.05 = = P (A, m) + P (C, m) 0.81 + 0.05 ≃ 0.435
Wykład 14, 26 V 2010, str. 7
Klasyfikacja bayesowska Przykład: (amerykańskie zaliczenia) M P (A) = 0.9 P (C) = 0.1 P (k | A) = 0.1 P (k | C) = 0.5 P (m | A) = 0.9 P (m | C) = 0.5 P (zal | A, k) = 0.2 P (zal | C, k) = 1 P (zal | A, m) = 0.4 P (zal | C, m) = 1 Tymczasem P (A, k) = P (k | A) · P (A) = 0.1 · 0.9 = 0.09 P (C, k) = P (k | C) · P (C) = 0.5 · 0.1 = 0.05 P (A, m) = P (m | A) · P (A) = 0.9 · 0.9 = 0.81 P (C, m) = P (m | C) · P (C) = 0.5 · 0.1 = 0.05 więc P (zal, A, m) + P (zal, C, m) P (zal, m) = P (zal | m) = P (m) P (A, m) + P (C, m) P (zal | A, m) · P (A, m) + P (zal | C, m) · P (C, m) 0.4 · 0.81 + 1 · 0.05 = = P (A, m) + P (C, m) 0.81 + 0.05 ≃ 0.435 < 0.486 = P (zal | k)
Wykład 14, 26 V 2010, str. 8
Klasyfikacja bayesowska TWIERDZENIE: (uogólnione Bayesa) M Załóżmy, że e1 , . . . , en , e, h są zdarzeniami; ozn.: e ¯ def = e1 & . . . &en . Wtedy P (h | e, e ¯) =
P (e | h, e ¯) · P (h | e ¯) P (e | e ¯)
Wykład 14, 26 V 2010, str. 8
Klasyfikacja bayesowska TWIERDZENIE: (uogólnione Bayesa) M Załóżmy, że e1 , . . . , en , e, h są zdarzeniami; ozn.: e ¯ def = e1 & . . . &en . Wtedy P (h | e, e ¯) =
P (e | h, e ¯) · P (h | e ¯) P (e | e ¯)
Dowód: P (h, e, e ¯) P (h | e, e ¯) = P (e, e ¯)
Wykład 14, 26 V 2010, str. 8
Klasyfikacja bayesowska TWIERDZENIE: (uogólnione Bayesa) M Załóżmy, że e1 , . . . , en , e, h są zdarzeniami; ozn.: e ¯ def = e1 & . . . &en . Wtedy P (h | e, e ¯) =
P (e | h, e ¯) · P (h | e ¯) P (e | e ¯)
Dowód: P (h, e, e ¯) P (e | h, e ¯) · P (h, e ¯) P (h | e, e ¯) = = P (e, e ¯) P (e | e ¯) · P (¯ e)
Wykład 14, 26 V 2010, str. 8
Klasyfikacja bayesowska TWIERDZENIE: (uogólnione Bayesa) M Załóżmy, że e1 , . . . , en , e, h są zdarzeniami; ozn.: e ¯ def = e1 & . . . &en . Wtedy P (h | e, e ¯) =
P (e | h, e ¯) · P (h | e ¯) P (e | e ¯)
Dowód: P (h, e, e ¯) P (e | h, e ¯) · P (h, e ¯) P (h | e, e ¯) = = P (e, e ¯) P (e | e ¯) · P (¯ e) =
P (e | h, e ¯) · P (h | e ¯) · P (¯ e) P (e | e ¯) · P (¯ e)
Wykład 14, 26 V 2010, str. 8
Klasyfikacja bayesowska TWIERDZENIE: (uogólnione Bayesa) M Załóżmy, że e1 , . . . , en , e, h są zdarzeniami; ozn.: e ¯ def = e1 & . . . &en . Wtedy P (h | e, e ¯) =
P (e | h, e ¯) · P (h | e ¯) P (e | e ¯)
Dowód: P (h, e, e ¯) P (e | h, e ¯) · P (h, e ¯) P (h | e, e ¯) = = P (e, e ¯) P (e | e ¯) · P (¯ e) =
P (e | h, e ¯) · P (h | e ¯) P (e | h, e ¯) · P (h | e ¯) · P (¯ e) = P (e | e ¯) · P (¯ e) P (e | e ¯)
Wykład 14, 26 V 2010, str. 8
Klasyfikacja bayesowska TWIERDZENIE: (uogólnione Bayesa) M Załóżmy, że e1 , . . . , en , e, h są zdarzeniami; ozn.: e ¯ def = e1 & . . . &en . Wtedy P (h | e, e ¯) =
P (e | h, e ¯) · P (h | e ¯) P (e | e ¯)
Dowód: P (h, e, e ¯) P (e | h, e ¯) · P (h, e ¯) P (h | e, e ¯) = = P (e, e ¯) P (e | e ¯) · P (¯ e) =
P (e | h, e ¯) · P (h | e ¯) P (e | h, e ¯) · P (h | e ¯) · P (¯ e) = P (e | e ¯) · P (¯ e) P (e | e ¯)
Wniosek: M Jeśli zdarzenia e1 , . . . , en są niezależne, to P (h | e, e ¯) =
P (e | h) · P (h | e ¯) P (e)
Wykład 14, 26 V 2010, str. 9
Klasyfikacja bayesowska Wniosek: M Jeśli zdarzenia e1 , . . . , en są niezależne, to
P (e | h) · P (h | e ¯) P (h | e, e ¯) = P (e)
Wykład 14, 26 V 2010, str. 9
Klasyfikacja bayesowska Wniosek: M Jeśli zdarzenia e1 , . . . , en są niezależne, to
P (e | h) · P (h | e ¯) P (h | e, e ¯) = P (e)
• wniosek z uogólnionego tw. Bayesa stosowany jest do wyliczania prawdopodobieństwa, że zachodzi hipoteza h, w oparciu o hipotezy e ¯
Wykład 14, 26 V 2010, str. 9
Klasyfikacja bayesowska Wniosek: M Jeśli zdarzenia e1 , . . . , en są niezależne, to
P (e | h) · P (h | e ¯) P (h | e, e ¯) = P (e)
• wniosek z uogólnionego tw. Bayesa stosowany jest do wyliczania prawdopodobieństwa, że zachodzi hipoteza h, w oparciu o hipotezy e ¯; • założenie o niezależności obserwacji, bardzo upraszczające obliczenia, zwykle jest spełnione, lub przynajmniej spełnione w przybliżeniu
Wykład 14, 26 V 2010, str. 9
Klasyfikacja bayesowska Wniosek: M Jeśli zdarzenia e1 , . . . , en są niezależne, to
P (e | h) · P (h | e ¯) P (h | e, e ¯) = P (e)
• wniosek z uogólnionego tw. Bayesa stosowany jest do wyliczania prawdopodobień¯; stwa, że zachodzi hipoteza h, w oparciu o hipotezy e • założenie o niezależności obserwacji, bardzo upraszczające obliczenia, zwykle jest spełnione, lub przynajmniej spełnione w przybliżeniu; • wniosek pokazuje, jak zmienia się prawdopodobieństwo spełnienia h w wyniku dodania kolejnej obserwacji
Wykład 14, 26 V 2010, str. 9
Klasyfikacja bayesowska Wniosek: M Jeśli zdarzenia e1 , . . . , en są niezależne, to
P (e | h) · P (h | e ¯) P (h | e, e ¯) = P (e)
• wniosek z uogólnionego tw. Bayesa stosowany jest do wyliczania prawdopodobień¯; stwa, że zachodzi hipoteza h, w oparciu o hipotezy e • założenie o niezależności obserwacji, bardzo upraszczające obliczenia, zwykle jest spełnione, lub przynajmniej spełnione w przybliżeniu; • wniosek pokazuje, jak zmienia się prawdopodobieństwo spełnienia h w wyniku dodania kolejnej obserwacji; • dysponujemy trzema równościami: P (e | h) · P (h | e ¯) P (h | e, e ¯ ) = P (e) P (e | ¬h) · P (¬h | e ¯) P (¬h | e, e ¯ ) = P (e) P (h | e, e ¯) + P (¬h | e, e ¯) = 1
Wykład 14, 26 V 2010, str. 9
Klasyfikacja bayesowska Wniosek: M Jeśli zdarzenia e1 , . . . , en są niezależne, to
P (e | h) · P (h | e ¯) P (h | e, e ¯) = P (e)
• wniosek z uogólnionego tw. Bayesa stosowany jest do wyliczania prawdopodobień¯; stwa, że zachodzi hipoteza h, w oparciu o hipotezy e • założenie o niezależności obserwacji, bardzo upraszczające obliczenia, zwykle jest spełnione, lub przynajmniej spełnione w przybliżeniu; • wniosek pokazuje, jak zmienia się prawdopodobieństwo spełnienia h w wyniku dodania kolejnej obserwacji; • dysponujemy trzema równościami: P (e | h) P (h | e, e ¯ ) = · P (h | e ¯) P (e) P (e | ¬h) P (¬h | e, e ¯ ) = · P (¬h | e ¯) P (e) P (h | e, e ¯) + P (¬h | e, e ¯) = 1 nie znamy P (e), P (h | e, e ¯), P (¬h | e, e ¯)
Wykład 14, 26 V 2010, str. 9
Klasyfikacja bayesowska Wniosek: M Jeśli zdarzenia e1 , . . . , en są niezależne, to
P (e | h) · P (h | e ¯) P (h | e, e ¯) = P (e)
• wniosek z uogólnionego tw. Bayesa stosowany jest do wyliczania prawdopodobień¯; stwa, że zachodzi hipoteza h, w oparciu o hipotezy e • założenie o niezależności obserwacji, bardzo upraszczające obliczenia, zwykle jest spełnione, lub przynajmniej spełnione w przybliżeniu; • wniosek pokazuje, jak zmienia się prawdopodobieństwo spełnienia h w wyniku dodania kolejnej obserwacji; • dysponujemy trzema równościami: P (e | h) P (h | e, e ¯ ) = · P (h | e ¯) P (e) P (e | ¬h) P (¬h | e, e ¯ ) = · P (¬h | e ¯) P (e) P (h | e, e ¯) + P (¬h | e, e ¯) = 1 nie znamy P (e), P (h | e, e ¯), P (¬h | e, e ¯) znamy P (e | h), P (e | ¬h), P (h | e ¯), P (¬h | e ¯)
Wykład 14, 26 V 2010, str. 10
Klasyfikacja bayesowska Przykład: (prof. Wierzchoń) M Obserwacje: • e1 — pacjent ma gorączkę, • e2 — pacjent kaszle, • e3 — pacjent ma katar.
Wykład 14, 26 V 2010, str. 10
Klasyfikacja bayesowska Przykład: (prof. Wierzchoń) M Obserwacje: • e1 — pacjent ma gorączkę, • e2 — pacjent kaszle, • e3 — pacjent ma katar. Hipoteza: h — pacjent ma grypę.
Wykład 14, 26 V 2010, str. 10
Klasyfikacja bayesowska Przykład: (prof. Wierzchoń) M Obserwacje: • e1 — pacjent ma gorączkę, • e2 — pacjent kaszle, • e3 — pacjent ma katar. Hipoteza: h — pacjent ma grypę. Panuje grypa; prawdopodobieństwo, że pacjent, zgłaszający się do lekarza, ma grypę, wynosi P (h) = 0.8 .
Wykład 14, 26 V 2010, str. 10
Klasyfikacja bayesowska Przykład: (prof. Wierzchoń) M Obserwacje: • e1 — pacjent ma gorączkę, • e2 — pacjent kaszle, • e3 — pacjent ma katar. Hipoteza: h — pacjent ma grypę. Panuje grypa; prawdopodobieństwo, że pacjent, zgłaszający się do lekarza, ma grypę, wynosi P (h) = 0.8 . Z podręcznika medycyny: P (e1 | h) = 0.7 P (e2 | h) = 0.4 P (e3 | h) = 0.6
Wykład 14, 26 V 2010, str. 10
Klasyfikacja bayesowska Przykład: (prof. Wierzchoń) M Obserwacje: • e1 — pacjent ma gorączkę, • e2 — pacjent kaszle, • e3 — pacjent ma katar. Hipoteza: h — pacjent ma grypę. Panuje grypa; prawdopodobieństwo, że pacjent, zgłaszający się do lekarza, ma grypę, wynosi P (h) = 0.8 . Z podręcznika medycyny: P (e1 | h) = 0.7 P (e2 | h) = 0.4 P (e3 | h) = 0.6 P (e1 | ¬h) = 0.6 P (e2 | ¬h) = 0.3 P (e3 | ¬h) = 0.4
Wykład 14, 26 V 2010, str. 10
Klasyfikacja bayesowska Przykład: (prof. Wierzchoń) M Obserwacje: • e1 — pacjent ma gorączkę, • e2 — pacjent kaszle, • e3 — pacjent ma katar. Hipoteza: h — pacjent ma grypę. Panuje grypa; prawdopodobieństwo, że pacjent, zgłaszający się do lekarza, ma grypę, wynosi P (h) = 0.8 . Z podręcznika medycyny: P (e1 | h) = 0.7 P (e2 | h) = 0.4 P (e3 | h) = 0.6 P (e1 | ¬h) = 0.6 P (e2 | ¬h) = 0.3 P (e3 | ¬h) = 0.4 Konkretny pacjent ma gorączkę i katar, ale nie kaszle; jakie jest prawdopodobieństwo, że ma grypę?
Wykład 14, 26 V 2010, str. 10
Klasyfikacja bayesowska Przykład: (prof. Wierzchoń) M Obserwacje: • e1 — pacjent ma gorączkę, • e2 — pacjent kaszle, • e3 — pacjent ma katar. Hipoteza: h — pacjent ma grypę. Panuje grypa; prawdopodobieństwo, że pacjent, zgłaszający się do lekarza, ma grypę, wynosi P (h) = 0.8 . Z podręcznika medycyny: P (e1 | h) = 0.7 P (e2 | h) = 0.4 P (e3 | h) = 0.6 P (e1 | ¬h) = 0.6 P (e2 | ¬h) = 0.3 P (e3 | ¬h) = 0.4 Konkretny pacjent ma gorączkę i katar, ale nie kaszle; jakie jest prawdopodobieństwo, że ma grypę? P (h | e1 , ¬e2 , e3 ) = ?
Wykład 14, 26 V 2010, str. 11
Klasyfikacja bayesowska Przykład: (prof. Wierzchoń) P (h) = 0.8 P (e2 | h) = 0.4 P (e3 | h) = 0.6 M P (e1 | h) = 0.7 P (e1 | ¬h) = 0.6 P (e2 | ¬h) = 0.3 P (e3 | ¬h) = 0.4
Wykład 14, 26 V 2010, str. 11
Klasyfikacja bayesowska Przykład: (prof. Wierzchoń) P (h) = 0.8 P (e2 | h) = 0.4 M P (e1 | h) = 0.7 P (e1 | ¬h) = 0.6 P (e2 | ¬h) = 0.3 P (h | e1 ) =
P (e3 | h) = 0.6 P (e3 | ¬h) = 0.4
0.7 P (e1 | h) · P (h) = · 0.8 P (e1 ) P (e1 )
Wykład 14, 26 V 2010, str. 11
Klasyfikacja bayesowska Przykład: (prof. Wierzchoń) P (h) = 0.8 P (e2 | h) = 0.4 P (e3 | h) = 0.6 M P (e1 | h) = 0.7 P (e1 | ¬h) = 0.6 P (e2 | ¬h) = 0.3 P (e3 | ¬h) = 0.4 P (e1 | h) 0.7 P (h | e1 ) = · P (h) = · 0.8 P (e1 ) P (e1 ) 0.6 P (e1 | ¬h) · P (¬h) = · 0.2 P (¬h | e1 ) = P (e1 ) P (e1 )
Wykład 14, 26 V 2010, str. 11
Klasyfikacja bayesowska Przykład: (prof. Wierzchoń) P (h) = 0.8 P (e2 | h) = 0.4 P (e3 | h) = 0.6 M P (e1 | h) = 0.7 P (e1 | ¬h) = 0.6 P (e2 | ¬h) = 0.3 P (e3 | ¬h) = 0.4 P (e1 | h) 0.7 P (h | e1 ) = · P (h) = · 0.8 P (e1 ) P (e1 ) P (e1 | ¬h) 0.6 P (¬h | e1 ) = · P (¬h) = · 0.2 P (e1 ) P (e1 ) 1=
1 · (0.7 · 0.8 + 0.6 · 0.2) P (e1 )
Wykład 14, 26 V 2010, str. 11
Klasyfikacja bayesowska Przykład: (prof. Wierzchoń) P (h) = 0.8 P (e2 | h) = 0.4 P (e3 | h) = 0.6 M P (e1 | h) = 0.7 P (e1 | ¬h) = 0.6 P (e2 | ¬h) = 0.3 P (e3 | ¬h) = 0.4 0.7 P (e1 | h) · P (h) = · 0.8 P (h | e1 ) = P (e1 ) P (e1 ) P (e1 | ¬h) 0.6 P (¬h | e1 ) = · P (¬h) = · 0.2 P (e1 ) P (e1 ) 1=
1 · (0.7 · 0.8 + 0.6 · 0.2) P (e1 )
P (e1 ) = 0.7 · 0.8 + 0.6 · 0.2 = 0.68
Wykład 14, 26 V 2010, str. 11
Klasyfikacja bayesowska Przykład: (prof. Wierzchoń) P (h) = 0.8 P (e2 | h) = 0.4 M P (e1 | h) = 0.7 P (e1 | ¬h) = 0.6 P (e2 | ¬h) = 0.3 P (h | e1 ) =
P (e3 | h) = 0.6 P (e3 | ¬h) = 0.4
0.7 P (e1 | h) · P (h) = · 0.8 P (e1 ) P (e1 )
P (e1 | ¬h) 0.6 P (¬h | e1 ) = · P (¬h) = · 0.2 P (e1 ) P (e1 ) 1=
1 · (0.7 · 0.8 + 0.6 · 0.2) P (e1 )
P (e1 ) = 0.7 · 0.8 + 0.6 · 0.2 = 0.68
0.7 P (h | e1 ) = · 0.8 = 0.82 0.68
Wykład 14, 26 V 2010, str. 11
Klasyfikacja bayesowska Przykład: (prof. Wierzchoń) P (h) = 0.8 P (e2 | h) = 0.4 M P (e1 | h) = 0.7 P (e1 | ¬h) = 0.6 P (e2 | ¬h) = 0.3 P (h | e1 ) =
P (e3 | h) = 0.6 P (e3 | ¬h) = 0.4
0.7 P (e1 | h) · P (h) = · 0.8 P (e1 ) P (e1 )
P (e1 | ¬h) 0.6 P (¬h | e1 ) = · P (¬h) = · 0.2 P (e1 ) P (e1 ) 1=
1 · (0.7 · 0.8 + 0.6 · 0.2) P (e1 )
P (e1 ) = 0.7 · 0.8 + 0.6 · 0.2 = 0.68
0.7 P (h | e1 ) = · 0.8 = 0.82 0.68
0.6 P (¬h | e1 ) = · 0.2 = 0.18 0.68
Wykład 14, 26 V 2010, str. 12
Klasyfikacja bayesowska Przykład: (prof. Wierzchoń) P (h) = 0.8 P (e1 | h) = 0.7 P (e2 | h) = 0.4 M P (e1 | ¬h) = 0.6 P (e2 | ¬h) = 0.3 P (h | e1 ) = 0.82 P (¬h | e1 ) = 0.18
P (e3 | h) = 0.6 P (e3 | ¬h) = 0.4
Wykład 14, 26 V 2010, str. 12
Klasyfikacja bayesowska Przykład: (prof. Wierzchoń) P (h) = 0.8 P (e1 | h) = 0.7 P (e2 | h) = 0.4 P (e3 | h) = 0.6 M P (e1 | ¬h) = 0.6 P (e2 | ¬h) = 0.3 P (e3 | ¬h) = 0.4 P (h | e1 ) = 0.82 P (¬h | e1 ) = 0.18 P (¬e2 | h) 0.6 P (h | e1 , ¬e2 ) = · P (h | e1 ) = · 0.82 P (¬e2 ) P (¬e2 )
Wykład 14, 26 V 2010, str. 12
Klasyfikacja bayesowska Przykład: (prof. Wierzchoń) P (h) = 0.8 P (e1 | h) = 0.7 P (e2 | h) = 0.4 M P (e1 | ¬h) = 0.6 P (e2 | ¬h) = 0.3 P (h | e1 ) = 0.82 P (¬h | e1 ) = 0.18
P (e3 | h) = 0.6 P (e3 | ¬h) = 0.4
0.6 P (¬e2 | h) · P (h | e1 ) = · 0.82 P (h | e1 , ¬e2 ) = P (¬e2 ) P (¬e2 ) 0.7 P (¬e2 | ¬h) · P (¬h | e1 ) = · 0.18 P (¬h | e1 , ¬e2 ) = P (¬e2 ) P (¬e2 )
Wykład 14, 26 V 2010, str. 12
Klasyfikacja bayesowska Przykład: (prof. Wierzchoń) P (h) = 0.8 P (e1 | h) = 0.7 P (e2 | h) = 0.4 M P (e1 | ¬h) = 0.6 P (e2 | ¬h) = 0.3 P (h | e1 ) = 0.82 P (¬h | e1 ) = 0.18
P (e3 | h) = 0.6 P (e3 | ¬h) = 0.4
0.6 P (¬e2 | h) · P (h | e1 ) = · 0.82 P (h | e1 , ¬e2 ) = P (¬e2 ) P (¬e2 ) 0.7 P (¬e2 | ¬h) · P (¬h | e1 ) = · 0.18 P (¬h | e1 , ¬e2 ) = P (¬e2 ) P (¬e2 ) 1 1= · (0.6 · 0.82 + 0.7 · 0.18) P (¬e2 )
Wykład 14, 26 V 2010, str. 12
Klasyfikacja bayesowska Przykład: (prof. Wierzchoń) P (h) = 0.8 P (e1 | h) = 0.7 P (e2 | h) = 0.4 P (e3 | h) = 0.6 M P (e1 | ¬h) = 0.6 P (e2 | ¬h) = 0.3 P (e3 | ¬h) = 0.4 P (h | e1 ) = 0.82 P (¬h | e1 ) = 0.18 P (¬e2 | h) 0.6 P (h | e1 , ¬e2 ) = · P (h | e1 ) = · 0.82 P (¬e2 ) P (¬e2 ) 0.7 P (¬e2 | ¬h) · P (¬h | e1 ) = · 0.18 P (¬h | e1 , ¬e2 ) = P (¬e2 ) P (¬e2 ) 1 · (0.6 · 0.82 + 0.7 · 0.18) 1= P (¬e2 ) P (¬e2 ) = 0.6 · 0.82 + 0.7 · 0.18 = 0.62
Wykład 14, 26 V 2010, str. 12
Klasyfikacja bayesowska Przykład: (prof. Wierzchoń) P (h) = 0.8 P (e1 | h) = 0.7 P (e2 | h) = 0.4 M P (e1 | ¬h) = 0.6 P (e2 | ¬h) = 0.3 P (h | e1 ) = 0.82 P (¬h | e1 ) = 0.18
P (e3 | h) = 0.6 P (e3 | ¬h) = 0.4
0.6 P (¬e2 | h) · P (h | e1 ) = · 0.82 P (h | e1 , ¬e2 ) = P (¬e2 ) P (¬e2 ) 0.7 P (¬e2 | ¬h) · P (¬h | e1 ) = · 0.18 P (¬h | e1 , ¬e2 ) = P (¬e2 ) P (¬e2 ) 1 1= · (0.6 · 0.82 + 0.7 · 0.18) P (¬e2 ) P (¬e2 ) = 0.6 · 0.82 + 0.7 · 0.18 = 0.62
0.6 ·0.82 = 0.8 P (h | e1 , ¬e2 ) = 0.62
0.7 P (¬h | e1 , ¬e2 ) = ·0.18 = 0.2 0.62
Wykład 14, 26 V 2010, str. 13
Klasyfikacja bayesowska Przykład: (prof. Wierzchoń) P (h) = 0.8 P (e1 | h) = 0.7 P (e2 | h) = 0.4 P (e2 | ¬h) = 0.3 M P (e1 | ¬h) = 0.6 P (h | e1 ) = 0.82 P (¬h | e1 ) = 0.18 P (h | e1 , ¬e2 ) = 0.8 P (¬h | e1 , ¬e2 ) = 0.2
P (e3 | h) = 0.6 P (e3 | ¬h) = 0.4
Wykład 14, 26 V 2010, str. 13
Klasyfikacja bayesowska Przykład: (prof. Wierzchoń) P (h) = 0.8 P (e1 | h) = 0.7 P (e2 | h) = 0.4 P (e3 | h) = 0.6 P (e2 | ¬h) = 0.3 P (e3 | ¬h) = 0.4 M P (e1 | ¬h) = 0.6 P (h | e1 ) = 0.82 P (¬h | e1 ) = 0.18 P (h | e1 , ¬e2 ) = 0.8 P (¬h | e1 , ¬e2 ) = 0.2 0.6 P (e3 | h) · P (h | e1 , ¬e2 ) = · 0.8 P (h | e1 , ¬e2 , e3 ) = P (e3 ) P (e3 ) P (e3 | ¬h) 0.4 P (¬h | e1 , ¬e2 , e3 ) = · P (¬h | e1 , ¬e2 ) = · 0.2 P (e3 ) P (e3 ) 1 · (0.6 · 0.8 + 0.4 · 0.2) 1= P (e3 ) P (e3 ) = 0.6 · 0.8 + 0.4 · 0.2 = 0.56
Wykład 14, 26 V 2010, str. 13
Klasyfikacja bayesowska Przykład: (prof. Wierzchoń) P (h) = 0.8 P (e1 | h) = 0.7 P (e2 | h) = 0.4 P (e3 | h) = 0.6 P (e2 | ¬h) = 0.3 P (e3 | ¬h) = 0.4 M P (e1 | ¬h) = 0.6 P (h | e1 ) = 0.82 P (¬h | e1 ) = 0.18 P (h | e1 , ¬e2 ) = 0.8 P (¬h | e1 , ¬e2 ) = 0.2 0.6 P (e3 | h) · P (h | e1 , ¬e2 ) = · 0.8 P (h | e1 , ¬e2 , e3 ) = P (e3 ) P (e3 ) P (e3 | ¬h) 0.4 P (¬h | e1 , ¬e2 , e3 ) = · P (¬h | e1 , ¬e2 ) = · 0.2 P (e3 ) P (e3 ) 1 · (0.6 · 0.8 + 0.4 · 0.2) 1= P (e3 ) P (e3 ) = 0.6 · 0.8 + 0.4 · 0.2 = 0.56
0.6 · 0.8 = 0.86 P (h | e1 , ¬e2 , e3 ) = 0.56
Wykład 14, 26 V 2010, str. 13
Klasyfikacja bayesowska Przykład: (prof. Wierzchoń) P (h) = 0.8 P (e1 | h) = 0.7 P (e2 | h) = 0.4 P (e3 | h) = 0.6 P (e2 | ¬h) = 0.3 P (e3 | ¬h) = 0.4 M P (e1 | ¬h) = 0.6 P (h | e1 ) = 0.82 P (¬h | e1 ) = 0.18 P (h | e1 , ¬e2 ) = 0.8 P (¬h | e1 , ¬e2 ) = 0.2 0.6 P (e3 | h) · P (h | e1 , ¬e2 ) = · 0.8 P (h | e1 , ¬e2 , e3 ) = P (e3 ) P (e3 ) P (e3 | ¬h) 0.4 P (¬h | e1 , ¬e2 , e3 ) = · P (¬h | e1 , ¬e2 ) = · 0.2 P (e3 ) P (e3 ) 1 · (0.6 · 0.8 + 0.4 · 0.2) 1= P (e3 ) P (e3 ) = 0.6 · 0.8 + 0.4 · 0.2 = 0.56
0.6 · 0.8 = 0.86 P (h | e1 , ¬e2 , e3 ) = 0.56
Wykład 14, 26 V 2010, str. 14
Klasyfikacja bayesowska Jak nowe obserwacje zmieniają prawdopodobieństwo spełnienia hipotezy h ?
Wykład 14, 26 V 2010, str. 14
Klasyfikacja bayesowska Jak nowe obserwacje zmieniają prawdopodobieństwo spełnienia hipotezy h: P (h) = 0.8 P (h | e1 ) = 0.82 P (h | e1 , ¬e2 ) = 0.8 P (h | e1 , ¬e2 , e3 ) = 0.86
Wykład 14, 26 V 2010, str. 14
Klasyfikacja bayesowska Jak nowe obserwacje zmieniają prawdopodobieństwo spełnienia hipotezy h: P (h) = 0.8 P (h | e1 ) = 0.82 P (h | e1 , ¬e2 ) = 0.8 P (h | e1 , ¬e2 , e3 ) = 0.86
Wykład 14, 26 V 2010, str. 14
Klasyfikacja bayesowska Jak nowe obserwacje zmieniają prawdopodobieństwo spełnienia hipotezy h: P (h) = 0.8 P (h | e1 ) = 0.82 P (h | e1 , ¬e2 ) = 0.8 P (h | e1 , ¬e2 , e3 ) = 0.86
Wykład 14, 26 V 2010, str. 14
Klasyfikacja bayesowska Jak nowe obserwacje zmieniają prawdopodobieństwo spełnienia hipotezy h: P (h) = 0.8 P (h | e1 ) = 0.82 P (h | e1 , ¬e2 ) = 0.8 P (h | e1 , ¬e2 , e3 ) = 0.86
Wykład 14, 26 V 2010, str. 15
Klasyfikacja bayesowska Naiwny klasyfikator Bayesowski
Wykład 14, 26 V 2010, str. 15
Klasyfikacja bayesowska Naiwny klasyfikator Bayesowski Treningowy zbiór dokumentów: pieniądze szybko pieniądze SPAM
pieniądze wygrałeś SPAM
pieniądze rynek analiza NIE SPAM
rynek wygrałeś szybko SPAM
Wykład 14, 26 V 2010, str. 15
Klasyfikacja bayesowska Naiwny klasyfikator Bayesowski Treningowy zbiór dokumentów: pieniądze szybko pieniądze SPAM
pieniądze wygrałeś SPAM
Jak zaklasyfikować nowy dokument?
pieniądze rynek analiza NIE SPAM
rynek wygrałeś szybko SPAM
Wykład 14, 26 V 2010, str. 15
Klasyfikacja bayesowska Naiwny klasyfikator Bayesowski Treningowy zbiór dokumentów: pieniądze szybko pieniądze SPAM
pieniądze wygrałeś SPAM
pieniądze rynek analiza NIE SPAM
Jak zaklasyfikować nowy dokument? rynek szybko CZY SPAM?
rynek wygrałeś szybko SPAM
Wykład 14, 26 V 2010, str. 16
Klasyfikacja bayesowska prawd. a priori, że spam: P (S) = 2 = P (rynek | S) = 1+1 8+5 13 3 2+1 = 13 P (szybko | S) = 8+5 prawd., że spam: P (S)·P (rynek|S)·P (szybko|S) =
3 4
pieniądze szybko pieniądze SPAM
0+1 2+5
=
1 7
pieniądze wygrałeś SPAM
pieniądze rynek analiza NIE SPAM
3·2·3 Jak zaklasyfikować nowy dokument? 4·13·13
prawd. a priori, że nie spam: P (¬S) = 1+1 = 27 P (rynek | ¬S) = 2+5 P (szybko | ¬S) =
Treningowy zbiór dokumentów:
1 4
rynek szybko CZY SPAM?
rynek wygrałeś szybko SPAM
Wykład 14, 26 V 2010, str. 16
Klasyfikacja bayesowska prawd. a priori, że spam: P (S) = 2 P (rynek | S) = 1+1 = 8+5 13 3 2+1 = 13 P (szybko | S) = 8+5 prawd., że spam: P (S)·P (rynek|S)·P (szybko|S) =
3 4
pieniądze szybko pieniądze SPAM
0+1 2+5
=
1 7
pieniądze wygrałeś SPAM
pieniądze rynek analiza NIE SPAM
3·2·3 4·13·13 Jak zaklasyfikować nowy dokument?
prawd. a priori, że nie spam: P (¬S) = 1+1 = 27 P (rynek | ¬S) = 2+5 P (szybko | ¬S) =
Treningowy zbiór dokumentów:
1 4
rynek szybko CZY SPAM?
rynek wygrałeś szybko SPAM
Wykład 14, 26 V 2010, str. 16
Klasyfikacja bayesowska prawd. a priori, że spam: P (S) = 2 = P (rynek | S) = 1+1 8+5 13 2+1 3 P (szybko | S) = 8+5 = 13 prawd., że spam: P (S)·P (rynek|S)·P (szybko|S) =
3 4
pieniądze szybko pieniądze SPAM
0+1 2+5
=
1 7
pieniądze wygrałeś SPAM
pieniądze rynek analiza NIE SPAM
3·2·3 4·13·13 Jak zaklasyfikować nowy dokument?
prawd. a priori, że nie spam: P (¬S) = 1+1 = 27 P (rynek | ¬S) = 2+5 P (szybko | ¬S) =
Treningowy zbiór dokumentów:
1 4
rynek szybko CZY SPAM?
rynek wygrałeś szybko SPAM
Wykład 14, 26 V 2010, str. 16
Klasyfikacja bayesowska prawd. a priori, że spam: P (S) = 2 = P (rynek | S) = 1+1 8+5 13 3 2+1 = 13 P (szybko | S) = 8+5 prawd., że spam: P (S)·P (rynek|S)·P (szybko|S) =
3 4
pieniądze szybko pieniądze SPAM
0+1 2+5
=
1 7
pieniądze wygrałeś SPAM
pieniądze rynek analiza NIE SPAM
3·2·3 4·13·13 Jak zaklasyfikować nowy dokument?
prawd. a priori, że nie spam: P (¬S) = 1+1 = 27 P (rynek | ¬S) = 2+5 P (szybko | ¬S) =
Treningowy zbiór dokumentów:
1 4
rynek szybko CZY SPAM?
rynek wygrałeś szybko SPAM
Wykład 14, 26 V 2010, str. 16
Klasyfikacja bayesowska prawd. a priori, że spam: P (S) = 2 = P (rynek | S) = 1+1 8+5 13 3 2+1 = 13 P (szybko | S) = 8+5 prawd., że spam: P (S)·P (rynek|S)·P (szybko|S) =
3 4
pieniądze szybko pieniądze SPAM
0+1 2+5
=
1 7
pieniądze wygrałeś SPAM
pieniądze rynek analiza NIE SPAM
3·2·3 4·13·13 Jak zaklasyfikować nowy dokument?
prawd. a priori, że nie spam: P (¬S) = 1+1 = 27 P (rynek | ¬S) = 2+5 P (szybko | ¬S) =
Treningowy zbiór dokumentów:
1 4
rynek szybko CZY SPAM?
rynek wygrałeś szybko SPAM
Wykład 14, 26 V 2010, str. 16
Klasyfikacja bayesowska prawd. a priori, że spam: P (S) = 2 = P (rynek | S) = 1+1 8+5 13 3 2+1 = 13 P (szybko | S) = 8+5 prawd., że spam: P (S)·P (rynek|S)·P (szybko|S) =
3 4
pieniądze szybko pieniądze SPAM
0+1 2+5
=
1 7
pieniądze wygrałeś SPAM
pieniądze rynek analiza NIE SPAM
3·2·3 4·13·13 Jak zaklasyfikować nowy dokument?
prawd. a priori, że nie spam: P (¬S) = 1+1 P (rynek | ¬S) = 2+5 = 27 P (szybko | ¬S) =
Treningowy zbiór dokumentów:
1 4
rynek szybko CZY SPAM?
rynek wygrałeś szybko SPAM
Wykład 14, 26 V 2010, str. 16
Klasyfikacja bayesowska prawd. a priori, że spam: P (S) = 2 = P (rynek | S) = 1+1 8+5 13 3 2+1 = 13 P (szybko | S) = 8+5 prawd., że spam: P (S)·P (rynek|S)·P (szybko|S) =
3 4
pieniądze szybko pieniądze SPAM
0+1 2+5
=
1 7
pieniądze wygrałeś SPAM
pieniądze rynek analiza NIE SPAM
3·2·3 4·13·13 Jak zaklasyfikować nowy dokument?
prawd. a priori, że nie spam: P (¬S) = 1+1 = 27 P (rynek | ¬S) = 2+5 P (szybko | ¬S) =
Treningowy zbiór dokumentów:
1 4
rynek szybko CZY SPAM?
rynek wygrałeś szybko SPAM
Wykład 14, 26 V 2010, str. 16
Klasyfikacja bayesowska prawd. a priori, że spam: P (S) = 2 = P (rynek | S) = 1+1 8+5 13 3 2+1 = 13 P (szybko | S) = 8+5 prawd., że spam: P (S)·P (rynek|S)·P (szybko|S) =
3 4
pieniądze szybko pieniądze SPAM
0+1 2+5
=
1 7
pieniądze wygrałeś SPAM
pieniądze rynek analiza NIE SPAM
3·2·3 4·13·13 Jak zaklasyfikować nowy dokument?
prawd. a priori, że nie spam: P (¬S) = 1+1 = 27 P (rynek | ¬S) = 2+5 P (szybko | ¬S) =
Treningowy zbiór dokumentów:
1 4
rynek szybko CZY SPAM?
rynek wygrałeś szybko SPAM
Wykład 14, 26 V 2010, str. 16
Klasyfikacja bayesowska prawd. a priori, że spam: P (S) = 2 = P (rynek | S) = 1+1 8+5 13 3 2+1 = 13 P (szybko | S) = 8+5 prawd., że spam: P (S)·P (rynek|S)·P (szybko|S) =
3 4
Treningowy zbiór dokumentów: pieniądze szybko pieniądze SPAM
pieniądze wygrałeś SPAM
pieniądze rynek analiza NIE SPAM
3·2·3 4·13·13 Jak zaklasyfikować nowy dokument?
prawd. a priori, że nie spam: P (¬S) = 2 P (rynek | ¬S) = 1+1 = 2+5 7 1 P (szybko | ¬S) = 0+1 = 2+5 7 prawd., że nie spam: P (¬S)·P (rynek|¬S)·P (szybko|¬S)
1 4
rynek szybko CZY SPAM?
rynek wygrałeś szybko SPAM
Wykład 14, 26 V 2010, str. 16
Klasyfikacja bayesowska prawd. a priori, że spam: P (S) = 2 = P (rynek | S) = 1+1 8+5 13 3 2+1 = 13 P (szybko | S) = 8+5 prawd., że spam: P (S)·P (rynek|S)·P (szybko|S) =
3 4
Treningowy zbiór dokumentów: pieniądze szybko pieniądze SPAM
pieniądze wygrałeś SPAM
pieniądze rynek analiza NIE SPAM
3·2·3 4·13·13 Jak zaklasyfikować nowy dokument?
prawd. a priori, że nie spam: P (¬S) = 1+1 = 72 P (rynek | ¬S) = 2+5 1 P (szybko | ¬S) = 0+1 = 2+5 7 prawd., że nie spam: P (¬S)·P (rynek|¬S)·P (szybko|¬S) =
1 4
1·2·1 4·7·7
rynek szybko CZY SPAM?
rynek wygrałeś szybko SPAM
Wykład 14, 26 V 2010, str. 16
Klasyfikacja bayesowska prawd. a priori, że spam: P (S) = 2 = P (rynek | S) = 1+1 8+5 13 3 2+1 = 13 P (szybko | S) = 8+5 prawd., że spam: P (S)·P (rynek|S)·P (szybko|S) =
3 4
pieniądze szybko pieniądze SPAM
0+1 P (szybko | ¬S) = 2+5 = 17 prawd., że nie spam: P (¬S)·P (rynek|¬S)·P (szybko|¬S) = 3·2·3 4·13·13
pieniądze wygrałeś SPAM
pieniądze rynek analiza NIE SPAM
3·2·3 4·13·13 Jak zaklasyfikować nowy dokument?
prawd. a priori, że nie spam: P (¬S) = 1+1 = 27 P (rynek | ¬S) = 2+5
P (S | rynek, szybko) =
Treningowy zbiór dokumentów:
1 4
1·2·1 4·7·7
rynek szybko CZY SPAM?
rynek wygrałeś szybko SPAM
Wykład 14, 26 V 2010, str. 16
Klasyfikacja bayesowska prawd. a priori, że spam: P (S) = 2 = P (rynek | S) = 1+1 8+5 13 3 2+1 = 13 P (szybko | S) = 8+5 prawd., że spam: P (S)·P (rynek|S)·P (szybko|S) =
3 4
pieniądze szybko pieniądze SPAM
0+1 P (szybko | ¬S) = 2+5 = 17 prawd., że nie spam: P (¬S)·P (rynek|¬S)·P (szybko|¬S) = 3·2·3 4·13·13
pieniądze wygrałeś SPAM
pieniądze rynek analiza NIE SPAM
3·2·3 4·13·13 Jak zaklasyfikować nowy dokument?
prawd. a priori, że nie spam: P (¬S) = 1+1 = 27 P (rynek | ¬S) = 2+5
P (S | rynek, szybko) =
Treningowy zbiór dokumentów:
1 4
1·2·1 4·7·7
≃ 0.0266
rynek szybko CZY SPAM?
rynek wygrałeś szybko SPAM
Wykład 14, 26 V 2010, str. 16
Klasyfikacja bayesowska prawd. a priori, że spam: P (S) = 2 = P (rynek | S) = 1+1 8+5 13 3 2+1 = 13 P (szybko | S) = 8+5 prawd., że spam: P (S)·P (rynek|S)·P (szybko|S) =
3 4
pieniądze szybko pieniądze SPAM
0+1 P (szybko | ¬S) = 2+5 = 17 prawd., że nie spam: P (¬S)·P (rynek|¬S)·P (szybko|¬S) =
1 4
1·2·1 4·7·7
3·2·3 4·13·13
≃ 0.0266
1·2·1 4·7·7
≃ 0.0102
P (¬S | rynek, szybko) =
pieniądze wygrałeś SPAM
pieniądze rynek analiza NIE SPAM
3·2·3 4·13·13 Jak zaklasyfikować nowy dokument?
prawd. a priori, że nie spam: P (¬S) = 1+1 = 27 P (rynek | ¬S) = 2+5
P (S | rynek, szybko) =
Treningowy zbiór dokumentów:
rynek szybko CZY SPAM?
rynek wygrałeś szybko SPAM
Wykład 14, 26 V 2010, str. 16
Klasyfikacja bayesowska prawd. a priori, że spam: P (S) = 2 = P (rynek | S) = 1+1 8+5 13 3 2+1 = 13 P (szybko | S) = 8+5 prawd., że spam: P (S)·P (rynek|S)·P (szybko|S) =
3 4
pieniądze szybko pieniądze SPAM
0+1 P (szybko | ¬S) = 2+5 = 17 prawd., że nie spam: P (¬S)·P (rynek|¬S)·P (szybko|¬S) = 3·2·3 4·13·13
P (¬S | rynek, szybko) =
1·2·1 4·7·7
pieniądze wygrałeś SPAM
pieniądze rynek analiza NIE SPAM
3·2·3 4·13·13 Jak zaklasyfikować nowy dokument?
prawd. a priori, że nie spam: P (¬S) = 1+1 = 27 P (rynek | ¬S) = 2+5
P (S | rynek, szybko) =
Treningowy zbiór dokumentów:
1 4
rynek szybko CZY SPAM?
1·2·1 4·7·7
≃ 0.0266 ≃ 0.0102 < P (S | rynek, szybko)
rynek wygrałeś szybko SPAM
Wykład 14, 26 V 2010, str. 16
Klasyfikacja bayesowska prawd. a priori, że spam: P (S) = 2 = P (rynek | S) = 1+1 8+5 13 3 2+1 = 13 P (szybko | S) = 8+5 prawd., że spam: P (S)·P (rynek|S)·P (szybko|S) =
3 4
pieniądze szybko pieniądze SPAM
1 P (szybko | ¬S) = 0+1 = 2+5 7 prawd., że nie spam: P (¬S)·P (rynek|¬S)·P (szybko|¬S) = 3·2·3 4·13·13
P (¬S | rynek, szybko) = Więc spam.
1·2·1 4·7·7
pieniądze wygrałeś SPAM
pieniądze rynek analiza NIE SPAM
3·2·3 4·13·13 Jak zaklasyfikować nowy dokument?
prawd. a priori, że nie spam: P (¬S) = 2 P (rynek | ¬S) = 1+1 = 2+5 7
P (S | rynek, szybko) =
Treningowy zbiór dokumentów:
1 4
rynek szybko CZY SPAM?
1·2·1 4·7·7
≃ 0.0266 ≃ 0.0102 < P (S | rynek, szybko)
rynek wygrałeś szybko SPAM
Wykład 14, 26 V 2010, str. 17
Klasyfikacja bayesowska Zakładamy, że obserwacje x1 , . . . , xn są warunkowo niezależne względem hipotezy h
Wykład 14, 26 V 2010, str. 17
Klasyfikacja bayesowska Zakładamy, że obserwacje x1 , . . . , xn są warunkowo niezależne względem hipotezy h: P (h, x1 , . . . , xn ) = P (h) · P (x1 | h) · . . . · P (xn | h) (założenie z sufitu, ale daje zadziwiająco dobre wyniki).
Wykład 14, 26 V 2010, str. 17
Klasyfikacja bayesowska Zakładamy, że obserwacje x1 , . . . , xn są warunkowo niezależne względem hipotezy h: P (h, x1 , . . . , xn ) = P (h) · P (x1 | h) · . . . · P (xn | h) (założenie z sufitu, ale daje zadziwiająco dobre wyniki). Wtedy P (h, x1 , . . . , xn ) P (h | x1 , . . . , xn ) = P (x1 , . . . , xn )
Wykład 14, 26 V 2010, str. 17
Klasyfikacja bayesowska Zakładamy, że obserwacje x1 , . . . , xn są warunkowo niezależne względem hipotezy h: P (h, x1 , . . . , xn ) = P (h) · P (x1 | h) · . . . · P (xn | h) (założenie z sufitu, ale daje zadziwiająco dobre wyniki). Wtedy P (h, x1 , . . . , xn ) P (h | x1 , . . . , xn ) = P (x1 , . . . , xn ) 1 = · P (h) · P (x1 | h) · . . . · P (xn | h) P (x1 , . . . , xn )
Wykład 14, 26 V 2010, str. 17
Klasyfikacja bayesowska Zakładamy, że obserwacje x1 , . . . , xn są warunkowo niezależne względem hipotezy h: P (h, x1 , . . . , xn ) = P (h) · P (x1 | h) · . . . · P (xn | h) (założenie z sufitu, ale daje zadziwiająco dobre wyniki). Wtedy P (h, x1 , . . . , xn ) P (h | x1 , . . . , xn ) = P (x1 , . . . , xn ) 1 = · P (h) · P (x1 | h) · . . . · P (xn | h) P (x1 , . . . , xn ) Dh • P (h) = D
Wykład 14, 26 V 2010, str. 17
Klasyfikacja bayesowska Zakładamy, że obserwacje x1 , . . . , xn są warunkowo niezależne względem hipotezy h: P (h, x1 , . . . , xn ) = P (h) · P (x1 | h) · . . . · P (xn | h) (założenie z sufitu, ale daje zadziwiająco dobre wyniki). Wtedy P (h, x1 , . . . , xn ) P (h | x1 , . . . , xn ) = P (x1 , . . . , xn ) 1 = · P (h) · P (x1 | h) · . . . · P (xn | h) P (x1 , . . . , xn ) Dh • P (h) = — prawd. h a priori: Dh to liczba dok. spełniających h D
Wykład 14, 26 V 2010, str. 17
Klasyfikacja bayesowska Zakładamy, że obserwacje x1 , . . . , xn są warunkowo niezależne względem hipotezy h: P (h, x1 , . . . , xn ) = P (h) · P (x1 | h) · . . . · P (xn | h) (założenie z sufitu, ale daje zadziwiająco dobre wyniki). Wtedy P (h, x1 , . . . , xn ) P (h | x1 , . . . , xn ) = P (x1 , . . . , xn ) 1 · P (h) · P (x1 | h) · . . . · P (xn | h) = P (x1 , . . . , xn ) Dh • P (h) = — prawd. h a priori: Dh to liczba dok. spełniających h, D D to liczba wszystkich dok.
Wykład 14, 26 V 2010, str. 17
Klasyfikacja bayesowska Zakładamy, że obserwacje x1 , . . . , xn są warunkowo niezależne względem hipotezy h: P (h, x1 , . . . , xn ) = P (h) · P (x1 | h) · . . . · P (xn | h) (założenie z sufitu, ale daje zadziwiająco dobre wyniki). Wtedy P (h, x1 , . . . , xn ) P (h | x1 , . . . , xn ) = P (x1 , . . . , xn ) 1 = · P (h) · P (x1 | h) · . . . · P (xn | h) P (x1 , . . . , xn ) Dh • P (h) = — prawd. h a priori: Dh to liczba dok. spełniających h, D D to liczba wszystkich dok. • P (xi | h) ≃ PZ
Ti + 1
k=1 (Tk
+ 1)
Wykład 14, 26 V 2010, str. 17
Klasyfikacja bayesowska Zakładamy, że obserwacje x1 , . . . , xn są warunkowo niezależne względem hipotezy h: P (h, x1 , . . . , xn ) = P (h) · P (x1 | h) · . . . · P (xn | h) (założenie z sufitu, ale daje zadziwiająco dobre wyniki). Wtedy P (h, x1 , . . . , xn ) P (h | x1 , . . . , xn ) = P (x1 , . . . , xn ) 1 = · P (h) · P (x1 | h) · . . . · P (xn | h) P (x1 , . . . , xn ) Dh • P (h) = — prawd. h a priori: Dh to liczba dok. spełniających h, D D to liczba wszystkich dok. • P (xi | h) ≃ PZ
Ti + 1
Ti + 1
= PZ ( k=1 Tk ) + Z k=1 (Tk + 1)
Wykład 14, 26 V 2010, str. 17
Klasyfikacja bayesowska Zakładamy, że obserwacje x1 , . . . , xn są warunkowo niezależne względem hipotezy h: P (h, x1 , . . . , xn ) = P (h) · P (x1 | h) · . . . · P (xn | h) (założenie z sufitu, ale daje zadziwiająco dobre wyniki). Wtedy P (h, x1 , . . . , xn ) P (h | x1 , . . . , xn ) = P (x1 , . . . , xn ) 1 = · P (h) · P (x1 | h) · . . . · P (xn | h) P (x1 , . . . , xn ) Dh • P (h) = — prawd. h a priori: Dh to liczba dok. spełniających h, D D to liczba wszystkich dok. • P (xi | h) ≃ PZ
Ti + 1
Ti + 1
= PZ ( k=1 Tk ) + Z k=1 (Tk + 1)
Ti to liczba wystąpień cechy xi w dokumentach spełniających h
Wykład 14, 26 V 2010, str. 17
Klasyfikacja bayesowska Zakładamy, że obserwacje x1 , . . . , xn są warunkowo niezależne względem hipotezy h: P (h, x1 , . . . , xn ) = P (h) · P (x1 | h) · . . . · P (xn | h) (założenie z sufitu, ale daje zadziwiająco dobre wyniki). Wtedy P (h, x1 , . . . , xn ) P (h | x1 , . . . , xn ) = P (x1 , . . . , xn ) 1 = · P (h) · P (x1 | h) · . . . · P (xn | h) P (x1 , . . . , xn ) Dh • P (h) = — prawd. h a priori: Dh to liczba dok. spełniających h, D D to liczba wszystkich dok. • P (xi | h) ≃ PZ
Ti + 1
Ti + 1
= PZ ( k=1 Tk ) + Z k=1 (Tk + 1)
Ti to liczba wystąpień cechy xi w dokumentach spełniających h, Z to liczba cech występujących w dokumentach spełniających h
Wykład 14, 26 V 2010, str. 17
Klasyfikacja bayesowska Zakładamy, że obserwacje x1 , . . . , xn są warunkowo niezależne względem hipotezy h: P (h, x1 , . . . , xn ) = P (h) · P (x1 | h) · . . . · P (xn | h) (założenie z sufitu, ale daje zadziwiająco dobre wyniki). Wtedy P (h, x1 , . . . , xn ) P (h | x1 , . . . , xn ) = P (x1 , . . . , xn ) 1 = · P (h) · P (x1 | h) · . . . · P (xn | h) P (x1 , . . . , xn ) Dh • P (h) = — prawd. h a priori: Dh to liczba dok. spełniających h, D D to liczba wszystkich dok. • P (xi | h) ≃ PZ
Ti + 1
Ti + 1
= PZ ( k=1 Tk ) + Z k=1 (Tk + 1)
Ti to liczba wystąpień cechy xi w dokumentach spełniających h, Z to liczba cech występujących w dokumentach spełniających h, PZ k=1 Tk to liczba wystąpień wszystkich cech we wszystkich dok. spełniających h
Wykład 14, 26 V 2010, str. 18
Klasyfikacja bayesowska Ti + 1 P (xi | h) ≃ PZ k=1 (Tk + 1)
Wykład 14, 26 V 2010, str. 18
Klasyfikacja bayesowska Ti + 1 P (xi | h) ≃ PZ k=1 (Tk + 1)
Wygładzanie Laplace’a — jedynki dodane po to, żeby żaden czynnik iloczynu nie był zerem; wprowadzają niewielki błąd.
Wykład 14, 26 V 2010, str. 18
Klasyfikacja bayesowska Ti + 1 P (xi | h) ≃ PZ k=1 (Tk + 1)
Wygładzanie Laplace’a — jedynki dodane po to, żeby żaden czynnik iloczynu nie był zerem; wprowadzają niewielki błąd. Do licznika dodajemy 1; ile dodać do mianownika, żeby wartość ułamka się nie zmieniła? a a+1 = b b+x
Wykład 14, 26 V 2010, str. 18
Klasyfikacja bayesowska Ti + 1 P (xi | h) ≃ PZ k=1 (Tk + 1)
Wygładzanie Laplace’a — jedynki dodane po to, żeby żaden czynnik iloczynu nie był zerem; wprowadzają niewielki błąd. Do licznika dodajemy 1; ile dodać do mianownika, żeby wartość ułamka się nie zmieniła? a a+1 = b b+x
⇐⇒
b x= a
Wykład 14, 26 V 2010, str. 18
Klasyfikacja bayesowska Ti + 1 P (xi | h) ≃ PZ k=1 (Tk + 1)
Wygładzanie Laplace’a — jedynki dodane po to, żeby żaden czynnik iloczynu nie był zerem; wprowadzają niewielki błąd. Do licznika dodajemy 1; ile dodać do mianownika, żeby wartość ułamka się nie zmieniła? a a+1 = b b+x
⇐⇒
b x= a
1 ≃ . Jeśli wartości a1 , . . . , an niewiele się różnią, to Pn n i=1 ai ai
Wykład 14, 26 V 2010, str. 18
Klasyfikacja bayesowska Ti + 1 P (xi | h) ≃ PZ k=1 (Tk + 1)
Wygładzanie Laplace’a — jedynki dodane po to, żeby żaden czynnik iloczynu nie był zerem; wprowadzają niewielki błąd. Do licznika dodajemy 1; ile dodać do mianownika, żeby wartość ułamka się nie zmieniła? a a+1 = b b+x
⇐⇒
b x= a
1 ≃ . Wobec tego Jeśli wartości a1 , . . . , an niewiele się różnią, to Pn n i=1 ai ai
ai + 1 ≃ Pn Pn ( i=1 ai ) + n i=1 ai ai
Wykład 14, 26 V 2010, str. 18
Klasyfikacja bayesowska Ti + 1 P (xi | h) ≃ PZ k=1 (Tk + 1)
Wygładzanie Laplace’a — jedynki dodane po to, żeby żaden czynnik iloczynu nie był zerem; wprowadzają niewielki błąd. Do licznika dodajemy 1; ile dodać do mianownika, żeby wartość ułamka się nie zmieniła? a a+1 = b b+x
⇐⇒
b x= a
1 ≃ . Wobec tego Jeśli wartości a1 , . . . , an niewiele się różnią, to Pn n i=1 ai ai
ai + 1 ai + 1 ≃ Pn = Pn Pn ( i=1 ai ) + n i=1 ai i=1 (ai + 1) ai