2 Grundlagen aus der Wahrscheinlichkeitsrechnung

2 Grundlagen aus der Wahrscheinlichkeitsrechnung In diesem Abschnitt sind die wichtigsten Konzepte der Wahrscheinlichkeitsrechnung zusammengestellt,...
Author: Guest
2 downloads 0 Views 398KB Size
2

Grundlagen aus der Wahrscheinlichkeitsrechnung

In diesem Abschnitt sind die wichtigsten Konzepte der Wahrscheinlichkeitsrechnung zusammengestellt, die für die Zwecke unserer Vorlesung wichtig sind. Sie beschränken sich der Einfachheit halber auf den Fall endlicher und abzählbar unendlicher Wahrscheinlichkeitsräume. Eine sehr gute Einführung in die Thematik ndet sich im Buch Probability and Computing  Randomized Algorithms and Probabilistic Analysis von M. Mitzenmacher und E. Upfal.

2.1 Grundbegrie, Beispiele Denition 2.1.1 Ein Wahrscheinlichkeitsraum (W-Raum ) ist ein

(Ω, p), wo Ω eine endliche oderPabzählbar unendliche Menge und p : Ω → [0, 1] eine Funktion ist, mit p(ω) = 1. Wir schreiben oft pω

Paar

ω∈Ω

statt

p(ω).

Eine solche Funktion

p : Ω → [0, 1]

heiÿt auch  Verteilung

oder  Wahrscheinlichkeitsverteilung.

Bemerkung 2.1.2 Man weiÿ, dass in der Situation der Denition für jedes



A⊆

P

pω absolut (d. h. ohne Rücksicht auf die Summationsreihenfolge) ω∈A konvergiert, also einen wohldenierten Wert hat. die Reihe

Ein Wahrscheinlichkeitsraum ist eine mathematisch exakte Formulierung für das (informale, intuitive) Konzept eines  Zufallsexperiments : Es wird zufällig ein

Ω ausgewählt; dabei ist die Wahrscheinlichkeit, gerade ω zu erhalpω gegeben. Man teste diese intuitive Auf fassung an den folgenden

Element aus ten, durch Beispielen.

Beispiele 2.1.3 (a) Zur Modellierung des Zufallsexperiments, einen fairen Würfel einmal zu werfen, benutzt man den Wahrscheinlichkeitsraum (Ω, p) mit Ω = {1, . . . , 6} und p(ω) = 61 für jedes ω ∈ {1, . . . , 6}. Bei einer fairen Münze wird man (mit 0 für Kopf  und 1 für Zahl) den 1 W-Raum Ω = {0, 1} und p(ω) = verwenden. Ist die Münze gefälscht, könnte 2 man z. B. p(0) = 0,55 und p(1) = 0,45 setzen. (b) Zur Modellierung des Zufallsexperiments, zwei Würfel zu werfen und die Summe der Augenzahlen als Resultat zu nehmen, wird man etwa

1

Ω = {2, . . . , 12}

1 2 6 1 , p(3) = , . . ., p(7) = , . . ., p(12) = wählen. Man beachte, 36 36 36 36 dass hier die Wahrscheinlichkeiten unterschiedlich sind.

und

(c)

p(2) =

U 6= ∅

sei eine endliche Menge. Wir modellieren das Zufallsexperiment, ein

U zu wählen, wobei jedes Element die gleichen Chancen haben soll, Ω = U und pω = |U1 | , für alle ω ∈ Ω. Man spricht von der  uniformen Verteilung  auf U . Gewöhnlich ist implizit diese Verteilung gemeint, wenn über

Element aus wie folgt:

die Wahrscheinlichkeiten der einzelnen Elemente gar nichts gesagt wird oder wenn die Formulierung wähle zufällig ein Element aus

U

benutzt wird.

(d) Wir wollen wiederholt mit einem Würfel würfeln und warten, bis die erste 5 i−1 1 · 6 als die Wahr6 erscheint. Dazu setzen wir Ω = {1, 2, 3, . . .} und pi = ( ) 6 scheinlichkeit, dass beim i-ten Versuch zum ersten Mal eine 6 gewürfelt wird. Man sieht, mit der Summenformel für geometrische Reihen:

P

i≥1

pi =

1 6

·

5 i−1 i≥1 ( 6 )

P

=

1 6

·

1 1− 56

= 1.

Damit haben wir tatsächlich einen Wahrscheinlichkeitsraum deniert. (e) Es sei

U 6= ∅

eine endliche Menge und

n ≥ 1.

Der W-Raum

(Ω, p)

mit

Ω = U n = {(a1 , . . . , an ) | a1 , . . . , an ∈ U } 1 , ω ∈ Ω, das ist also die uniforme Verteilung auf |U |n Zufallsexperiment, bei dem eine Folge von n Elementen aus und

pω =

wird, bzw.

n-mal

hintereinander ein Element aus

U

U n , entspricht dem U zufällig gewählt

zufällig gewählt wird.

U 6= ∅ endlich, 1 ≤ n ≤ |U |. Die Menge Ω = {A ⊆ U | |A| = n} mit der  |U | −1 Verteilung, die durch pω = für alle ω ∈ Ω gegeben ist, deniert einen Wn Raum, der das Zufallsexperiment Wähle eine zufällige n-elementige Teilmenge von U  modelliert.

(f ) Es sei

(g) Für die Durchschnittsanalyse von Sortierverfahren, die angeordneten Universum

n

Schlüssel aus dem

(U, 0

beliebig. Dann gilt

Pr(X

≥ t) ≤

9

E(|X|α )



.



Sei

k≥2

eine gerade ganze Zahl und

Pr(|X

t≥0

− E(X)| ≥ t) ≤

. Dann gilt:

E((X

− E(X))k ) . tk

Z = |X − E(X)|

(Hier wird 2.3.4 auf die Zufallsvariable

und

f (x) = xk

angewendet.)



Sei

X

reellwertig, sei

a > 0,

und sei

Pr(X

E(eaX ) deniert. Dann gilt

≥ t) ≤

E(eaX )

eat

.

Cherno-Schranke . Wir werden sie weiter

(Dies ist die ursprüngliche

unten benutzen, um eine spezialisierte Folgerung, die Hoeding-Schranke, zu beweisen.)

2 2 Wir haben oben gesehen, dass stets E(X) ≤ E(X ) gilt. Anstelle der Funktion 2 x 7→ x kann man jede beliebige konvexe Funktion benutzen.

Denition 2.3.5

D ⊆ R

sei ein Intervall. Eine Funktion

heiÿt konvex, wenn für alle x, y ∈ D und f ((1 − λ)x + λy) ≤ (1 − λ)f (x) + λf (y). Sie heiÿt konkav, wenn −f konvex ist.

jedes

λ ∈ [0, 1]

f: D → R

gilt:

Grob gesprochen ist eine Funktion konvex, wenn an jeder Stelle der Graph der Funktion unter jeder Sekante dieses Funktionsgraphen verläuft.  Aus der Schule oder aus der Analysis weiÿ man, dass für die Konvexität hinreichend ist, dass f 00 (x) in D (bzw. im Inneren von D) existiert und positiv ist.

Beispiele :

(i) Die Funktion

f : x 7→ x2

für jede natürliche Zahl (ii) Wenn

α ∈ R, α > 1,

ist konvex in

Allgemeiner gilt dies für

x 7→ x2d ,

d > 0.

dann ist die Funktion

α ∈ R, 0 < α < 1,

(iii) Wenn

R.

fα : x 7→ xα

dann ist die Funktion

konvex in

fα : x 7→ xα

[0, ∞).

konkav in

[0, ∞). −α dann ist die Funktion gα : x 7→ x konvex in (0, ∞). 0 α+1 00 α+2 (Dierenziere zweimal: gα (x) = −α/x , und: gα (x) = −α(−(α+1))/x . Dies ist immer positiv.)

(iv) Wenn

α ∈ R, α > 0,

10

(v) Die Funktion

h : x 7→ x ln x ist konvex in [0, ∞). h0 (x) = ln x + 1, und h00 (x) = x−1 > 0.)

(Dierenziere zweimal: (vi) Für

t∈R

ist die Funktion

k : x 7→ etx

konvex in

R.

Proposition 2.3.6 (Jensensche Ungleichung, allgemeine Form)

X eine reellwertige Zufallsvariable und f eine Funktion mit D = Def(f ) ⊇ X(Ω). Wenn E(X) und E(f (X)) deniert sind, dann Es sei gilt : (a) Wenn

f

konvex ist :

f (E(X)) ≤ E(f (X)).

(b) Wenn

f

konkav ist :

f (E(X)) ≥ E(f (X)).

Beispiele : Unter der Voraussetzung, dass jeweils die Erwartungswerte deniert sind, gilt:

(i)

E(X)2d

(ii) Für

≤ E(X 2d ).

α>1

und

X≥0

X≥0

(iii) Für

00

(v) Für

X≥0

gilt

(vi) Für

t∈R

gilt

gilt:

gilt

E(X)α gilt:

≤ E(X α ).

E(X)α

E(X)−α

E(X) ln(E(X))

≥ E(X α ).

≤ E(X −α ).

≤ E(X ln X).

etE(X) ≤ E(etX ).

Beweis der Jensenschen Ungleichung: Wir beweisen nur (a). ((b) folgt durch Multiplikation der Ungleichung mit

−1.)

Setze

x0 :=

E(X). Dann ist

x0 ∈

Def(f ).

Nach einer Grundeigenschaft von konvexen Funktionen, die man in der Analysis beweist, hat der Graph von

f

im Punkt

(x0 , f (x0 )) eine untere Stützgerade, das

ist eine Gerade, die durch den Punkt verläuft und stets unterhalb des Funktionsgraphen bleibt. Das heiÿt: Es gibt ein

α∈R

(die Steigung der Stützgeraden)

derart dass

f (x0 ) + α(x − x0 ) ≤ f (x) (Wenn

f

dierenzierbar ist, wählt man

, für alle

α = f 0 (x0 ).)

x ∈ Def(f )

Daraus folgt, mit der Linea-

rität und der Monotonie des Erwartungswertes:

f (x0 ) + α(E(X) − x0 ) ≤ E(f (X)).

11

.

Nach der Wahl von

x0

2

folgt die behauptete Ungleichung.

Die Jensensche Ungleichung ist eine recht allgemeine Konvexitätsaussage. Um ihre Kraft zu demonstrieren, beweisen wir kurz die Ungleichung zwischen dem arithmetischen und dem geometrischen Mittel:

Proposition 2.3.7 (Arithmetisches versus geometrisches Mittel) Für

a1 , . . . , a n ≥ 0

gilt :

a1 + · · · + an ≥ (a1 · · · an )1/n . n Allgemeiner : Wenn zudem

p1 , . . . , pn ≥ 0 sind mit p1 +· · ·+pn = 1, dann

gilt :

p1 a1 + · · · + pn an ≥ ap11 · · · apnn .

ai strikt positiv sind. Dann betrachten wir eine Zufallsvariable X , die die Werte a1 , . . . , an mit Wahrscheinlichkeiten p1 , . . . , pn annimmt, sowie die konkave Funktion f (t) = ln t (mit Def(f ) = (0, ∞)). Nach Prop. 2.3.6(b) gilt f (E(X)) ≥ E(f (X)). Wenn man dies aus-

Beweis : Wir können o.B.d.A. annehmen, dass alle

schreibt und die Logarithmus-Rechenregeln anwendet, ergibt sich

ln(p1 a1 + · · · + pn an ) ≥ p1 ln(a1 ) + · · · + pn ln(an ) = ln(ap11 · · · apnn ). 2

Die Monotonie der Logarithmusfunktion liefert die Behauptung.

2.4 Bedingte Wahrscheinlichkeiten, bedingte Erwartungswerte Denition 2.4.1 Ist

A⊆Ω Pr(B

ein Ereignis mit Pr(A)

| A) :=

Pr(A ∩ B) Pr(A)

> 0,

,

und nennen dies die bedingte Wahrscheinlichkeit von Bedingung

A),

für beliebige Ereignisse

Es ist leicht zu sehen, dass



setzen wir

B

(unter der

B.

mit der durch

Pr( ·

| A)

denierten Verteilung A ebenfalls ein Wahrscheinlichkeitsraum ist. (Elementarwahrscheinlichkeiten: pω =

12

pω /Pr(A) für ω ∈ A und pA / A.) Auch in diesem Wahrscheinlichkeitsω = 0 für ω ∈ raum lassen sich Erwartungswerte von Zufallsvariablen X bilden (geschrieben E(X | A)). Man sieht leicht: Pr(A

| A) = Pr(Ω | A) = 1;

E(X

| A) =

X 1 · pω X(ω). Pr(A) ω∈A

Fakt 2.4.2 Basisformel für bedingte Wahrscheinlichkeiten: Pr(A ∩ B)

Im Fall

Pr(A)

=0

ist

Pr(B

| A)

= Pr(A)Pr(B | A).

nicht deniert. Solange man bedingte Wahr-

scheinlichkeiten nur über diese Basisformel benutzt, kann man so tun, als ob

Pr(B

| A)

irgendeinen Wert hätte. Die Formel kann man auf den Durchschnitt

mehrerer Ereignisse verallgemeinern:

Pr(A1 ∩· · ·∩An )

= Pr(A1 )Pr(A2 |A1 )Pr(A3 |A1 ∩A2 ) · · · Pr(An |A1 ∩· · ·∩An−1 ).

2.5 Unabhängigkeit bei Ereignissen und Zufallsvariablen Denition 2.5.1 (a)

Ereignisse A und Pr(A ∩ B) = Pr(A)Pr(B).

(b)

Ereignisse

A1 , . . . , A n

B

heiÿen

unabhängig,

falls

heiÿen unabhängig, falls

! Pr

\ i∈I

für beliebige

Ai ∩

\

(Ω − Ai )

=

i∈J

Y

Pr(Ai ) ·

i∈I

Y (1 − Pr(Ai )), i∈J

I, J ⊆ {1, . . . , n}, I ∩ J = ∅.

In vielen Büchern ndet man auch eine (auf den ersten Blick) andere Form von Denition 2.5.1(b): Man spricht von Unabhängigkeit, falls

! Pr

\

Ai

=

i∈I

Y i∈ I

13

Pr (Ai )

(5)

für beliebige Teilmengen

I

von

{1, 2, . . . , n}

gilt. Diese Denition und Deniti-

on 2.5.1(b) sind jedoch äquivalent. Unsere Denition 2.5.1(b) bietet sogar einen Vorteil, denn man kann sofort Aussagen machen, bei denen Gegenereignisse

A¯i

vorkommen.

Beispiel 2.5.2 (a) In Bsp. 2.1.3 (h) sind die Ereignisse 0 0 unabhängig, für beliebige v1 , . . . , vn

∈ {0, . . . , m − 1}

(b) In Bsp. 2.1.3 (h) sind die Ereignisse

{v1 = v10 }, . . . , {vn = vn0 }

fest.

{v1 6= 0}, . . . , {vn 6= 0}

unabhängig.

Denition 2.5.3 Zufallsfunktionen

Xi : Ω → Ri , 1 ≤ i ≤ n, heiÿen 0 unabhängig, wenn für beliebige Ri ⊆ Ri die Ereignisse {X1 ∈ R10 }, . . . , {Xn ∈ Rn0 } unabhängig sind. (Dies gilt genau dann, wenn Pr(Xi

∈ Ri0

für

1 ≤ i ≤ n) =

Y

Pr(Xi

∈ Ri0 )

1≤i≤n

für beliebige

Ri0 ⊆ Ri .)

gi : Ri → Si beliebig, 1 ≤ i ≤ n, dann sind die Zufallsfunktionen g1 ◦ X1 , . . . , gn ◦ Xn unabhän-

Fakt 2.5.4 Sind

X1 , . . . , X n

unabhängig und sind

gig.

(Ωi , pi ), 1 ≤ i ≤ n, W-Räume, so wird durch (Ω, p) mit Ω := Ω1 × · · · × Ωn , p := p1 × · · · × pn , wo p(ω1 , . . . , ωn ) = p1 (ω1 ) · . . . · pn (ωn ), für ω = (ω1 , . . . , ωn ) ∈ Ω, ein neuer W-Raum (der Produktraum) deniert. In Ω sind die n Projektionsfunktionen Xi : ω = (ω1 , . . . , ωn ) 7→ ωi ∈ Ωi unabhängig; nach Fakt 2.5.4 ist also jede Folge Y1 , . . . , Yn von Zufallsfunktionen, wo Yi = gi ◦Xi (d. h. Yi hängt nur von der i-ten Komponente ωi ab), unabhängig. (Beispiel : Der Beispiel 2.5.5 Sind

Wahrscheinlichkeitsraum in Beispiel 2.1.3 (h) ist ein Produktraum.)

14

Fakt 2.5.6 Bei Unabhängigkeit multiplizieren sich Erwartungswerte, Varianzen addieren sich.

a

X1 , . . . , Xn Q unabhängige E(X1 · . . . · Xn ) = E(Xi ).

(a) Sind

Zufallsvariable,

so

gilt

1≤i≤n

X1 , . . . , Xn unabhängige P Zufallsvariable, so gilt Var(X1 + · · · + Xn ) = Var(Xi ). Dies gilt sogar,

(b) Sind

wenn nur

Xi

1≤i≤n und

Xj

a Additivität

Beweis.

unabhängig sind für

i 6= j

(paarweise Unabhängigkeit ).

von Erwartungswerten gilt immer, siehe Fakt 2.2.9(c).

(a) Wir beweisen die Aussage für zwei Zufallsvariable

X

und

Y.

Die

n Zufallsvariable ergibt sich durch vollständige Induktion. X E(X · Y ) = pω X(ω)Y (ω)

Verallgemeinerung auf

ω∈Ω

=

X

X

αβ · Pr(X = α ∧ Y = β)

α∈X[Ω] β∈Y [Ω]

= =

X

X

α∈X[Ω]

β∈Y [Ω]

 X

αβ · Pr(X = α) · Pr(Y = β)

 X  αPr(X = α) β Pr(Y = β)

α∈(X)[Ω]

=

β∈(Y )[Ω]

E(X)E(Y ).

Xi0 := Xi − E(Xi ), für 1 ≤ i ≤ n, und X 0 = X10 + · · · + Xn0 = X − E(X). Dann gilt E(Xi0 ) = 0 und Var(Xi0 ) = Var(Xi ), für 1 ≤ i ≤ n, sowie E(X) = 0 und Var(X 0 ) = Var(X). Das heiÿt, dass wir o. B. d. A. annehmen 2 2 können, dass E(Xi ) = 0 und Var(Xi ) = E(Xi ) und Var(X) = E(X ) gelten.

(b) Deniere

15

Wir haben dann:

Var(X)

=E

 X

Xi

2 

1≤i≤n

=

E

 X

Xi Xj



1≤i,j≤n

=

X

E(Xi Xj )

1≤i,j≤n

=

X 1≤i≤n

=

X

=

E

Xi Xj



1≤i6=j≤n

X

E(Xi ) E(Xj )

1≤i6=j≤n

| {z } | {z }

2

E(Xi ) +

1≤i≤n

X

X

2

E(Xi ) +

=0

=0

Var(Xi ).

1≤i≤n

Bemerkung : Für den Beweis von Teil (b) haben wir nicht die volle Unabhängigkeit

paarweise Unabhängigkeit von lieferte die Gleichheit E(Xi Xj ) = E(Xi )E(Xj ).

eingesetzt, sondern nur die

X1 , . . . , X n .

Sie

Xi 0-1-wertig ist, ist Xi2 = Xi , also E(Xi2 ) = E(Xi ). Damit erhält man für X = X1 + · · · + Xn die folgende nützliche Ungleichung: X X X Var(X) = Var(Xi ) = (E(Xi2 ) − E(Xi )2 ) ≤ E(Xi ) = E(X).

Beachte noch: Wenn

1≤i≤n (Gleichheit gilt nur, wenn alle

1≤i≤n

Xi

1≤i≤n

gleich

0

16

sind.)

2.6 Die Hoeding-Ungleichung Satz 2.6.1 (Hoeding) im Intervall

[0, 1].

X1 , . . . , X n

seien unabhängige Zufallsvariable mit Werten

Deniere

X := X1 + · · · + Xn ; m := E(X) . Dann gilt:

 Pr(X

≥ m + a) ≤ 

Pr(X

≤ m − b) ≤

m m+a

m+a 

m m−b

m−b 

n−m n − (m + a)

n−m n − (m − b)

n−(m+a) ,

für

0≤a≤n−m;

(6)

n−(m−b) ,

für

0 ≤ b ≤ m.

(7)

Bevor wir diese Ungleichungen beweisen, wollen wir sie ein wenig diskutieren. Die Hoeding-Ungleichung gehört zu der Familie der tail inequalities, das sind Ungleichungen, die Schranken dafür liefern, dass Verteilungen weit auseinandergezogen sind, d. h. dafür dass Zufallsvariable Werte weit weg von ihrem Erwartungwert annehmen. Wir werden weiter unten sehen, dass die Hoeding-Schranke relativ kräftig ist, wenn

m

nicht zu klein ist: Summen von vielen (auf

[0, 1])

beschränkten unabhängigen Zufallsvariablen sind eng um ihren Erwartungwert konzentriert. Man beachte, dass über die einzelnen sie in

[0, 1]

Xi

nichts weiter angenommen ist als dass

eingeschlossen sind. Insbesondere können sie auch ganz verschiedene

Verteilungen haben.

Korollar 2.6.2 In der Situation von Satz 1 gilt:

 Pr(X

≥ m + a) ≤ 

Pr(X

≤ m − b) ≤

m m+a

m+a

m m−b

m−b

ea , e−b ,

für

für

0 ≤ a ≤ n − m;

0 ≤ b ≤ m.

(8)

(9)

Der Beweis von Korollar 2.6.2 ist sehr einfach, wenn man sich die folgende auch

17

sonst nützliche Ungleichung in Erinnerung ruft (siehe Prop. A.0.2(b) im Anhang):



x 1+ y

y

< ex

für

y>0

und

x ≥ −y .

(10)

Wenn man (10) für den zweiten Faktor



n−m n − (m + a)

n−(m+a)

in (6) einsetzt, ergibt sich (8) für

 =

a 1+ n − (m + a)

n−(m+a)

0 ≤ a < n − m.

m m+a An dieser Stelle beobachten wir, dass (wieder mit (10)) der Faktor ( ) = m+a a m+a −a (1 − m+a ) in (8) immer kleiner als e ist. Daher ist die rechte Seite in (8) kleiner als 1 und stellt damit eine echte Schranke für eine Wahrscheinlichkeit dar. (Dazu später mehr.) Ganz analog ergibt sich (9) aus (7) mit Hilfe von (10).

2

Korollar 2.6.3 In der Situation des Satzes gilt:

m eε Pr(X ≥ (1 + ε)m) ≤ , (1 + ε)1+ε m  e−ε , Pr(X ≤ (1 − ε)m) ≤ (1 − ε)1−ε 

n m

für

0≤ε≤

für

0 ≤ ε ≤ 1.

− 1;

Korollar 2.6.3 ergibt sich aus Korollar 2.6.2 einfach dadurch, dass man b bzw. ε = setzt. m

(11)

(12)

ε =

a m

Korollar 2.6.3 besagt Folgendes: Wenn man eine tolerierbare prozentuale Abwei-

ε = 0.01, was 1 Prozent entspricht) vorgibt, dann ist die WahrscheinX weiter als diese Toleranz von seinem Erwartungswert m = E(X) abweicht, durch eine in m exponentiell fallende Funktion beschränkt. Je kleiner ε wird, desto näher an 1 liegt die Basis dieser Exponentialfunktion.

chung (z. B.

lichkeit, dass

Um einen Eindruck zu bekommen, hier eine Skizze des Verlaufs der Funktion eε ε 7→ (1+ε) 1+ε :

18

e^x/(1+x)^(1+x)

1 0.8 0.6 0.4 0.2 0

1

2 x

4

3

Wir notieren noch eine weitere nützliche Form der Ungleichungen.

Korollar 2.6.4 In der Situation von Korollar 2.6.3 gilt : Pr(X Pr(X Pr(X

Der Beweis von

(13)

≥ (1 + ε)m) ≤ e−ε

2 m/3

,

für

0 ≤ ε ≤ 1.8;

(13)

−ε2 m/4

,

für

0 ≤ ε ≤ 4.1;

(14)

−ε2 m/2

,

für

0 ≤ ε ≤ 1.

(15)

≥ (1 + ε)m) ≤ e

≤ (1 − ε)m) ≤ e

und

(14)

besteht in einer Diskussion des Verlaufs der Funk-

tionen 2

ε 7→ ln

e−ε /K eε /(1 + ε)1+ε

! = −ε2 /K − (ε − (1 + ε) ln(1 + ε)),

K = 3 und K = 4, aus der hervorgeht, dass diese Funktion im Intervall [1, 1.8] (für K = 3) bzw. [1, 4.1] (für K = 4) nicht negativ ist (s. Abb. 1 und 2).

für

(11). Die dritte Ungleichung (14) folgt ε 7→ −ε2 /2 − (−ε − (1 − ε) ln(1 − ε)) im mit (12) (s. Abb. 3).

Damit folgt die Behauptung direkt aus ähnlich aus der Beobachtung, dass Intervall

[0, 1]

nicht negativ ist, und

Nun kommen wir endlich zum Beweis von Formel (6) aus Satz 2.6.1. Der Fall

a = 0 ist trivial, weil auf der linken Seite von (6) eine Wahrscheinlichkeit 1. Den Fall a = n − m behandeln wir am Ende. Es

steht, auf der rechten Seite

19

0,05

0,04

0,03

0,02

0,01

0,00 0,5

K K K

1,0

1,5

2,0

e

0,01

0,02

0,03

eps -> -eps^2/3-(eps-(1+eps)ln(1+eps))

Abbildung 1: Funktion

ε 7→ −ε2 /3−(ε−(1+ε) ln(1+ε)): in [1, 1.8] nicht negativ.

0 < a < n−m

beliebig, aber fest. Für jedes beliebige t > 0 erhält man tX 1 durch Anwenden der Markov-Ungleichung auf die ZV e Folgendes: sei also

Pr(X

≥ m + a) = ≤

tX

Pr(e

≥ et(m+a) )

E(etX )

et(m+a) Y = e−t(m+a) E( etXi ). 1≤i≤n

Weil

X1 , . . . , Xn unabhängig sind, sind auch etX1 , . . . , etXn

unabhängig (Fakt 2.5.4)).

Daher (Fakt 2.5.6(a)) multiplizieren sich die Erwartungswerte, und wir erhalten:

Pr(X

≥ m + a) ≤ e−t(m+a) E(

Y

etXi )

1≤i≤n −t(m+a)

= e

Y

tXi

E(e

).

(16)

1≤i≤n Was können wir über die Zahlen

Lemma 2.6.5 Sei

t>0

E(etXi ) sagen?

beliebig. Dann gilt :

1 Dies ist die Cherno-Schranke, ein Spezialfall der verallgemeinerten Markov-Ungleichung (Prop. 2.3.4).

20

0,3

0,2

0,1

0 1

2

3

4

e

K

0,1

eps -> eps^2/4 -(-eps-(1+eps)ln(1+eps))

Abbildung 2: Funktion

(i)

ε 7→ −ε2 /4−(ε−(1+ε) ln(1+ε)): in [1, 4.1] nicht negativ.

etx ≤ 1 + x(et − 1),

für

0 ≤ x ≤ 1.

Y eine Zufallsvariable mit 0 ≤ Y ≤ 1, E(etY ) ≤ 1 + E(Y )(et − 1).

(ii) Ist

dann gilt

g : x 7→ (et )x ist konvex. Das heiÿt, dass der Graph der t Funktion unterhalb der Sekante durch (0, 1) und (1, e ) verläuft, also für 0 ≤ x ≤ 1 Beweis : (i) Die Funktion gilt:

(et )x ≤ g(0) + x · (g(1) − g(0)) = 1 + x(et − 1). tY (ii) Wegen (i) gilt e tY riablen e und 1 + Y und der Linearität

≤ 1 + Y (et − 1) (als Ungleichung zwischen den Zufallsva(et − 1)). Die Behauptung folgt nun wegen der Monotonie der Erwartungswerte. 2

Mit Lemma 2.6.5 erhalten wir aus (16):

Pr(X

≥ m + a) ≤ e−t(m+a)

Y

(1 + E(Xi )(et − 1)).

(17)

1≤i≤n Hier benutzen wir die Ungleichung zwischen dem arithmetischen und dem geometrischen Mittel, Proposition 2.3.7. Wenn wir diese Ungleichung in (17) auf die t nichtnegativen Zahlen ai = 1 + E(Xi )(e − 1), 1 ≤ i ≤ n, anwenden, und uns

21

0,4

0,3

0,2

0,1

0 0

0,2

0,4

0,6

0,8

1,0

e eps -> -eps^2/2-(-eps-(1-eps)ln(1-eps))

Abbildung 3: Funktion

erinnern, dass

ε 7→ −ε2 /2−(−ε−(1−ε) ln(1−ε)): in [0, 1] nicht negativ.

X = X1 + · · · + Xn

Pr(X

und

m = E(X)

ist, ergibt sich

!n 1 X (1 + E(Xi )(et − 1)) n 1≤i≤n

≥ m + a) ≤ e−t(m+a)

 n m(et − 1) = e · 1+ n   n m(et − 1) −t(m+a)/n = e · 1+ n n   m(z − 1) −(m+a)/n , = z · 1+ n −t(m+a)

mit

(18)

(19)

(20)

z = et .

Um aus der Ungleichung (20) optimalen Nutzen zu ziehen, sollten wir den bisher t noch freien Parameter t bzw. z = e so festlegen, dass der Kern

z −(m+a)/n · (1 +

m (z − 1)) n

möglichst klein wird. Wir wählen

z=

m+a n−m · . m n − (m + a) 22

(21)

(Dass dieser Wert tatsächlich (20) minimiert, sieht man durch Dierenzieren.) Man sieht, dass (wegen sich

z>1

und

t>0

a > 0)

beide Faktoren in (21) gröÿer als

1

sind, so dass

ergibt. Wir setzen (21) in die obere Schranke (18) ein und

erhalten

 Pr(X

≥ m + a) ≤

m(n − (m + a)) (m + a)(n − m)

m+a  n m (m + a)(n − m) + · 1− (22) . n n(n − (m + a))

Eine leichte (Bruch-)Rechnung ergibt, dass der zweite Faktor in (22) einfach n−m ( n−(m+a) )n ist. Passendes Zusammenfassen ergibt dann

 Pr(X

≥ m + a) ≤

m m+a

m+a  ·

n−m n − (m + a)

n−(m+a) ,

(23)

und das ist (6). Es fehlt noch der Fall

a = n − m.

Damit die Formel auf der rechten Seite von

(6) überhaupt deniert ist, muss man sich daran erinnern, dass per Konvention 00 = 1 ist. Wir benutzen hier, dass die rechte Seite in (6) für a → n − m (von links) stetig ist, die linke Seite für

a → n−m

(von links) monoton fällt. Damit

erhält man:

Pr(X

≥ n) ≤

lim a→(n−m)−

Pr(X

 ≤ =

lim a→(n−m)−  m n

n

≥ m + a)

m m+a

m+a 

n−m n − (m + a)

n−(m+a)

.

Um schlieÿlich (7) zu beweisen, könnte man analog vorgehen. Stattdessen führen wir diesen Fall aber auf (6) zurück, wie folgt. Wir denieren Zufallsvariable

Xi = 1 − Xi , 1 ≤ i ≤ n, und

X = X1 + · · · + X n , m = E(X) = E(n − X) = n − E(X) = n − m. Weiter setzen wir a = b (dann 0 ≤ a < m = n − m). Nun wenden wir (6) an und erhalten:  m+a  n−(m+a) m n−m Pr(X ≥ m + a) ≤ · , (24) m+a n − (m + a)

und ist

Wenn man diese Ungleichung wieder in die  Xi -Notation überführt, ergibt sich wegen

m + a = n − m + b = n − (m − b) und n − m = m:  n−(m−b)  m−b n−m m Pr(X ≤ m − b) ≤ · , n − (m − b) m−b

und das ist gerade (7).

23

(25)

2.7 Weitere Ungleichungen Die folgende Behauptung ist eine Verallgemeinerung von Ungleichung (4) auf zwei Zufallsvariable:

Proposition 2.7.1 (Cauchy-Schwarz-Ungleichung) Für Zufallsva-

X

riablen

und

Y,

deren Erwartungswert und Varianz deniert ist, gilt:

p

E(X 2 )E(Y 2 ).

|E(XY )| ≤

Beweis : Wir zeigen: E(XY

)2 ≤ E(X 2 )E(Y 2 ).

 Für

λ∈R

betrachte

f (λ) := E((X + λY )2 ) = E(X 2 ) + 2λE(XY ) + λ2 E(Y 2 ). Wenn

E(Y 2 )

= 0 ist, dann

ist

Pr(Y

6= 0) = 0, und

die Ungleichung gilt trivialer-

f (durch λ0 = −E(XY )/E(Y 2 ). Der

weise. Sonst sucht man die Minimalstelle der quadratischen Funktion Dierenzieren und Null-Setzen) und ndet sie bei Wert

f (λ)

ist als Erwartungswert einer nichtnegativen Zufallsvariablen selbst

nicht negativ, also gilt

0 ≤ f (λ0 ) = E(X 2 )−2E(XY )2 /E(Y 2 )+E(XY )2 /E(Y 2 ) = E(X 2 )−E(XY )2 /E(Y 2 ); daraus folgt

E(XY )2

2

≤ E(X 2 )E(Y 2 ).

Nicht ganz ideal an der Chebychev-Ungleichung (Fakt 2.3.3) ist, dass sie nur

p t > Var(X) nützliche Information liefert (für kleinere t ist Var(X)/t2 gröÿer oder gleich 1, also trivial). Oft hilft die folgende für

die Schranke Variante.

Proposition 2.7.2 (Chebychev-Cantelli-Ungleichung) Es eine Zufallsvariable mit E(X

Pr(X

≥ E(X)+t) ≤

2

) < ∞.

Var(X) Var(X) +

t2

Dann gilt für alle

und Pr(X

sei

X

t ≥ 0:

≤ E(X)−t) ≤

Var(X) Var(X) + t2

.

Beweis : Die zweite Ungleichung folgt, indem man die erste auf die Zufallsvaria0 ble

X =

E(X)

−X

X . Wir zeigen die E(X) = 0 ist (sonst

anwendet, die dieselbe Varianz hat wie

erste Ungleichung. Wir können o. B. d. A. annehmen, dass X 0 = X − E(X)); dann ist Var(X) = E(X 2 ). Man erinnere sich an

betrachte

die Iverson-Notation:

{X ≤ t},

[X ≤ t] ist die charakteristische Funktion des Ereignisses t ∈ R gilt oenbar: t − X ≤ (t − X) · [X < t], also

usw. Für alle

t = E(t − X) ≤ E((t − X) · [X < t]). 24

Für

t≥0

können wir dann mit der Cauchy-Schwarz-Ungleichung wie folgt wei-

terrechnen:

t2 ≤ E((t − X)2 )E([X < t]2 ) = E((t − X)2 )Pr(X < t) = (Var(X) + t2 )Pr(X < t). Umstellen ergibt:

Pr(X

≥ t) = 1 − Pr(X < t) ≤ 1 −

t2 = Var(X) + t2

Var(X) Var(X) + t2

, 2

wie gewünscht.

Bemerkung : Wir vergleichen Proposition 2.7.2 mit der Chebychev-Ungleichung (Fakt 2.3.3). Für die Wahrscheinlichkeit einer beidseitigen Abweichung liefert die Chebychev-Ungleichung engere Schranken; sie wirkt aber nur für

t>

p

Var(X).

Die Chebychev-Cantelli-Ungleichung ist geeignet, wenn man die Wahrscheinlichkeit der Abweichung nur nach einer Seite begrenzen will; sie wirkt für alle

t > 0.

Pr(X

6= 0)

Wir wollen noch Ungleichung (4) benutzen, um eine Schranke für herzuleiten, falls

X

eine Zufallsvariable ist, die Werte in den natürlichen Zahlen

annimmt (und nicht konstant

0

ist).

Proposition 2.7.3 Für eine Zufallsvariable nicht konstant

0

X

mit Werten in

N,

die

ist und deren Erwartungswert und Varianz deniert ist,

gilt:

E(X)2 E(X 2 )

≤ Pr(X 6= 0) ≤ E(X).

Beweis : Die zweite Ungleichung folgt aus der Markov-Ungleichung, da Pr(X

0) = Pr(X ≥ 1). Für die erste Ungleichung wenden auf {X 6= 0} bedingten Wahrscheinlichkeit an: E(X

6=

wir Ungleichung (4) mit der

| X 6= 0)2 ≤ E(X 2 | X 6= 0).

Weiter gilt

E(X

| X 6= 0)2 =



E(X) Pr(X

6= 0)

2

und

E(X

2

| X 6= 0) =

E(X 2 ) Pr(X

6= 0)

.

Kombinieren dieser (Un-)Gleichungen, Kürzen und Umstellen liefert die Behaup-

2

tung.

25

Wenn

X

Summe von 0-1-wertigen Zufallsvariablen ist, kann man alternativ mit

folgender Ungleichung die Wahrscheinlichkeit für

Pr(X

> 0) nach unten abschät-

zen.

Proposition 2.7.4 (Conditional Expectation Inequality) Für beliebige Zufallsvariablen

Pr(X1

X1 , X2 , . . . , Xn

+ · · · + Xn > 0) ≥

mit Werten in

{0, 1}

gilt:

Pr(Xi

= 1) . E(X | Xi = 1) 1≤i≤n X

X = X1 + · · · + Xn . Wir wählen die Zufallsvariable Y so, dass X · Y = [X > 0]; sei dazu Y (ω) = 1/X(ω), falls X(ω) > 0 und Y (ω) = 0, falls X(ω) = 0.

Beweis : Sei Dann gilt:

Pr(X

> 0) = E(X · Y ) (Wahl X = E(Xi · Y )

von

Y)

1≤i≤n (1)

=

X

Pr(Xi

= 1) · E( X1 | Xi = 1)

1≤i≤n (2)



Pr(Xi

= 1) . E(X | Xi = 1) 1≤i≤n X

Für (1) benutzt man, dass E(Xi · Y | Xi = 1) = E(Y | Xi = 1) und E(Xi · Y | Xi = 0) = 0 gilt. Für (2) wendet man die Jensensche Ungleichung (Prop. 2.3.6(a)) 1 und die Zufallsvariable X mit dem auf auf die für x > 0 konvexe Funktion x 7→ x {Xi = 1} bedingten Wahrscheinlichkeitsraum an. Dies liefert E( X1 | Xi = 1) ≥ 1/E(X | Xi = 1). 2

A

Ungleichungen aus der Analysis und der Kombinatorik

Proposition A.0.1 Für alle

x ∈ R : 1 + x ≤ ex ,

Beweis : Die Funktion die zweite Ableitung

mit Gleichheit genau für

x = 0.

f (x) = ex −(1+x) besitzt die Ableitung f 0 (x) = ex −1 und f 00 (x) = ex > 0. Die Ableitung hat bei x = 0 ihre einzige 26

Nullstelle und ist strikt monoton wachsend. Daraus folgt, dass f an der Stelle x = 0 ein absolutes Minimum hat, d. h., es gilt ex − (1 + x) ≥ f (0) = 0 für alle

2

x. Proposition A.0.2 (a) Für alle

x ≥ −1

(b) Für alle

y>0

und alle

und alle

z > 0: (1 + x)z ≤ exz .

x ≥ −y : (1 + x/y)y ≤ ex .

x = −1, ist die linke Seite 0, die rechte ist e−z > 0. Sei nun x > −1, also 1 + x > 0. Dann folgt aus Prop. A.0.1 mit der Monotonie der z z x z xz Funktion u 7→ u die Ungleichung (1 + x) ≤ (e ) = e .

Beweis : (a) Wenn

2 Proposition A.0.3 Für alle

Beweis :

x ∈ R, |x| < 1: ex ≤

(1 − x)ex = (1 − x)

1 , mit Gleichheit genau für 1−x

xi i≥0 i!

P

≤ (1 − x)

P

i≥0

x = 0.

2

xi = 1.

Proposition A.0.4 Für alle

x > 0: ln x ≤ x − 1,

mit Gleichheit genau für

x = 1.

f (x) = (x − 1) − ln x, für x > 0. Die Ableitungen sind f 0 (x) = 1 − 1/x und f (x) = x−2 > 0. Daher hat f ein globales Minimum an der Stelle x = 1. Es folgt (x − 1) − ln x ≥ f (1) = 0, wie gewünscht. 2

Beweis : Betrachte 00

27

Proposition A.0.5 Für alle

n, k ∈ N, 0 ≤ k ≤ n:

  n nn 1 ≤ k = α , n−k k (n − k) (α (1 − α)1−α )n k wobei

α=

k . Weiterhin: n

    n en k ≤ . k k Beweis : Für

k=0

und

k=n

ist nichts zu zeigen  die rechte Seite ist

1.

Sonst

gilt nach der binomischen Formel:

  X n n k i n−i n = (k + (n − k)) = k (n − k) ≥ k (n − k)n−k , i k 0≤i≤n n

und daher

n

n k







nn . Die zweite Ungleichung folgt, weil kk (n−k)n−k

n n−k

n−k

 = 1+

k n−k

n−k

< (ek/(n−k) )n−k = ek , 2

mit Prop. A.0.2(b).

28