Bedingte Erwartungswerte und Verteilungen

Kapitel 8 Bedingte Erwartungswerte und Verteilungen Nachdem wir uns bisher recht ausgiebig mit den grundlegenden Eigenschaften unabh¨angiger Familie...
Author: Klara Kuntz
4 downloads 0 Views 399KB Size
Kapitel 8

Bedingte Erwartungswerte und Verteilungen

Nachdem wir uns bisher recht ausgiebig mit den grundlegenden Eigenschaften unabh¨angiger Familien von Zufallsvariablen besch¨aftigt haben, kommen wir nun zu einem der fundamentalen Konzepte der W-Theorie, das es erlaubt, stochastische Abh¨angigkeiten in einem Modell mathematisch pr¨azise zu beschreiben und zu untersuchen. Der im Anschluss entwickelte Begriff des bedingten Erwartungswerts ist ohne Zweifel einer der S¨aulen der W-Theorie, dessen Bedeutung f¨ur die Analyse komplexer stochastischer Strukturen gar nicht genug unterstrichen werden kann.

8.1 Der bedingte Erwartungswert 8.1.1 Motivation und Problemstellung Als Ausgangspunkt w¨ahlen wir die in Abschnitt 4.1 vorgestellte (elementare) bedingte Wahrscheinlichkeit. Erinnern wir uns [+ Definition 4.1]: Gegeben einen W-Raum (Ω , A, P) und Ereignisse A, B ∈ A mit P(B) > 0, heißt P(A|B) :=

P(A ∩ B) P(B)

(8.1)

die elementare bedingte Wahrscheinlichkeit von A gegeben B. Die Mengenfunktion P(·|B) : A → [0, 1] bildet offensichtlich wieder ein W-Maß auf (Ω , A), genannt bedingte Verteilung gegeben B; es misst die Wahrscheinlichkeit unter der Hypothese, dass B eintritt oder eingetreten ist. Die Masse auf Bc unter P wird also entfernt und die Restmasse per Division durch P(B) wieder zu 1 normiert. Betrachten wir als n¨achstes zwei ZG X,Y auf (Ω , A, P), von denen Y diskret sei. Dann k¨onnen wir m¨uhelos die bedingten Wahrscheinlichkeiten P(X ∈ B|Y = y) verm¨oge (8.1), d.h. durch

241

242

8 Bedingte Erwartungswerte und Verteilungen

P(X ∈ B|Y = y) := P({X ∈ B}|{Y = y}) =

P(X ∈ B,Y = y) P(Y = y)

(8.2)

f¨ur alle B ∈ B(R) und y mit P(Y = y) > 0 definieren. F¨ur jedes solche y ist P(X ∈ ·|Y = y) ein W-Maß auf (R, B(R)), das sp¨ater die bedingte Verteilung von X gegeben Y = y genannt und mit P X|Y =y bezeichnet wird. Der zugeh¨orige Erwartungswert E(X|Y = y) :=

Z

xP

X|Y =y

1 (dx) = P(Y = y)

Z

{Y =y}

X dP,

(8.3)

sofern dieser existiert, heißt bedingter Erwartungswert von X gegeben Y = y. Dabei erh¨alt man die zweite Gleichheit unter Verwendung des FE-Arguments. Auch hier lautet das Prinzip: Entfernen der Masse unter P außerhalb der Hypothese {Y = y} und anschließende Renormierung der Restmasse per Division durch P(Y = y). Beachte, dass unter der getroffenen Annahme eines diskreten Y bedingte Wahrscheinlichkeiten und Erwartungswerte gegeben Y = y f¨ur P Y -fast alle y definiert sind. Das zuvor skizzierte Vorgehen bricht leider vollst¨andig zusammen, und die Festlegungen (8.2) und (8.3) werden sinnlos, wenn P Y stetig und folglich die Menge der y mit P(Y = y) > 0 leer ist. Insbesondere zeigt sich hier, dass das zugegebenermaßen sehr anschauliche Prinzip des Einschr¨ankens von P auf die jeweilige Hypothese bei anschließender Renormierung nicht generell m¨oglich ist. Auf der Suche nach einer allgemeing¨ultigen Definition bedingter Wahrscheinlichkeiten und Erwartungswerte bedarf es folglich eines anderen Blickwinkels auf das, was diese eigentlich darstellen sollen. Kehren wir nochmals zur obigen Situation einer diskreten Variablen Y zur¨uck, wobei Y := {y : P(Y = y) > 0} deren Tr¨ager bezeichne, und setzen außerdem X als beschr¨ankt voraus, |X| ≤ c. Wegen |E(X|Y = y)| ≤ c in (8.3) bildet dann auch ( E(X|Y = y), falls y ∈ Y f (y) := 0, sonst eine durch c beschr¨ankte, messbare Funktion und folglich E(X|Y ) := f (Y ) eine beschr¨ankte σ (Y )-messbare ZG. Stellen wir uns weiter vor, X ist eine ZG, deren Wert (Realisierung) wir nicht beobachten k¨onnen. Stattdessen erhalten wir nur den Wert von Y und suchen nun einen Approximanden g(Y ), d.h. eine σ (Y )-messbare ZG, die in einer geeigneten Metrik die ZG X m¨oglichst gut approximiert. Mit Blick auf unser Ausgangsproblem, f¨ur das das Ergebnis bei diskretem Y nat¨urlich das bereits spezifizierte f (Y ) = E(X|Y ) lauten soll, stellt sich dann die Frage, ob es eine Metrik gibt, bez¨uglich der f (Y ) in der Tat die beste Approximation bildet. Hierzu stellen wir zun¨achst fest, dass f¨ur jedes A = {Y ∈ B} unter Benutzung von (8.3) und dem Transformationssatz Z

{Y ∈B}

E(X|Y ) dP =

Z

B∩Y

E(X|Y = y) P Y (dy)

8.1 Der bedingte Erwartungswert

243

=

∑ y∈B∩Y

=

∑ y∈B∩Y

=

Z

E(X|Y = y)P(Y = y) 

1 P(Y = y)

Z

{Y =y}



X dP P(Y = y)

X dP

{Y ∈B}

gilt. Die Integration des bedingten Erwartungswerts E(X|Y ) u¨ ber Mengen aus σ (Y ) f¨uhrt also zum selben Ergebnis wie die entsprechende Integration von X selbst. Damit haben wir die folgenden beiden Eigenschaften:

(BE1) (BE2)

Die Zufallsgr¨oße E(X|Y ) ist σ (Y )-messbar. R ur alle A ∈ σ (Y ). A E(X|Y ) dP = A X dP f¨

R

Durch (BE1) und (BE2) wird E(X|Y ) fast sicher eindeutig festgelegt, denn beR R zeichnet Z eine weitere σ (Y )-messbare ZG mit A Z dP = A X dP f¨ur alle A ∈ σ (Y ), folgt Z A

(E(X|Y ) − Z) dP = 0

f¨ur alle A ∈ σ (Y ) und daraus bereits E(X|Y )−Z = 0 f.s. wegen der σ (Y )-Messbarkeit von E(X|Y ) − Z [+ Satz B.1].

8.1.2 Definition im L2 -Kontext Nachdem wir gerade festgestellt haben, dass der bedingte Erwartungswert, sofern er denn existiert, durch die Bedingungen (BE1) und (BE2) f.s. eindeutig bestimmt ist, notieren wir als n¨achstes, dass (BE2) auch in der Form (BE2’)

E1A E(X|Y ) = E1A X f¨ur alle A ∈ σ (Y )

geschrieben werden kann. Sofern X und E(X|Y ) wie oben angenommen beschr¨ankt sind, existieren EZE(X|Y ) und EZX f¨ur beliebige integrierbare ZG Z, und mittels des FE-Arguments liefert (BE2’) deshalb (BE3)

EZ E(X|Y ) = EZX, d.h. EZ(X −E(X|Y )) = 0 f¨ur alle integrierbaren σ (Y )messbaren ZG Z.

So erhalten wir schließlich f¨ur jedes quadratisch integrierbare, σ (Y )-messbare Z E(X − Z)2 = E(X − E(X|Y ))2 + E(E(X|Y ) − Z)2

+ 2 E(E(X|Y ) − Z )(X − E(X|Y )) | {z } σ (Y )-messbar

244

8 Bedingte Erwartungswerte und Verteilungen

= E(X − E(X|Y ))2 + E(E(X|Y ) − Z)2 ≥ E(X − E(X|Y ))2 ,

und damit die gesuchte Metrik, in der E(X|Y ) den Abstand zu X unter allen (zul¨assigen) σ (Y )-messbaren Z minimiert: Es ist dies die aus Abschnitt 6.2 bekannte L2 Pseudometrik 1/2 d2 (X, Z) = kX − Zk2 = E(X − Z)2

auf dem Raum L2 (Ω , A, P) der quadratisch integrierbaren ZG. Der unter speziellen Voraussetzungen (Y diskret, X beschr¨ankt) definierte bedingte Erwartungswert E(X|Y ) entpuppt sich also als optimale L¨osung eines sehr allgemeinen Minimierungsproblems, das wir im Folgenden im schon angesprochenen L2 -Kontext noch genauer einordnen wollen, wobei daran erinnert sei (Unterabschnitt 6.2.2), dass L2 (Ω , A, P) einen (Pseudo-)Hilbertraum mit dem norminduzierenden inneren Produkt hX,Y i = EXY, bildet. Ein Blick auf die charakterisierenden Eigenschaften (BE1) und (BE2) von E(X|Y ) zeigt, dass dieser von Y nur u¨ ber σ (Y ) abh¨angt. Wir f¨uhren daher im Folgenden den bedingten Erwartungswert E(X|F ) von X unter einer σ -Algebra F ⊂ A statt unter einer Zufallsvariablen Y ein und setzen danach kanonischerweise E(X|Y ) := E(X|σ (Y )). Gegeben ein X ∈ L2 (Ω , A, P) und ein F ⊂ A, lauten nun die definierenden Eigenschaften:

(BE1) (BE2)

Die ZG E(X|F ) ist F -messbar. R ur alle A ∈ F . A E(X|F ) dP = A X dP f¨

R

Da (Ω , A, P) hiernach immer den zugrundeliegenden W-Raum und F eine Unter-σ -Algebra von A angibt, schreiben wir ab jetzt nur noch L2 (F ) zur Abk¨urzung von L2 (Ω , F , P). Das zu l¨osende Minimierungsproblem betreffend, notieren wir als erstes die einfache Tatsache, dass F ⊂ A L2 (F ) ⊂ L2 (A) impliziert. Ferner ist L2 (F ) abgeschlossen und somit ein abgeschlossener Unterraum von L2 (A). Die orthogonale Projektion PF X von X ∈ L2 (A) auf L2 (F ) ist durch kX − PF Xk2 = min kX − Zk2 (8.4) Z∈L2 (F )

f.s. eindeutig bestimmt [Satz 6.21(a)] und ebenso durch die Beziehung hX − PF X, Zi = E(X − PF X)Z = 0

f¨ur alle Z ∈ L2 (F )

(8.5)

8.1 Der bedingte Erwartungswert

245

charakterisiert [Satz 6.21(b)]. Wegen (8.4) nennt man PF X auch beste Approximation von X in L2 (F ). Sie entpuppt sich, was keinen mehr u¨ berrascht und nunmehr leicht folgt, genau als der gesuchte bedingte Erwartungswert von X gegeben F .

Satz 8.1. Seien (Ω , A, P) ein W-Raum, F eine Unter-σ -Algebra von A und X ∈ L2 (A). Bezeichnet dann E(X|F ) die (P-f.s. eindeutige) beste Approximation von X in L2 (F ), so erf¨ullt diese die Bedingungen (BE1) und (BE2) und heißt bedingter Erwartungswert oder einfach bedingte Erwartung von X gegeben F . Beweis. Zu zeigen ist offensichtlich nur (BE2). Wegen (8.5) gilt aber Z

A

(X − E(X|F )) dP = hX − E(X|F ), 1A i = 0

f¨ur alle A ∈ F (⇒ 1A ∈ L2 (F )).

t u

Als wesentliche Erkenntnis dieses Unterabschnitts halten wir fest, dass f¨ur eine quadratische integrierbare ZG X der bedingte Erwartungswert E(X|F ) die f.s. eindeutig bestimmte F -messbare und nat¨urlich wiederum quadratisch integrierbare ZG bezeichnet, die den L2 -Abstand zu X unter allen ZG aus L2 (F ) minimiert.

8.1.3 Allgemeine Definition und grundlegende Eigenschaften Wir k¨onnten nun fortfahren wie in [2] und zun¨achst die grundelegenden Eigenschaften wie Linearit¨at und Monotonie des bedingten Erwartungswerts E(X|F ) im L2 Kontext, also f¨ur X ∈ L2 (A) herleiten. Andererseits besteht unser Endziel darin, E(X|F ) f¨ur jede quasi-integrierbare ZG X zu definieren, was bei diesem Vorgehen mittels eine Approximationsarguments bewerkstelligt w¨urde und die einfache Tatsache benutzte, dass jede nichtnegative ZG X punktweise monoton durch die quadratisch integrierbaren gestutzten ZG Xn := X ∧ n, n ≥ 1, approximiert werden kann. Wir w¨ahlen jedoch ein schnelleres Prozedere auf der Basis des Satzes 6.28 von Radon-Nikodym. Sei X zun¨achst eine nichtnegative ZG auf (Ω , A, P). Zu X und F definieren wir das Maß PX,F auf (Ω , F ) durch PX,F (A) :=

Z

A

X dP

(A ∈ F )

(8.6)

definiert. Bezeichnet dann P|F die Einschr¨ankung von P auf F , so folgt offensichtlich PX,F  P|F . Da P|F als W-Maß nat¨urlich σ -endlich ist, folgt nach dem Satz von Radon-Nikodym die Existenz einer P|F -f.s. eindeutigen F -messbaren ZG Y ≥ 0, so dass

246

8 Bedingte Erwartungswerte und Verteilungen

Z

A

X dP = PX,F (A) =

Z

A

Y dP|F =

Z

Y dP.

A

f¨ur alle A ∈ F . Y besitzt demnach die geforderten Eigenschaften (BE1) und (BE2) einer Version des bedingten Erwartungswertes E(X|F ) und ist außerdem integrierbar (insbesondere f.s. endlich), wenn EX < ∞ und damit PX,F ein endliches Maß bildet, denn aus (BE2) folgt wegen Ω ∈ F Z Z  E E(X|F ) = E(X|F ) dP = X dP = EX. Ω



Ist X quasi-integrierbar mit Positivteil X + und Negativteil X − , so definiert man schließlich E(X|F ) = E(X + |F ) − E(X − |F ),

wobei beachtet werde, dass wegen der Integrierbarkeit von X + oder X − auch mindestens eine der beiden ZG E(X + |F ) oder E(X − |F ) integrierbar und somit E(X|F ) ebenfalls quasi-integrierbar ist.

Definition 8.2. Sei (Ω , A, P) ein W-Raum, F eine Unter-σ -Algebra von A und X eine quasi-integrierbare ZG. Dann heißt die zuvor definierte, wiederum quasiintegrierbare ZG E(X|F ) mit den Eigenschaften (BE1) und (BE2) bedingter Erwartungswert oder einfach bedingte Erwartung von X gegeben F . Die grundlegenden Eigenschaften der bedingten Erwartung geben wir in folgendem Satz. Sie entsprechen denen des gew¨ohnlichen Erwartungswerts.

Satz 8.3. Seien (Ω , A, P) ein W-Raum, F eine Unter-σ -Algebra von A und X,Y, X1 , X2 , ... nichtnegative (integrierbare) ZG. Dann gilt: (a)

(Linearit¨at) F¨ur alle α, β ≥ 0 (∈ R) ist E(αX + βY |F ) = α E(X|F ) + β E(Y |F ) P-f.s.

(b)

(Monotonie) Aus X ≤ Y folgt E(X|F ) ≤ E(Y |F ) P-f.s.

(c)

(Gl¨attungsregel) E(E(X|F )) = EX, und es gilt die Absch¨atzung |E(X|F )| ≤ E(|X||F ) P-f.s.

(d)

(Satz von der monotonen Konvergenz) Aus Xn ↑ X f.s. folgt E(Xn |F ) ↑ E(X|F )) P-f.s.

(8.7)

8.1 Der bedingte Erwartungswert

247

(e)

(Satz von der majorisierten Konvergenz) Aus Xn → X f.s. und supn≥1 |Xn | ∈ L1 (A) folgt E(Xn |F ) → E(X|F )) P-f.s.

(f)

(Lemma von Fatou) F¨ur nichtnegative X1 , X2 , ... ist   lim inf E(Xn |F ) ≥ E lim inf Xn |F n→∞

n→∞

P-f.s.

Beweis. Wir beschr¨anken uns auf den Nachweis der Teile (a)–(c) und u¨ berlasen die ¨ Konvergenzs¨atze dem Leser zur Ubung. (a) Es gen¨ugt die Linearit¨at im nichtnegativen Fall zu zeigen, weil sich danach dieselbe Aussage f¨ur integrierbare ZG in der u¨ blichen Weise durch Zerlegung in Positiv- und Negativteil ergibt. Seien also X,Y nichtnegative ZG und α, β ≥ 0. F¨ur PαX+βY,F gem¨aß (8.6) gilt dann offensichtlich PαX+βY,F = α PX,F + β PY,F und folglich dPαX+βY,F dPF dPX,F dPY,F = α +β = α E(X|F ) + β E(Y |F ) P-f.s. dPF dPF

E(αX + βY |F ) =

aufgrund der f.s. Eindeutigkeit von Dichten (Satz 6.23). (b) Auch hier k¨onnen wir uns auf den nichtnegativen Fall beschr¨anken, denn f¨ur integrierbare X,Y impliziert X ≤ Y offenbar X + ≤ Y + und X − ≥ Y − . Aus 0 ≤ X ≤ Y folgt aber direkt PX,F ≤ PY,F und somit die Behauptung. (c) Die erste Aussage ergibt sich verm¨oge (BE2), wenn man dort A = Ω ∈ F w¨ahlt, w¨ahrend die zweite Behauptung aus |E(X|F )| = E(X + |F ) − E(X − |F ) ≤ E(X + |F ) + E(X − |F ) = E(|X||F ) P-f.s.

unter Benutzung der nunmehr gezeigten Linearit¨at des bedingten Erwartunsgwerts folgt. t u Bevor wir uns einigen Beispielen zuwenden, f¨uhren wir die folgenden Bezeichnungsweisen ein:

248

8 Bedingte Erwartungswerte und Verteilungen

Definition 8.4. Falls X = 1A f¨ur ein A ∈ A, setzen wir in Analogie zu P(A) = E1A P(A|F ) := E(1A |F ) und nennen P(A|F ) die bedingte Wahrscheinlichkeit von A gegeben F . Wird F von einer Zufallsvariablen Y erzeugt, d.h. F = σ (Y ), so definieren wir E(X|Y ) := E(X|F ), speziell E(X|(Yi )i∈I ) := E(X|F ) im Fall Y = (Yi )i∈I . Beispiel 8.5 ( P-triviales F ). Ist F eine P-triviale σ -Algebra, so ist [vgl. Beweis von Kor. 7.4] P(E(X|F ) ≤ t) = 0 oder 1

f¨ur alle t ∈ R und somit E(X|F ) f¨ur jedes quasi-integrierbare ZG f.s. konstant. Wegen E(E(X|F )) = EX (Gl¨attungsregel) entspricht diese Konstante dem Erwartungswert von X. Im Fall der trivialen σ -Algebra F = {0, / Ω } kann auf den Zusatz ”f.s.” sogar verzichtet werden, da die leere Menge die einzige P-Nullmenge in F ist. Der andere Extremfall liegt vor, wenn X selbst F -messbar ist. F¨ur diesen erhalten wir sofort F ⊃ σ (X) ⇒ E(X|F ) = X P-f.s., (8.8) denn X selbst erf¨ullt trivialerweise (BE2).

Beispiel 8.6 (endliches F ). Ist F = {0, / A, Ac , Ω } f¨ur ein A ∈ A mit 0 < P(A) < 1 [⇒ F nicht P-trivial], so ist E(X|F ) wegen E(X|F )−1 ({c}) ∈ F auf A und Ac jeweils konstant, nimmt also maximal zwei Werte c1 , c2 ∈ R an. Wegen c1 P(A) = c2 P(Ac ) =

Z

ZA

E(X|F ) dP =

Ac

E(X|F ) dP =

Z

X dP

ZA

Ac

und

X dP

gem¨aß (BE2) ergeben sich diese zu Z

1 X dP und P(A) A Z 1 c2 = E(X|Ac ) := X dP, P(Ac ) Ac c1 = E(X|A) :=

was ein sehr plausibles Ergebnis darstellt: Der bedingte Erwartungswert von X gegeben F approximiert die ZG, indem er diese durch ihren Mittelwert E(X|A) auf der Menge A und durch E(X|Ac ) auf der Menge Ac sch¨atzt: ( E(X|A), falls ω ∈ A, E(X|F )(ω) = E(X|Ac ), falls ω ∈ Ac ,

8.1 Der bedingte Erwartungswert

249

kurz E(X|F ) = E(X|A) 1A + E(X|Ac ) 1Ac (auch hier kann auf den Zusatz ”f.s.” verzichtet werden, da 0/ weiterhin die einzige P-Nullmenge in F ist). Wegen F = σ (1A ) = σ (1Ac ) gilt u¨ brigens E(X|F ) = E(X|1A ) = E(X|1Ac ). Die Antwort im Fall einer von n ≥ 2 paarweise disjunkten Mengen A1 , ..., An mit ∑nk=1 Ak = Ω (messbare Partition) erzeugten σ -Algebra F liegt nun auf der Hand und ergibt sich verm¨oge derselben Argumentation: n

E(X|F ) =

∑ E(X|Ak ) 1Ak ,

(8.9)

k=1

wobei wir einfach E(X|Ak ) := 0 im Fall P(Ak ) = 0 setzen. Beispiel 8.7. Sei G eine endliche Gruppe von n messbaren Bijektionen g : (Ω , A) → (Ω , A), die s¨amtlich P invariant lassen, d.h. P g = P f¨ur alle g ∈ G, mit der Komposition ◦ von Abbildungen als Verkn¨upfung. Das System FG aller Mengen A ∈ A, die G-invariant sind, d.h. der Bedingung g(A) = A f¨ur alle g ∈ G gen¨ugen, bildet eine Unter-σ -Algebra von A, und eine Zufallsvariable Y ist genau dann FG -messbar, wenn Y ◦ g = Y f¨ur alle g ∈ G. F¨ur jede nichtnegative oder integrierbare ZG X gilt dann 1 E(X|FG ) = ∑ X ◦ g P-f.s. n g∈G Zum Beweis: X0 := n1 ∑g∈G X ◦ g erf¨ullt offensichtlich X0 ◦ g = X0 f¨ur alle g ∈ G und ist folglich FG -messbar. Zum Nachweis von (BE2) notieren wir, dass f¨ur alle A ∈ FG unter Benutzung des Transformationssatzes sowie der Invarianz P g = P Z

A

X0 dP =

1 ∑ n g∈G

Z

A

X ◦ g dP =

1 ∑ n g∈G

Z

g(A)

X dP g =

Z

X dP

A

folgt. Wir hatten zu Beginn von Unterabschnitt 8.1.2 erw¨ahnt, dass sich f¨ur eine f.s. beschr¨ankte ZG X, also X ∈ L∞ (A), die Eigenschaft (BE2) mittels eines FE-Arguments zu E (Z E(X|F )) = EZX f¨ur alle Z ∈ L1 (F ) verallgemeinern l¨asst und dies als (BE3) festgehalten. Der folgende Satz verallgemeinert dies nochmals in Form einer entsprechenden Aussage f¨ur X ∈ L p (A), p ∈ [1, ∞]. Satz 8.8. Eine F -messbare und integrierbare (nichtnegative) ZG Y ist genau dann Version des bedingten Erwartungswertes E(X|F ) einer integrierbaren (nichtnegativen) ZG X, wenn EXZ = EY Z f¨ur alle beschr¨ankten (nichtnegativen) und F messbaren ZG Z gilt. Im Fall X ∈ L p (A), p ∈ [1, ∞], folgt letztere Beziehung sogar f¨ur alle Z ∈ Lq (F ), wobei 1p + 1q = 1.

250

8 Bedingte Erwartungswerte und Verteilungen

Beweis. Aus EXZ = EY Z f¨ur alle Z der angegebenen Form folgt nat¨urlich sofort (BE2) und damit Y = E(X|F ) f.s., denn Y ist nach Voraussetzung F -messbar und der bedingte Erwartungswert unter allen F -messbaren ZG durch (BE2) f.s. eindeutig charakterisiert. Umgekehrt impliziert letzteres die G¨ultigkeit von (BE2) und deshalb f¨ur nichtnegatives X auch EXZ = EY Z f¨ur alle F -messbaren, nichtnegativen Z, indem man Z durch eine monotone Folge primitiver Funktionen aus E (Ω , F ) approximiert. F¨ur X ∈ L p (A), 1 ≤ p ≤ ∞ erh¨alt man dasselbe f¨ur alle Z ∈ Lq (F ), nachdem man X in Positiv- und Negativteil zerlegt hat. Die weiteren Details u¨ berlassen wir dem Leser. t u

8.1.4 Rechenregeln und Ungleichungen Als n¨achstes wenden wir uns der Angabe einiger wichtiger Rechenregeln f¨ur bedingte Erwartungswerte zu.

Satz 8.9. Seien (Ω , A, P) ein W-Raum, F , F1 , F2 Unter-σ -Algebren von A und X,Y ZG auf (Ω , A, P). (a)

Sind X,Y nichtnegativ oder X ∈ L p (A),Y ∈ Lq (A) f¨ur p, q ∈ [1, ∞], 1p + 1q = 1, so gilt Y F -messbar

(b)



E(XY |F ) = Y E(X|F ) P-f.s.

Ist X quasi-integrierbar und F1 ⊂ F2 , so gilt die Iterationsregel fur ¨ bedingte Erwartungswerte E(E(X|F2 )|F1 ) = E(E(X|F1 )|F2 ) = E(X|F1 ) P-f.s.

(c)

(8.11)

Ist X quasi-integrierbar, F = σ (F1 ∪ F2 ) und die von X und F1 erzeugte σ -Algebra σ (X, F1 ) unabh¨angig von F2 , so gilt E(X|F ) = E(X|F1 ) P-f.s.

(d)

(8.10)

(8.12)

Ist X quasi-integrierbar sowie unabh¨angig von F , so gilt E(X|F ) = EX

P-f.s.

(8.13)

Beweis. (a) Seien X,Y beide nichtnegativ und Y F -messbar. Dann gilt unter Hinweis auf Satz 8.8 f¨ur alle nichtnegativen, F -messbaren Z Z

E(XY |F )Z dP =

Z

XY Z dP =

Z

X(Y Z) dP =

Z

Y E(X|F )Z dP,

8.1 Der bedingte Erwartungswert

251

denn mit Z ist auch Y Z nichtnegativ und F -messbar. Da Y E(X|F ) F -messbar ist, folgt die Behauptung wiederum aus Satz 8.8. Im Fall X ∈ L p (A),Y ∈ Lq (F ) f¨ur 1 ≤ p, q ≤ ∞, 1p + q1 = 1, geht man analog vor unter Hinweis darauf, dass XY dann integrierbar ist und Y Z wieder in Lq (F ) f¨ur alle beschr¨ankten F -messbaren Z. Wir verzichten auf weitere Details. (b) Die zweite Gleichheit in (8.11) folgt sofort aus (8.8). Die vollst¨andige Behauptung ergibt sich dann aus der Beziehung Z

A

E(E(X|F2 )|F1 ) dP =

Z

A

E(X|F2 ) dP =

Z

X dP

A

f¨ur alle A ∈ F1 [Eigenschaft (BE2)] und unter Hinweis auf die P-f.s. Eindeutigkeit des bedingten Erwartungswertes. (c) Sei X zun¨achst nichtnegativ und beschr¨ankt. Wir ben¨otigen einmal mehr ein DS-Argument und w¨ahlen eine Version Y von E(X|F1 ). Diese ist F1 - und damit nat¨urlich insbesondere F -messbar. Wir zeigen im Anschluss, dass Y auch eine Version von E(X|F ) bildet, wozu Z

A

X dP =

Z

A

Y dP

f¨ur alle A ∈ F

nachzuweisen ist. Das System aller Mengen, welche diese Beziehung erf¨ullen, bildet ein Dynkin-System, wie man leicht einsieht (die Beschr¨anktheit von X sichert, dass dieses System stabil unter Komplementbildung ist). Deshalb gen¨ugt es, die Beziehung f¨ur alle A aus einem ∩-stabilen Erzeuger E von F zu beweisen, wobei wir E = {A1 ∩ A2 : A1 ∈ F1 , A2 ∈ F2 } w¨ahlen. Dann erhalten wir tats¨achlich unter Benutzung von Satz 4.30 Z

A1 ∩A2

Y dP = E1A2 1A1 Y = P(A2 ) E1A1 Y = P(A2 ) E1A1 X =

Z

X dP,

A1 ∩A2

denn sowohl 1A2 und 1A1 Y als auch 1A2 und 1A1 X sind nach Voraussetzung unabh¨angig. Ist X lediglich nichtnegativ, so betrachte man Xn := X ∧ n f¨ur n ∈ N und beachte, dass Xn f¨ur jedes n weiterhin die Voraussetzungen erf¨ullt. Aus dem eben Gezeigten folgt E(Xn |F ) = E(Xn |F1 ) P-f.s. f¨ur alle n ≥ 1 und dann mit dem Satz von der monotonen Konvergenz f¨ur bedingte Erwartungswerte auch E(X|F ) = E(X|F1 ). F¨ur beliebiges quasi-integrierbares X ergibt sich die Behauptung abschließend per Zerlegung in Positiv- und Negativteil. (d) Hier ergibt sich die Behauptung direkt aus (c) mit F1 = {Ω , 0}. / t u Nachdem wir bereits gesehen haben, dass die bekannten Konvergens¨atze auch f¨ur bedingte Erwartungswerte gelten, belegen die nachfolgenden Ergebnisse Gleiches f¨ur die bekannten Ungleichungen von Jensen, Minkowski, H¨older, etc.

252

8 Bedingte Erwartungswerte und Verteilungen

Satz 8.10. (Jensen-Ungleichung) Sei X eine integrierbare ZG mit Werten in einem offenen Intervall I ⊂ R und ϕ : I → R eine konvexe Funktion. Dann gilt E(X|F ) ∈ I P-f.s. f¨ur jede Unter-σ -Algebra F ⊂ A und im Falle der Integrierbarkeit von ϕ ◦ X ferner ϕ(E(X|F )) ≤ E(ϕ(X)|F ) P-f.s. Beweis. Der Beweis vollzieht sich mit kleinen Modifikationen wie der von dessen Pendant f¨ur unbedingte Erwartungswerte (Satz 3.56): Zun¨achst bemerken wir, dass P(X ∈ I) = 1 verm¨oge Satz 8.3(b) auch P(E(X|F ) ∈ I) = 1 impliziert. Als konvexe Funktion erf¨ullt ϕ die Ungleichung ϕ(x) ≥ ϕ(a) + ϕ+0 (a)(x − a) f¨ur alle a, x ∈ I [+ z.B. [49, Theorem (4.43) auf S. 199f]] und daher auch   ϕ(x) = sup ϕ(a) + ϕ+0 (a)(x − a) , (8.14) a∈I∩Q

denn verm¨oge der Stetigkeit von ϕ und der Monotonie von ϕ+0 erhalten wir   ϕ(x) ≥ sup ϕ(a) + ϕ+0 (a)(x − a) a∈I∩Q



lim

I∩Q3a↓x

  ϕ(a) + ϕ+0 (a)(x − a) = ϕ(x).

F¨ur a ∈ I ∩ Q folgt nun ϕ(X) ≥ ϕ(a) + ϕ+0 (a)(X − a) und daraus weiter E(ϕ(X)|F ) ≥ ϕ(a) + ϕ+0 (a)(E(X|F ) − a) P-f.s. mit einer von a unabh¨angigen P-Nullmenge, denn I ∩ Q ist abz¨ahlbar. Unter Verwendung von (8.14) ergibt sich schließlich   E(ϕ(X)|F ) ≥ sup ϕ(a) + ϕ+0 (a)(E(X|F ) − a) = ϕ(E(X|F )) P-f.s., a∈I∩Q

t u

d.h. die Behauptung.

F¨ur Zufallsgr¨oßen X ∈ L p (A), p ≥ 1, liefert die Jensensche Ungleichung aufgrund der Konvexit¨at von x 7→ |x| p sofort |E(X|F )| p ≤ E(|X| p |F ) P-f.s.

(8.15)

und folglich gem¨aß (8.7)

d.h. E(X|F ) ∈ L p (F ).

p E E(X|F ) ≤ E|X| p ,

(8.16)

8.2 Der faktorisierte bedingte Erwartungswert

253

Satz 8.11. Es seien X,Y zwei ZG auf einem W-Raum (Ω , A, P) und F ⊂ A eine Unter-σ -Algebra. Dann gilt: (a)

(H¨older-Ungleichung) Aus E|X| p < ∞ und E|Y |q < ∞ f¨ur 1 ≤ p, q ≤ ∞ mit p−1 + q−1 = 1 folgt 1/p 1/q < ∞ E(|XY ||F ) ≤ E(|X| p |F ) E(|Y |q |F )

(b)

(Cauchy-Schwarz-Ungleichung) speziell im Fall p = q = 2

(c)

1/2 1/2 < ∞ E(|XY ||F ) ≤ E(X 2 |F ) E(Y 2 |F )

P-f.s.

P-f.s.

(Minkowski-Ungleichung) Aus E|X| p < ∞ und E|Y | p < ∞ f¨ur p ≥ 1 folgt 1/p 1/p 1/p E(|X +Y | p |F ) ≤ E(|X| p |F ) + E(|Y | p |F ) 0 E(X|Y = y) =

1 P(Y = y)

Z

X dP

(8.20)

f¨ur alle ω ∈ {Y = y}.

(8.21)

{Y =y}

sowie gem¨aß (8.18) E(X|Y )(ω) =

1 P(Y = y)

Z

{Y =y}

X dP

Besitzt Y eine diskrete Verteilung mit Tr¨ager ΩY0 , so ergibt sich (8.20) nat¨urlich f¨ur jedes y ∈ ΩY0 , und es best¨atigt sich durch Vergleich mit (8.2), dass im diskreten Fall die hier getroffene Definition von E(X|Y = y) mit der auf elementare Weise hergeleiteten Definition am Anfang von Unterabschnitt 8.1.1 u¨ bereinstimmt. Ein anderer wichtiger Fall, in dem E(X|Y = y) auf einfache Weise berechnet werden kann, liegt vor, wenn (X,Y ) einen Zufallsvektor mit Werten in (Rd+1 , B(Rd+1 )), d ≥ 1, und λλ d+1 -Dichte f bildet, d.h. wenn P (X,Y ) = f λλ d+1 ,

(8.22)

wobei X nat¨urlich weiterhin reellwertig und Y somit Rd -wertig ist. Das Ergebnis halten wir in einem Satz fest.

256

8 Bedingte Erwartungswerte und Verteilungen

Satz 8.14. F¨ur einen Zufallsvektor (X,Y ) in Rd+1 gelte (8.22), und X sei nichtnegativ oder integrierbar. Dann ist Z

f Y (y) :=

R

f (x, y) λλ (dx),

y ∈ Rd ,

(8.23)

eine λλ d -Dichte von Y , und es gilt P Y ( f Y = 0) = 0 sowie 1 Y f (y)

E(X|Y = y) =

Z

R

x f (x, y) λλ (dx) P Y -f.s.

(8.24)

Aus (8.24) ergibt sich f¨ur E(X|Y ) offenkundig E(X|Y ) =

1 f Y (Y )

Z

R

x f (x,Y ) λλ (dx)

P-f.s.

(8.25)

oder ausf¨uhrlicher geschrieben E(X|Y )(ω) =

1 Y f (Y (ω))

Z

x f (x,Y (ω)) λλ (dx) f¨ur P-fast alle ω ∈ Ω .

R

Beweis. Aus P(Y ∈ B) = P((X,Y ) ∈ R × B) =

Z Z

B R

f (x, y) λλ (dx) λλ d (dy)

f¨ur alle B ∈ B(Rd ) folgt (8.23) sowie P Y ( f Y = 0) = 0, indem man B = { f Y = 0} w¨ahlt. Beachte f¨ur (8.26) weiter unten, dass damit auch P (X,Y ) (R × { f Y = 0}) = 0 gilt. Im Folgenden sei X nichtnegativ und  Z  1 x f (x, y) λλ (dx), falls f Y (y) > 0, f Y (y) g(y) :=  0, falls f Y (y) = 0.

Dann ist g eine messbare numerische Funktion auf (Rd , B(Rd )) und erf¨ullt (8.19), denn Z

A0

g(y) P (dy) = Y

= = =

Z

ZA

0

g(y) f Y (y) λλ d (dy)

A0 ∩{ f Y >0}

Z

A0 ∩{ f Y >0}

Z

g(y) f Y (y) λλ d (dy) Z

x f (x, y) λλ (dx) λλ d (dy)

R×(A0 ∩{ f Y >0})

x P (X,Y ) (dx, dy)

8.2 Der faktorisierte bedingte Erwartungswert

= = =

Z

R×A0

Z

Z

257

x P (X,Y ) (dx, dy)

(8.26)

1A0 (y) x P (X,Y ) (dx, dy)

{Y ∈A0 }

X dP

f¨ur alle A0 ∈ B(Rd ). Nach Satz 8.13 ist g also eine Version von E(X|Y = ·), was (8.24) beweist. Ist X integrierbar, so definiert man g wiederum durch die rechte Seite in (8.24), R jedoch außerhalb der P Y -Nullmenge { f Y = 0} ∪ {y : |x f (x, y)| λλ (dx) = ∞}. t u Beispiel 8.15. (X,Y ) besitze eine zweidimensionale Normalverteilung mit dem Mittelwertvektor (0, 0) und der Kovarianzmatrix  2  1 σ ρσ 2 , (ρ, σ 2 ) ∈ (−1, 1) × R> . 1 − ρ 2 ρσ 2 σ 2 Diese Verteilung hat die λλ 2 -Dichte  2  (1 − ρ 2 )1/2 x − 2ρxy + y2 f (x, y) = exp − . 2πσ 2 2σ 2 Dann erhalten wir f Y (y) =

Z ∞

−∞

f (x, y) dx

 2 Z ∞   (1 − ρ 2 )1/2 y (1 − ρ 2 ) (x − ρy)2 exp − exp − dx 2πσ 2 2σ 2 2σ 2 −∞  2  (1 − ρ 2 )1/2 y (1 − ρ 2 ) = exp − (2πσ 2 )1/2 2πσ 2 2σ 2  1/2  2  1 − ρ2 y (1 − ρ 2 ) = exp − , 2πσ 2 2σ 2 =

d

also Y = Normal(0, σ 2 /(1 − ρ 2 )). Gem¨aß (8.24) berechnet sich E(X|Y = y) nun leicht zu   Z ∞ (x − ρy)2 1 E(X|Y = y) = x exp − dx = ρy, 2σ 2 (2πσ 2 )1/2 −∞ d.h. E(X|Y ) = ρY P-f.s. Das Beispiel wird in (8.29) fortgesetzt. Wir kommen nun zu einer eminent wichtigen Rechneregel, mit deren Hilfe bedingte Erwartungswerte des h¨aufig auftretenden Typs E(h(X,Y )|Y = y) berechnet werden k¨onnen.

258

8 Bedingte Erwartungswerte und Verteilungen

Satz 8.16. Seien X : (Ω , A, P) → (Ω1 , A1 ) und Y : (Ω , A, P) → (Ω2 , A2 ) stochastisch unabh¨angige Zufallsvariablen sowie h : (Ω1 × Ω2 , A1 ⊗ A2 ) → (R, B(R)) derart, dass h(X,Y ) quasi-integrierbar ist. Dann gilt E(h(X,Y )|Y = y) = Eh(X, y) =

Z

h(X(ω), y) P(dω) P Y -f.s.

(8.27)

F¨ur den nicht faktorisierten Erwartungswert E(h(X,Y )|Y ) bedeutet (8.27) E(h(X,Y )|Y )(ω) =

Z

h(X(ω 0 ),Y (ω)) P(dω 0 ) P-f.s.

Weiter folgt unter Hinweis auf (8.7) Eh(X,Y ) = E(E(h(X,Y )|Y )) = =

ZZ

ZZ

h(X(ω 0 ),Y (ω)) P(dω 0 ) P(dω) h(x, y) P X (dy) P Y (dy),

also dasselbe Resultat, das sich auch mit dem Satzes von Fubini bei Beachtung von P (X,Y ) = P X ⊗ P Y ergibt. Beweis. Mit dem Satz von Fubini folgt f¨ur jedes B ∈ A2 Z

{Y ∈B}

h(X,Y ) dP =

Z

1B (Y )h(X,Y ) dP



=

Z

B

=

Z Z

B Ω1

h(x, y) P X (dx) P Y (dy)

Eh(X, y) P Y (dy),

und daraus die Behauptung gem¨aß Satz 8.13.

t u

8.3 Regul¨ar bedingte Verteilungen Seien wieder ein W-Raum (Ω , A, P) und eine Unter-σ -Algebra F von A gegeben. F¨ur jedes A ∈ A ist dann die bedingte Wahrscheinlichkeit P(A|F ) definiert und bis auf eine P-Nullmenge eindeutig bestimmt. Ferner besitzt P(·|F ) als Mengenfunktion die Eigenschaften P(0|F / ) = 0 P-f.s., P(Ac |F ) = 1 − P(A|F ) P-f.s. sowie P(∑n≥1 An |F ) = ∑n≥1 P(An |F ) P-f.s. f¨ur alle p.d. A1 , A2 , ... ∈ A

so dass man spontan geneigt ist festzustellen, dass P(·|F )(ω) f¨ur P-fast alle ω ∈ Ω ein W-Maß auf (Ω , A) bildet. Leider ist dieser Schluss nicht ganz zul¨assig, weil

8.3 Regul¨ar bedingte Verteilungen

259

z.B. die σ -Additivit¨at f¨ur p.d. Mengenfolgen zun¨achst einmal nur außerhalb einer P-Nullmenge, die von der jeweiligen Folge abh¨angt, gilt. Wir haben hier also ein Auswahlproblem vorliegen, das einer weiteren Untersuchung bedarf und auch wie folgt beschrieben werden kann: Gibt es eine Funktion P : Ω × A → [0, 1] mit folgenden Eigenschaften: (1) (2)

F¨ur jedes ω ∈ Ω ist P(ω, ·) : A → [0, 1] ein W-Maß auf (Ω , A). F¨ur jedes A ∈ A ist P(·, A) eine Version von P(A|F ).

Eine solche Funktion ist ein spezieller stochastischer Kern, dessen allgemeine Definition wir nun geben. Definition 8.17. Ein Kern von (Ω , A) nach (Ω 0 , A0 ) ist eine Funktion P : Ω ×A0 → [0, ∞] mit folgenden Eigenschaften: P(ω, ·) : A0 → [0, ∞] ist ein Maß auf (Ω 0 , A0 ) f¨ur alle ω ∈ Ω .

P(·, A0 ) : Ω → [0, ∞] ist A-messbar f¨ur jedes A0 ∈ A0 .

(K1) (K2)

P heißt stochastisch oder auch Markovsch, falls P(ω, Ω 0 ) = 1 f¨ur alle ω ∈ Ω gilt. Zur¨uckkehrend zu der eingangs betrachteten Situation, halten wir als u¨ ber 8.17 hinausgehende Forderung fest, dass P(·, A) f¨ur jedes A ∈ A eine Version von P(A|F ) bildet und folglich F -messbar ist sowie die Beziehung Z

C

P(ω, A) P(dω) = P(A ∩C)

(8.28)

f¨ur alle C ∈ F erf¨ullt. Wir nennen P in diesem Fall einen zu F geh¨orenden Erwartungskern und schreiben daf¨ur P F . In Satz 8.20 wird pr¨azisiert, in welchem Sinne P F eindeutig bestimmt ist. Keineswegs u¨ berraschen sollte die Feststellung, dass P F f¨ur bedingte Erwartungswerte gegeben F dieselbe Rolle spielt wie P f¨ur gew¨ohnliche Erwartungswerte. Mit Hilfe des FE-Arguments kann man tats¨ achlich leicht nachweisen, dass f¨ur R jede quasi-integrierbare ZG X durch EF X := X(ω 0 ) P F (dω 0 ) eine Version von E(X|F ) gegeben ist, was auch ausf¨uhrlicher durch E(X|F )(ω) =

Z



X(ω 0 ) P F (ω, dω 0 )

f¨ur P-fast alle ω ausgedr¨uckt werden kann. Beispiele 8.18. (a) Betrachten wir noch einmal die allgemeine Situation in Beispiel 8.6, in der F = σ (A1 , ..., An ) f¨ur p.d. Mengen A1 , ..., An mit Ω = ∑nj=1 A j und P(A j ) ∈ (0, 1) f¨ur 1 ≤ j ≤ n gilt. Dann ist P F (ω, A) =

n

∑ P(A|A j ) 1A j (ω)

j=1

260

8 Bedingte Erwartungswerte und Verteilungen

ein Erwartungskern zu F . (b) In der Situation von Beispiel 8.7 definiert offensichtlich P F (ω, A) =

1 ∑ δg(ω) (A) n g∈G

einen Erwartungskern zu F = FG . Der Begriff des Erwartungskerns f¨uhrt in nat¨urlicher Weise zu dem der regul¨ar bedingten Verteilung. Definition 8.19. Sei X : (Ω , A, P) → (Ω 0 , A0 ) eine Zufallsvariable und F eine Unter-σ -Algebra von A. Ein stochastischer Kern PX|F von (Ω , A) nach (Ω 0 , A0 ) heißt regul¨ar bedingte Verteilung von X gegeben F , wenn ω 7→ P X|F (ω, A0 ) f¨ur jedes A0 ∈ A0 eine Version von P(X ∈ A0 |F ) ist. Wird F von einer Zufallsvariablen Y : (Ω , A) → (Ω 00 , A00 ) erzeugt, d.h. F = σ (Y ), so schreibt man auch P X|Y anstelle von PX|F und nennt diesen stochastischen Kern eine regul¨ar bedingte Verteilung von X gegeben Y . Auch f¨ur die bedingte Verteilung P X|Y unter der Hypothese einer Zufallsvariablen Y f¨uhren wir unter dem Vorbehalt der Existenz ihre Faktorisierung ein. Eine solche ist durch einen stochastischen Kern K : Ω 00 × A0 → [0, 1] von (Ω 00 , A00 ) nach (Ω 0 , A0 ) gegeben derart, dass P X|Y (ω, A0 ) = K(·, A0 ) ◦Y (ω) := K(Y (ω), A0 )

(8.29)

f¨ur alle ω ∈ Ω und A0 ∈ A0 gilt. Wir setzen dann P X|Y =y := K(y, ·)

(8.30)

und nennen diesen Kern eine regul¨ar bedingte Verteilung von X gegeben Y = y. Nat¨urlich definiert dann P X|Y =y (A0 ) f¨ur jedes A0 ∈ A0 eine Version der faktorisierten bedingten Wahrscheinlichkeit P(X ∈ A0 |Y = y). Bedingung (8.28) hat f¨ur P X|Y =y (A0 ) die Form Z

A00

P X|Y =y (A0 ) P Y (dy) = P(X ∈ A0 ,Y ∈ A00 )

(8.31)

f¨ur alle A00 ∈ A00 . Die Beantwortung der entscheidenden Frage nach der Existenz und Eindeutigkeit bedingter Verteilungen der Form P X|F und P X|Y =· bedarf zuvor der Feststellung einiger maßtheoretischer bzw. topologischer Begriffe und Fakten, wobei wir auf den Anhang dieses Kapitels f¨ur weitere Informationen verweisen: Sei (Ω , T) ein topologischer Raum und A = σ (T) die zugeh¨orige Borelsche, d.h. von den offenen Mengen erzeugte σ -Algebra [+ auch Beispiel 1.19]. (Ω , T) heißt

8.3 Regul¨ar bedingte Verteilungen

261

polnischer Raum, wenn eine T induzierende Metrik ρ existiert, die (Ω , ρ) zu einem separablen vollst¨andigen metrischen Raum macht. Wir nennen dann auch (Ω , A) d N polnisch. Rd , R f¨ur jedes d ∈ N und die Folgenr¨aume RN , R , jeweils versehen mit der euklidischen (Produkt-)Topologie, bilden ebenso Beispiele polnischer R¨aume wie der Raum C ([0, 1]) aller stetigen Funktionen von [0,1] nach R mit der durch die Supremumsnorm induzierten Topologie. Ein endliches Maß µ auf einem Raum (Ω , A) mit Borelscher σ -Algebra A heißt kompakt approximierbar oder auch von innen regul¨ar [+ auch A.3 im Anhang], wenn es ein System K ⊂ A kompakter Mengen gibt, so dass µ(A) = sup{µ(K) : K 3 K ⊂ A} f¨ur alle A ∈ A. Jedes W-Maß Q auf einem polnischen Raum (Ω , A) ist kompakt approximierbar (und folglich straff, d.h. f¨ur jedes ε > 0 gibt es ein Kompaktum K mit Q(K c ) < ε) [+ [18, Satz 1.4.19 auf S. 32f]]. Ferner besitzt A wegen der Separabilit¨at von Ω einen abz¨ahlbaren Erzeuger. Die kompakte Approximierbarkeit von P X sowie die Existenz eines abz¨ahlbaren Erzeugers der zugrundeliegenden σ -Algebra A0 bilden die wesentlichen Bedingungen f¨ur den Beweis des nachfolgenden Existenz- und Eindeutigkeitssatzes, ein polnisches (Ω 0 , A0 ) also hierf¨ur eine hinreichende Voraussetzung. Andererseits l¨asst sich der Satz daraufhin sehr leicht auf solche (Ω 0 , A0 ) ausdehnen, die lediglich isomorph in einen polnischen Raum eingebettet werden k¨onnen: Zwei messbare R¨aume (Ωi , Ai ), i = 1, 2, heißen isomorph, wenn es eine bimessbare Bijektion ϕ von Ω1 nach Ω2 gibt, d.h. ϕ und ϕ −1 sind beide messbar. Ein messbarer Raum (Ω , A) heißt Borel-Raum, wenn er isomorph ist zu (Λ , B([0, 1])Λ ) f¨ur eine Borelsche Teilmenge Λ von [0, 1]. Jeder polnische Raum sowie seine messbaren Teilmengen mit der Spur-σ -Algebra besitzen diese Eigenschaft (+ Anhang ??), d.h. die Existenz einer isomorphen Einbettung in einen polnischen Raum ist in der Tat zur Eigenschaft, ein Borel-Raum zu sein, a¨ quivalent.

Satz 8.20. Sei X : (Ω , A, P) → (Ω 0 , A0 ) eine Zufallsvariable. (a)

Ist A0 abz¨ahlbar erzeugt und PX kompakt approximierbar, so existiert zu jeder Unter-σ -Algebra F von A eine (regul¨ar) bedingte Verteilung P X|F , die ferner in folgendem Sinn eindeutig bestimmt ist: F¨ur jede weitere Version P X|F existiert eine P-Nullmenge N ∈ F derart, dass P X|F (ω, A0 ) = P X|F (ω, A0 )

(b)

f¨ur alle A0 ∈ A0 und ω 6∈ N. Gegeben eine weitere Zufallsvariable Y : (Ω , A, P) → (Ω 00 , A00 ), existiert außerdem eine bedingte Verteilung P X|Y =· , die wiederum in dem Sinn eindeutig ist, dass f¨ur jede weitere bedingte Verteilung P X|Y =· eine PY -Nullmenge N 00 ∈ A00 existiert derart, dass

262

8 Bedingte Erwartungswerte und Verteilungen

P X|Y =y (A0 ) = P X|Y =y (A0 ) (b)

(8.32)

f¨ur alle A0 ∈ A0 und y 6∈ N 00 . Die Aussagen gelten ebenso, wenn (Ω 0 , A0 ) einen Borel-Raum bildet.

Beweis. (a) Der Beweis f¨ur P X|Y =· und P X|F verl¨auft v¨ollig gleich, so dass es reicht, die erste der beiden bedingten Verteilungen zu betrachten. E INDEUTIGKEIT: Sei E0 ein abz¨ahlbarer ∩-stabiler Erzeuger von A0 und o.B.d.A. ∈ E0 . F¨ur jedes A0 ∈ E0 bilden sowohl P X|Y =y (A0 ) als auch P X|Y =y (A0 ) Versionen der faktorisierten bedingten Wahrscheinlichkeit P(X ∈ A0 |Y = y) und stimmen folglich außerhalb einer P Y -Nullmenge NA0 ∈ A00 u¨ berein. Setzen wir dann N 00 = ∪A0 ∈E0 NA0 , so gilt P Y (N 00 ) = 0 und (8.32) f¨ur alle A0 ∈ E0 und y 6∈ N 00 . Gem¨aß Satz 2.11 stimmen damit aber P X|Y =y und P X|Y =y f¨ur y 6∈ N 00 bereits auf σ (E0 ) = A0 u¨ berein. Ω0

E XISTENZ: Sei Q(y, A0 ) := P(X ∈ A0 |Y = y) und K0 ⊂ A0 ein System kompakter Mengen, das P X kompakt approximiert. Zu A0 ∈ A0 existieren dann K0 3 Kn0 ⊂ A0 , n ≥ 1, so dass P(X ∈ A0 ) = sup P(X ∈ Kn0 ). n≥1

Wegen der Monotonie bedingter Erwartungswerte gilt ferner Q(·, Kn ) ≤ Q(·, A0 ) P Y f.s. f¨ur alle n ≥ 1 und folglich sup Q(·, Kn0 ) ≤ Q(·, A0 ) P Y -f.s. n≥1

Integration bez¨uglich P Y liefert daher P(X ∈ A0 ) = sup P(X ∈ Kn0 ) n≥1

= sup n≥1

≤ ≤

Z Z

Z

Q(y, Kn0 ) P Y (dy)

sup Q(y, Kn0 ) P Y (dy) n≥1

Q(y, A0 ) P Y (dy)

= P(X ∈ A0 ), was mithilfe von Satz B.1 im Anhang sup Q(·, Kn0 ) = Q(·, A0 ) P Y -f.s. n≥1

impliziert.

8.3 Regul¨ar bedingte Verteilungen

263

Nach Voraussetzung besitzt A0 einen ∩-stabilen Erzeuger E0 = {A01 , A02 , ...}, wobei nach dem eben Bewiesenen zu jedem A0n eine Folge (Kn0 j ) j≥1 in K0 mit Kn0 j ⊂ A0n und sup Q(·, Kn0 j ) = Q(·, A0n ) P Y -f.s. j≥1

existiert. Sei nun A00 die kleinste von E0 und allen Kn0 j , j, n ≥ 1, erzeugte Algebra, die notwendigerweise wieder abz¨ahlbar ist [+ [18, Korollar 1.1.25 auf S. 15]]. Dann gibt es eine P Y -Nullmenge N 00 ∈ A00 , so dass f¨ur alle y 6∈ N 00 (i) (ii) (iii) (iv)

0 ≤ Q(y, A0 ) ≤ 1 f¨ur alle A0 ∈ A00 . Q(y, Ω 0 ) = 1. Q(y, A0 + B0 ) = Q(y, A0 ) + Q(y, B0 ) f¨ur alle A0 , B0 ∈ A00 . sup j≥1 Q(y, Kn0 j ) = Q(y, A0n ) f¨ur alle n ≥ 1.

F¨ur y 6∈ N 00 bildet Q(y, ·) demnach eine normierte, endlich additive Mengenfunktion auf A00 (normierter Inhalt), die gem¨aß (iv) außerdem durch A00 ∩ K0 kompakt approximierbar ist. Wir zeigen nun, dass letzteres schon die Stetigkeit in der leeren Menge und damit die σ -Additivit¨at auf A00 [+ [6, Satz 3.2 auf S. 12f]] impliziert: Gegeben ein beliebiges y 6∈ N 00 und ε > 0, seien dazu A0n ∈ A00 mit A0n ↓ 0/ und A0n ⊃ T Kn0 ∈ A00 ∩ K0 , so dass Q(y, A0n ) ≤ Q(y, Kn0 ) + ε2−n f¨ur jedes n ≥ 1. Dann gilt auch n≥1 Kn0 = 0, / was wegen der Kompaktheit der Kn0 die Existenz eines m ∈ N Tm liefert, so dass n=1 Kn0 = 0. / Es folgt ! A0m = A0m ∩

m [

Kn0

c

=

n=1

m [

c

(A0m ∩ Kn0 ) ⊂

n=1

m [

(A0n − Kn0 )

n=1

und daraus schließlich f¨ur alle k ≥ m Q(y, A0k ) ≤ Q(y, A0m ) ≤ Definieren wir nun f¨ur A0 ∈ A00 0

P(y, A ) :=

m

∑ Q(y, A0n − Kn0 )

< ε.

n=1

(

Q(y, A0 ), falls y 6∈ N 00 , P(X ∈ A0 ), falls y ∈ N 00 ,

so ist P(y, ·) f¨ur jedes y ∈ Ω 00 ein normiertes Pr¨amaß auf der Algebra A00 , das nach dem Maßerweiterungssatz 2.10 eine eindeutige Fortsetzung zu einem W-Maß auf (Ω 0 , A0 ) besitzt. F¨ur A0 ∈ A00 ergibt sich ferner aus der Definition von P sofort, dass y 7→ P(y, A0 ) A00 -B([0, 1])-messbar ist, was in Verbindung mit einem DS-Argument die Messbarkeit f¨ur alle A0 ∈ A0 liefert. P ist also ein stochastischer Kern. Es bleibt lediglich die G¨ultigkeit der Bedingung (8.31) mit P anstelle von P X|Y =· nachzuweisen. F¨ur jedes feste A00 ∈ A00 stimmen aber die endlichen Maße 0

A 7→

Z

A00

P(y, A0 ) P Y (dy) und A0 7→ P(X ∈ A0 ,Y ∈ A00 )

264

8 Bedingte Erwartungswerte und Verteilungen

nach Definition von P auf der Algebra A00 u¨ berein, so dass ihre Gleichheit auf A0 aus dem Eindeutigkeitssatz 2.11 folgt. (b) Sei ϕ eine bimessbare Bijektion von (Ω 0 , A0 ) nach (Λ , B([0, 1])Λ ) f¨ur ein Λ ∈ B([0, 1]). Dann definiert ϕ(X) eine ZG mit Werten in dem polnischen Raum ([0, 1], B)[0, 1])), f¨ur die also nach Teil (a) P ϕ(X)|Y =· und P ϕ(X)|F existieren und im obigen Sinne eindeutig sind. Unter Beachtung der Messbarkeit von ϕ(A0 ) = (ϕ −1 )−1 (A0 ) f¨ur alle A0 ∈ A0 erhalten wir dann aber verm¨oge (y, A0 ) 7→ P ϕ(X)|Y =y (ϕ(A0 )) bzw. (ω, A0 ) 7→ P ϕ(X)|F (ω, ϕ(A0 )) stochastische Kerne, die Versionen der im gleichen Sinne eindeutig bestimmten regul¨ar bedingten Verteilungen P X|Y =· bzw. P X|F darstellen. t u Wir weisen nochmals darauf hin, dass gem¨aß (8.29) und (8.30) P X|Y (ω, A0 ) = P X|Y =Y (ω) (A0 ) f¨ur alle A0 ∈ A0 gilt. Die Eindeutigkeitsaussagen des Satzes rechtfertigen es, von jetzt an auch von der bedingten Verteilung von X gegeben F oder Y = y zu sprechen, wobei in nunmehr vertrauter Weise verschiedene Versionen identifiziert werden. Haben zwei Zufallsvariablen (X1 ,Y1 ) und (X2 ,Y2 ) dieselbe Verteilung, so stimmen bekanntlich auch deren jeweiligen Randverteilungen u¨ berein. Das nachfolgende Korollar zeigt das entsprechende Resultat f¨ur die bedingten Verteilungen, sofern diese existieren.

Korollar 8.21. (Xi ,Yi ) : (Ωi , Ai , Pi ) → (Ω 0 ×Ω 00 , A0 ⊗A00 ), i = 1, 2, seien zwei identisch verteilte Zufallsvariablen mit Randverteilungen QX bzw. QY sowie (Ω 0 , A0 ) ein X |Y =y X |Y =y Borel-Raum. Dann gilt P1 1 1 = P2 2 2 f¨ur QY -f.a. y ∈ Ω 00 . Beweis. F¨ur alle A0 ∈ A0 und A00 ∈ A00 gilt P1 (X1 ∈ A0 ,Y1 ∈ A00 ) = P2 (X2 ∈ A0 ,Y2 ∈ A00 ) =

Z

A00

X |Y2 =y

P2 2

(A0 ) QY (dx)

X |Y =y

und daher, dass P2 2 2 auch eine regul¨ar bedingte Verteilung unter P1 von X1 gegeben Y1 = y bildet [+ (8.31)]. Die Behauptung folgt nun gem¨aß (8.32) im vorherigen Satz. t u Die anschließenden S¨atze 53.6,8-10 beinhalten eine Reihe von Folgerungen zur Integration bez¨uglich bedingter Verteilungen, wobei wir uns bei der Formulierung auf solche der Form P X|Y =y beschr¨ankt haben. Wie der Leser aber sofort erkennt, lassen sich analoge Ergebnisse auch f¨ur bedingte Verteilungen der Form P X|F angeben.

8.3 Regul¨ar bedingte Verteilungen

265

Satz 8.22. Sei (Ω 0 , A0 ) ein Borel-Raum und h : (Ω 0 , A0 ) → (R, B(R)) derart, dass h(X) quasi-integrierbar ist. Dann gilt E(h(X)|Y = y) =

Z

h(x) P X|Y =y (dx) P Y -f.s.

(8.33)

Ist h : (Ω 0 ×Ω 00 , A0 ⊗A00 ) → (R, B(R)) und h(X,Y ) quasi-integrierbar, folgt außerdem Z E(h(X,Y )|Y = y) = h(x, y) P X|Y =y (dx) P Y -f.s. (8.34) Beweis. Die G¨ultigkeit von (8.33) f¨ur Indikatorfunktionen h = 1A0 , A0 ∈ A0 , ist eine der definierenden Eigenschaften von P X|Y =y . Die Ausdehnung auf alle P X -quasiintegrierbaren h liefert ein FE-Argument. Wir kommen zum Beweis von (8.34), wobei wir auf (8.33) zur¨uckgreifen werden. Durch K(y,C) := P X|Y =y ⊗ δy (C) wird ein stochastischer Kern von (Ω 00 , A00 ) nach (Ω 0 × Ω 00 , A0 ⊗ A00 ) definiert, denn: y 7→ K(y, A0 × A00 ) = P X|Y =y (A0 )1A0 (y) ist f¨ur jede Wahl A0 ∈ A0 , A00 ∈ A00 eine messbare Abbildung und K(y, ·) f¨ur jedes y ∈ Ω 00 ein W-Maß. Ein DS-Argument liefert damit die Messbarkeit von y 7→ K(y,C) f¨ur alle C ∈ A0 ⊗ A00 . Da außerdem Z

B

K(y, A0 × A00 ) P Y (dy) = =

Z

B

Z

B

=

Z

P X|Y =y (A0 ) δy (A00 ) P Y (dy) P X|Y =y (A0 )1A00 (y) P Y (dy)

A00 ∩B

P X|Y =y (A0 ) P Y (dy)

= P(X ∈ A0 ,Y ∈ A00 ∩ B)

= P((X,Y ) ∈ A0 × A00 ,Y ∈ B) f¨ur alle A0 ∈ A0 und A00 , B ∈ A00 , liefert ein weiteres DS-Argument die G¨ultigkeit dieser Beziehung f¨ur beliebiges C ∈ A0 ⊗ A00 anstelle von C = A0 × A00 . Es folgt, dass K(y, ·) eine Version der bedingten Verteilung von (X,Y ) gegeben Y = y definiert, d.h. P (X,Y )|Y =y = P X|Y =y ⊗ δy P Y -f.s. und dies ist verm¨oge (8.33) offenbar wiederum gleichbedeutend mit (8.34).

t u

Anmerkung 8.23. Beim Lesen der Identit¨at (8.34) ist man geneigt, die rechte Seite in der einpr¨agsamen Form E(h(X, y)|Y = y) zu schreiben. Leider macht dies formal nicht den gew¨unschten Sinn, denn E(h(X, y)|Y = y) bedeutet, dass f¨ur jedes y zun¨achst eine Version von E(h(X, y)|Y = ·) gew¨ahlt und dann an derselben Stelle y ausgewertet wird. Gilt nun aber etwa P(Y = y) = 0 f¨ur alle y ∈ Ω 00 , so k¨onnen wir f¨ur jedes y die Version von E(h(X, y)|Y = ·) an der Stelle y v¨ollig willk¨urlich festlegen. Mit anderen Worten, E(h(X, y)|Y = y) ist i.a. gar nicht wohldefiniert.

266

8 Bedingte Erwartungswerte und Verteilungen

¨ Ubung 8.24. Die folgende Verallgemeinerung von (8.34) u¨ berlege sich der Leser ¨ als Ubung: Ist F eine Unter-σ -Algebra von A und Y F -messbar, wobei (Ω , A) den Raum bezeichnet, auf dem X,Y definiert sind, so gilt unter sonst gleichen Bedingungen Z E(h(X,Y )|F )(ω) =



h(x,Y (ω)) P X|F (ω, dx)

f¨ur P-fast alle ω ∈ Ω .

¨ bedingte Verteilungen) In der Situation von Satz 8.22 Satz 8.25. (von Fubini fur gilt außerdem ZZ Eh(X,Y ) =

h(x, y) P X|Y =y (dx) P Y (dy),

(8.35)

und somit P (X,Y ) (dx, dy) = P X|Y =y (dx)P Y (dy). R

Beweis. Nachdem wir soeben h(x, y) P X|Y =y (dx) = E(h(X,Y )|Y = y) P Y -f.s. gezeigt haben, folgt (8.35) aus Satz 8.13. t u Hier die Verallgemeinerung auf Funktionen von mehr als zwei Zufallsvariablen.

Korollar 8.26. Es seien n ≥ 2, Xk : (Ω , A, P) → (Ωk , Ak ) f¨ur k = 1, ..., n Zufallsvariablen und jedes (Ωk , Ak ) ein Borel-Raum. Dann gilt f¨ur jede bzgl. P (X1 ,...,Xn ) n quasi-integrierbare Funktion h : (×k=1 Ωk , ⊗nk=1 Ak ) → (R, B(R)) Eh(X1 , ..., Xn ) =

ZZ

...

Z

h(x1 , ..., xn ) P X1 |X2 =x2 ,...,Xn =xn (dx1 )...

(8.36)

... P Xn−1 |Xn =xn (dxn−1 ) P Xn (dxn )

und somit P (X1 ,...,Xn ) (dx1 , ..., dxn ) = P X1 |X2 =x2 ,...,Xn =xn (dx1 )... ... P Xn−1 |Xn =xn (dxn−1 ) P Xn (dxn )

(8.37)

Beweis. Das Ergebnis ergibt sich leicht per Induktion u¨ ber n und dem vorherigen Satz. t u Satz 8.27. Sind X,Y stochastisch unabh¨angig, gilt f¨ur jede Funktion h : (Ω 0 × Ω 00 , A0 ⊗ A00 ) → (R, B(R)) P h(X,Y )|Y =y = P h(X,y)

P Y -f.s.

(8.38)

8.3 Regul¨ar bedingte Verteilungen

267

sowie insbesondere ( h(x, y) = x) P X|Y =y = P X

P Y -f.s.

Beweis. (8.38) folgt sofort, da P(h(X,Y ) ∈ B|Y = y) = P(h(X, y) ∈ B) P Y -f.s. f¨ur alle B ∈ B(R) gem¨aß Satz 8.16 gilt und die rechte Seite einen stochastischen Kern definiert. t u Der n¨achste Satz bildet eine Verallgemeinerung von Satz 8.14. Wir betrachten dazu eine Zufallsvariable (X,Y ) : (Ω , A, P) → (Ω 0 × Ω 00 , A0 ⊗ A00 ), deren Verteilung P (X,Y ) die Dichte f bez¨uglich eines σ -endlichen Produktmaßes µ ⊗ ν auf (Ω 0 × Ω 00 , A0 ⊗ A00 ) besitze. Von besonderem Interesse ist nat¨urlich der in dem Satz betrachtete Fall (Ω 0 , A0 , µ) = (R, B, λλ ) und (Ω 00 , A00 , ν) = (Rd , B(Rd ), λλ d ) f¨ur ein d ≥ 1. Die Randdichten f X und f Y von X bzw. Y lauten f X (x) =

Z

Ω 00

f (x, y) ν(dy) und

f Y (y) =

Z

Ω0

f (x, y) µ(dx),

wie man mittels des Satzes von Fubini sofort nachpr¨uft.

Satz 8.28. In der obigen Situation gilt P X|Y =y (dx) = f (x|y)µ(dx) P Y -f.s. mit f (x|y) :=

f (x, y) 1 Y (y) + f X (x)1{ f Y =0} (y). f Y (y) { f >0}

(8.39)

f (·|y) heißt bedingte µ-Dichte von X gegeben Y = y. Beweis. Dieselbe Rechnung wie in (8.26) liefert als Verallgemeinerung von (8.25) E(h(X)|Y = y) =

1 Y f (y)

Z

h(x) f (x, y) µ(dx) P Y -f.s.

f¨ur jedes P X -quasi-integrierbare h, und daraus folgt offenkundig (8.39).

t u

Die Definition von f (·|y) = f X f¨ur y aus der P Y -Nullmenge { f Y = 0} ist nat¨urlich willk¨urlich und hat lediglich die formale Funktion, die bedingte Dichte tats¨achlich f¨ur alle y ∈ Ω 00 definiert zu haben. (8.39) wird auch Bayes-Formel genannt, und das aus gutem Grund: Tut man so als entspr¨achen Dichten Wahrscheinlichkeiten, so l¨asst sich die Beziehung f (x|y) = f (x, y)/ f Y (y) in die wohlbekannte Form P(X = x,Y = y) P(X = x|Y = y) = P(Y = y) u¨ berf¨uhren.

268

8 Bedingte Erwartungswerte und Verteilungen

Beispiel 8.29 (Fortsetzung von 8.15). . In der Situation und unter R¨uckgriff auf die Berechnungen in (8.15) ergibt sich f¨ur den dort gegebenen normalverteilten Zufallsvektor (X,Y ), dass die bedingte Dichte von X gegeben Y = y durch   (x − ρy)2 1 exp − , f (x|y) = 2σ 2 (2πσ 2 )1/2 gegeben ist, d.h. P X|Y =y = Normal(ρy, σ 2 ) f¨ur P Y -fast alle y ∈ R. Ein Blick auf die Gestalt der bedingten Dichte f (x|y) in Satz 8.28 zeigt, dass diese auch als Funktion in beiden Ver¨anderlichen messbar ist, d.h. f (·|·) : (Ω 0 × Ω 00 , A0 ⊗ A00 ) → (R, B(R)). Hierf¨ur gen¨ugt der Hinweis, dass die Dichte f von (X,Y ) diese Eigenschaft besitzt. Schwieriger wird die Frage nach der Messbarkeit in beiden Ver¨anderlichen, wenn die Formel von Bayes nicht mehr anwendbar und stattdessen lediglich bekannt ist, dass die Familie (P X|Y =y )y∈Ω 00 durch ein σ -endliches Maß µ dominiert wird, wobei f (x|y) :=

dP X|Y =y . dµ

Wir m¨ochten dann wissen, ob sich f¨ur jedes y ∈ Ω 00 eine Version von f (·|y) so w¨ahlen l¨asst, dass die zusammengesetzte Funktion f (·|·) in beiden Variablen messbar ist. Die positive Antwort unter einer Zusatzvoraussetzung gibt der abschließende Satz, den wir allgemein f¨ur stochastische Kerne formulieren:

Satz 8.30. Sei P ein stochastischer Kern von (Ω , A) nach (Ω 0 , A0 ), A0 abz¨ahlbar erzeugt und die Familie (P(ω, ·))ω∈Ω durch ein σ -endliches Maß µ dominiert. Dann existiert ein f : (Ω × Ω 0 , A ⊗ A0 ) → (R, B), so dass P(ω, dω 0 ) = f (ω, ω 0 )µ(dω 0 ) f¨ur alle ω ∈ Ω . In der zuvor beschriebenen Situation betrachte man den stochastischen Kern P = P X|Y =· von (Ω 00 , A00 ) nach (Ω 0 , A0 ). Beweis. Aus der σ -Endlichkeit von µ folgt leicht die Existenz eines a¨ quivalenten W-Maßes Q1 mit (folglich positiver) µ-Dichte g, so dass P(ω, ·)  Q f¨ur alle ω ∈ Ω . Nach Voraussetzung besitzt A0 einen abz¨ahlbaren Erzeuger {A0n , n ≥ 1}, und wir setzen nun A0n = σ (A01 , ..., A0n ) f¨ur n ≥ 1. Seien A0n,1 , ..., A0n,kn deren Ato me d.h. A0n, j ∩ A0 = 0/ oder = A0n, j f¨ur alle j = 1, ..., kn und A0 ∈ A0n mit positiver Q-Wahrscheinlichkeit und schließlich 1 Ist Ω 0 = ∑n≥0 Ωn0 mit µ(Ω00 ) = 0 und 0 < µ(Ωn0 ) < ∞ f¨ur n ≥ 1, so setze Qn = µ(· ∩ Ωn0 )/µ(Ωn0 ) f¨ur n ≥ 1 und Q = ∑n≥1 2−n Qn .

8.3 Regul¨ar bedingte Verteilungen kn

269

P(ω, A0n, j )

1 0 (ω 0 ) Q(A0n, j ) An, j   dP(ω, ·)|A0n 0 dP(ω, ·) 0 = E A (ω 0 ) = (ω ), dQ n dQ|A0n

fn (ω, ω 0 ) :=



j=1

wobei die zweite Gleichung aus (8.9) folgt. fn ist offensichtlich A⊗A0 -messbar, und dasselbe gilt daher f¨ur f∞ := lim infn→∞ fn . Mittels des Martingalkonvergenzsatzes, den wir hier noch nicht zur Verf¨ugung haben [+ [3, Satz 4.17]], erh¨alt man andererseits fn (ω, ·) → f∞ (ω, ·) Q-f.s. f¨ur jedes ω ∈ Ω sowie f∞ (ω, ·) = dP(ω, ·)/dQ Q-f.s. Es folgt schließlich die A ⊗ A0 -Messbarkeit von f (ω, ω 0 ) := f∞ (ω, ω 0 )g(ω 0 ) sowie f (ω, ·) = dP(ω, ·)/dµ. t u