Regularisierung inverser Probleme

Moderne Methoden der Optimierung: Regularisierung inverser Probleme Prof. Dr. Bastian von Harrach Universität Stuttgart, Fachbereich Mathematik - IM...
Author: Sara Hausler
9 downloads 1 Views 730KB Size
Moderne Methoden der Optimierung:

Regularisierung inverser Probleme

Prof. Dr. Bastian von Harrach Universität Stuttgart, Fachbereich Mathematik - IMNG Lehrstuhl für Optimierung und inverse Probleme Sommersemester 2014

http://www.mathematik.uni-stuttgart.de/oip

Inhaltsverzeichnis 1 Einleitung 1.1 Ein Beispiel aus der Finanzmathematik: Risikoabschätzung einer binären Option . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.2 Hintergrund: Ableiten als inverses Problem . . . . . . . . . . . . . . . . . 1.3 Parameteridentifikationsprobleme . . . . . . . . . . . . . . . . . . . . . . 2 Lineare inverse Probleme 2.1 Einige Grundbegriffe . . . . . . . . . . . . . . 2.2 Moore-Penrose-Inverse . . . . . . . . . . . . . 2.3 Kompakte Operatoren . . . . . . . . . . . . . 2.3.1 Definition und erste Eigenschaften . . . 2.3.2 Spektraltheorie kompakter Operatoren

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

3 Regularisierung linearer Probleme 3.1 Regularisierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.2 Schwache Konvergenz . . . . . . . . . . . . . . . . . . . . . . . . . 3.3 Parameterwahlstrategien . . . . . . . . . . . . . . . . . . . . . . . 3.4 Ordnungsoptimalität . . . . . . . . . . . . . . . . . . . . . . . . . 3.4.1 Grundlagen und Definition . . . . . . . . . . . . . . . . . . 3.4.2 Ordnungsoptimalität für a-priori Parameterwahlstrategien 3.4.3 Das Diskrepanzprinzip . . . . . . . . . . . . . . . . . . . . 3.5 Das Landweber-Verfahren . . . . . . . . . . . . . . . . . . . . . .

. . . . .

. . . . . . . .

. . . . .

. . . . . . . .

. . . . .

. . . . . . . .

1 1 2 3

. . . . .

5 5 11 14 14 19

. . . . . . . .

27 27 30 34 37 37 41 45 49

4 Nicht-lineare Probleme 55 4.1 Lokale Schlechtgestelltheit . . . . . . . . . . . . . . . . . . . . . . . . . . 55 4.2 Nicht-lineare Regularisierung . . . . . . . . . . . . . . . . . . . . . . . . . 56

i

1 Einleitung Hadamard (1865-1963) nannte ein Problem wohlgestellt, falls 1. eine Lösung existiert (Existenz), 2. die Lösung eindeutig ist (Eindeutigkeit), 3. die Lösung stetig von den Eingangsdaten abhängt (Stabilität). Trifft eine dieser Eigenschaft nicht zu, so spricht man von einem schlecht gestellten Problem (engl.: ill-posed). Seien X, Y Hilberträume und A : X → Y stetig und linear (wir schreiben A ∈ L(X, Y )). Dann ist das direkte Problem, zu gegebenem x ∈ X den Vektor y = Ax zu berechnen, offenbar wohlgestellt. Für das dazugehörige inverse Problem, eine lineare Gleichung Ax = y zu lösen, bedeuten die Hadamard-Kriterien: • Existenz: y ∈ R(A) bzw. A surjektiv. • Eindeutigkeit: A injektiv. • Stabilität: A−1 stetig. In dieser Vorlesung untersuchen wir, wie schlecht gestellte Probleme dennoch stabil gelöst werden können.

1.1 Ein Beispiel aus der Finanzmathematik: Risikoabschätzung einer binären Option Wir betrachten eine binäre Option (auch: digitale Option oder Cash-or-Nothing-Option). Der Käufer einer solchen Option erhält zu einem späteren Zeitpunkt (am Verfallszeitpunkt/maturity date) einen festgelegten Betrag (payoff), falls dann der Kurs einer bestimmte Aktie (Basiswert, underlying) über einem gewissen Wert (strike) liegt. Ansonsten erhält er nichts. Die linke Seite von Abbildung 1.1 zeigt den fairen Preis V einer solchen Option in Abhängigkeit vom Kurs des Underlyings S0 . Die rote durchgezogene Kurve zeigt dabei analytisch berechnete Werte. (Für solch einfache Beispiele existieren geschlossene Lösungsformeln.) Schwarz gepunktet sind (mit dem sogennnten Monte Carlo-Verfahren) numerisch genäherte Werte eingezeichnet. Beide Kurven stimmen sehr gut überein. Zur Risikobewertung einer binären Option ist es wichtig zu wissen, wie stark der Preis V vom Kurs des Underlyings S0 abhängt, ob etwa schon minimale Kursschwankungen große

1

KAPITEL 1. EINLEITUNG

1

4

0.9

3.5

0.8 3 0.7 2.5

0.6 0.5

2

0.4

1.5

0.3 1 0.2 0.5

0.1 0

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

0

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

Abbildung 1.1: Analytisch und mit Monte Carlo berechneter Optionspreis und Delta. Wertschwankungen der Option auslösen können. Hierfür relevant ist das sogenannte Delta ∂V . ∆= ∂S0 Die rechte Seite in Abbildung 1.1 zeigt das mittels finiter Differenzen aus den Kurven auf der linken Seite berechnete Delta. ∆(S0 ) ≈

V (S0 + h) − V (S0 ) , h

h = 10−3

Während die numerisch berechneten Werte der Option noch sehr gut mit den korrekten (analytisch berechneten) Werten übereinstimmten, sind die daraus numerisch berechneten Ableitungen offenbar völlig unbrauchbar. Durch die Division durch h werden die in der numerischen Bewertung vorhandenen Fehler um das 1/h = 1000-fache verstärkt und ruinieren das Ergebnis.

1.2 Hintergrund: Ableiten als inverses Problem Der Grund für die beobachtete Instabilität ist, dass die Ableitung einer Funktion nicht stetig von den Funktionswerten abhängt. Ein einfaches Beispiel ist fn (x) =

1 sin(nπx), nπ

fn0 (x) = cos(nπx)

Offenbar konvergiert fn (x) glm. auf [0, 1] gegen die Nullfunktion, während fn0 (x) für keinen Punkt x ∈ (0, 1] konvergiert. Wir können die Ableitung auch als inverses Problem zu einer linearen Abbildung zwischen Hilberträumen auffassen. Dazu definieren wir A : L2 (0, 1) → L2 (0, 1),

Af :=

Z x 0

2

f (s) ds

1.3. PARAMETERIDENTIFIKATIONSPROBLEME Man rechnet leicht nach, dass A tatsächlich eine Abbildung von L2 (0, 1) nach L2 (0, 1), sowie linear und stetig ist. Außerdem ist Af − g = const. genau dann, wenn f = g 0 (im Sinne der schwachen bzw. distributionellen Ableitung). Offenbar ist auch Afn0 = fn ,

kfn k2L2 (0,1) =

1 2nπ

und

1 2 kfn0 kL2 (0,1) = , 2

1 d.h. kAfn0 k2 = nπ kfn0 k2 . A kann also nicht stetig invertierbar sein. Das Ableiten einer Funktion ist ein schlecht gestelltes, inverses Problem.

1.3 Parameteridentifikationsprobleme Viele Vorgänge in den Natur- und Wirtschaftwissenschaften lassen sich durch partielle Differentialgleichungen beschreiben, deren Lösung die Vorhersage des Verhaltens eines Systems bei vollständiger Kenntnis aller dazu nötigen Parameter ermöglicht. So beschreibt z.B. −∇ · (a(x)∇u(x)) = f (x) u(x) = 0

∀x ∈ Ω ∀x ∈ ∂Ω

die stationäre Wärmeverteilung in einem Körper Ω dessen Rand auf Nulltemperatur gehalten wird. u(x) ist dabei die Temperatur im Punkt x. a(x) ist die Wärmeleitfähigkeit und f (x) ist eine von außen angelegte Wärmequelle. Das dazugehörige inverse Problem ist es, die Wärmeleitfähigkeit des Körpers durch Messungen der Temperatur u(x) zu bestimmen. Wir betrachten ein einfaches eindimensionales Beispiel: −(a(x)ux (x))x = f (x)

x ∈ (0, 1)

mit u(0) = 0 = u(1). Falls ux nirgendwo verschwindet, dann erhalten wir a(x) = −

Z x 1 a(0)ux (0) + f (s) ds ux (x) 0 



Um a zu berechnen, müssen die Temperaturmessungen u(x) also differenziert werden, was wie im letzten Abschnitt erklärt ein schlecht-gestelltes Problem darstellt. Zusätzliche (nicht-lineare) Instabilitäten können durch die Division durch den möglicherweise kleinen Ausdruck ux (x) auftreten.

3

2 Lineare inverse Probleme Der Aufbau dieses Kapitel folgt an vielen Stellen dem sehr empfehlenswerten Lehrbuch [Rieder].

2.1 Einige Grundbegriffe Es seien stets X, Y (reelle) Hilberträume mit Skalarprodukten (·, ·)X , (·, ·)Y und dadurch induzierten Normen k·kX , k·kY . Definition und Satz 2.1 Sei A : X → Y linear. Dann sind äquivalent (a) A ist stetig. (b) A ist beschränkt, d.h. es existiert C > 0 mit kAxk ≤ C kxk

∀x ∈ X.

Den Vektorraum aller stetigen linearen Abbildungen von X nach Y bezeichnen wir mit L(X, Y ). Für X = Y schreiben wir auch L(X) := L(X, X). Beweis: Wir setzen das als bekannt voraus und verweisen z.B. auf [Alt].



Definition und Satz 2.2 (a) L(X, Y ) ist ein Banachraum mit der Operatornorm kAkL(X,Y ) := sup x6=0

kAxkY = sup kAxkY . kxkX kxkX =1

(b) Zu A ∈ L(X, Y ) ist der adjungierte Operator A∗ ∈ L(Y, X) definiert durch (x, A∗ y)X := (Ax, y)Y

∀x ∈ X, y ∈ Y.

Es gilt (A∗ )∗ = A. Beweis: Auch das setzen wir als bekannt voraus und verweisen wieder auf [Alt].



5

KAPITEL 2. LINEARE INVERSE PROBLEME Definition 2.3 Sei X ein Hilbertraum. Der Raum aller stetigen linearen Funktionale von X nach heißt Dualraum X 0 := L(X, ) von X. Mit der oben definierten Operatornorm wird X 0 ein Banachraum. (Tatsächlich folgt aus dem nächsten Satz, dass X 0 ein Hilbertraum ist.)

R

R

Satz 2.4 (Lax-Milgram) Es sei X ein Hilbertraum und b:X ×X →

R,

eine stetige, symmetrische, koerzive Bilinearform, d.h. b(u, v) = b(v, u) ∀u, v ∈ X ∃C > 0 : |b(u, v)| ≤ C kuk kvk ∀u, v ∈ X ∃β > 0 : b(u, u) ≥ β kuk2

∀u ∈ X

(Symmetrie) (Stetigkeit) (Koerzivität)

und b ist in beiden Komponenten linear. Weiterhin sei l ∈ X 0 . Dann existiert genau ein u ∈ X mit b(u, v) = l(v)

für alle v ∈ X.

(2.1)

u hängt stetig und linear von l ab, kukX ≤

1 klkX 0 . β

und u ist das eindeutige Minimum von J: X→

R,

1 J(v) := b(v, v) − hl, vi. 2

Beweis: Übungsaufgabe



Bemerkung 2.5 Nimmt man als Bilinearform b das Skalarprodukt (·, ·)X in einem Hilbertraum X, so sind offenbar alle Voraussetzungen von Satz 2.4 erfüllt. Es gibt also eine stetige lineare Abbildung ι : X 0 → X mit (ι(l), v)X = l(v) ∀l ∈ X 0 , v ∈ X. Offenbar besitzt ι auch eine stetige lineare Inverse (ι−1 u)(v) = (u, v)X

∀u, v ∈ X

und es gilt kι−1 ukX 0 = kukX . X ist isometrisch isomorph zu X 0 . Dies bezeichnet man auch als Rieszschen Darstellungssatz.

6

2.1. EINIGE GRUNDBEGRIFFE Satz 2.6 Ist V ⊆ X ein abgeschlossener Unterraum, dann ist V mit dem Skalarprodukt aus X selbst ein Hilbertraum. Beweis: Offenbar ist (·, ·)X auch ein Skalarprodukt auf V und die Vollständigkeit folgt direkt aus der Abgeschlossenheit und der Vollständigkeit von X.  Definition und Satz 2.7 Sei V ⊆ X ein (nicht notwendigerweise abgeschlossener) Unterraum. Wir definieren PV ∈ L(X) durch PV x := v für x ∈ X, wobei v := arg min kx − v˜kX . v˜∈V

PV heißt orthogonale Projektion auf V . Außerdem definieren wir das orthogonale Komplement durch V ⊥ := {x ∈ X : (x, V ) = 0} := {x ∈ X : (x, v) = 0 ∀v ∈ V }. Dann gilt (a) v = PV x

⇐⇒

v∈V



v−x∈V ,

und ⊥

insbesondere ist also R(PV ) = V und N (PV ) = V . ⊥

(b) V ⊥ = V . (c) X = V ⊕ V ⊥ . (d) (V ⊥ )⊥ = V . (e) Für A ∈ L(X, Y ) ist N (A∗ ) = R(A)⊥ . (f) Für A ∈ L(X, Y ) ist R(A∗ ) = N (A)⊥ . Beweis: Es ist arg min kx − v˜kX = arg min kx − v˜∈V

v˜∈V

v˜k2X

1 = arg min (˜ v , v˜)X − (x, v˜)X 2 v˜∈V 



Da V ein Hilbertraum ist (Satz 2.6), existiert nach dem Satz von Lax-Milgram (Satz 2.4) genau ein Minimum von 12 (˜ v , v˜)X − (x, v˜)X , dieses ist die eindeutige Lösung von (v, w) = (x, w) ∀w ∈ V

⇐⇒

v−x∈V



und v hängt stetig und linear von x ab. Damit ist gezeigt, dass PV ∈ L(X) wohldefiniert ist und (a) gilt. Offenbar ist auch PV2 = PV , also PV tatsächlich eine Projektion.

7

KAPITEL 2. LINEARE INVERSE PROBLEME (b) folgt durch stetige Fortsetzung. (c) V ∩ V ⊥ = 0 ist klar und jedes x ∈ X lässt sich (stetig) zerlegen in x = PV x + (x − PV x) ∈ V + V ⊥ . ⊥

(d) klar: V ⊆ (V )⊥ = (V ⊥ )⊥ Ist umgekehrt x ∈ (V ⊥ )⊥ , dann ist nach (a) PV x − x ∈ V ⊥ ,

aber auch

PV x − x ∈ (V ⊥ )⊥ ,

also (PV x − x, PV x − x) = 0 und damit x = PV x ∈ V . (e) R(A)⊥ = {η ∈ Y : (η, y) = 0 ∀y ∈ R(A)} = {η ∈ Y : 0 = (η, Ax) = (A∗ η, x) ∀x ∈ X} = {η ∈ Y : A∗ η = 0} = N (A∗ ). (f) Aus (A∗ )∗ = A, (e) und (d) folgt N (A)⊥ = N ((A∗ )∗ )⊥ = (R(A∗ )⊥ )⊥ = R(A∗ ).



Definition 2.8 Sei V ⊆ X ein Unterraum von X. Eine lineare Abbildung A : V → Y bezeichnen wir auch als Operator von X nach Y mit Definitionsbereich D(A) = V und schreiben A : D(A) ⊆ X → Y. Wenn wir die Schreibweise von Definition 2.8 verwenden, wird meistens D(A) dicht in X liegen und A unbeschränkt sein. Definition und Satz 2.9 Seien A, B und C (möglicherweise unbeschränkte) Operatoren mit Definitionsbereichen D(A), D(B) und D(C). (a) Wir schreiben A ⊆ B falls D(A) ⊆ D(B)

und

Ax = Bx

∀x ∈ D(A).

Wir schreiben A = B falls zusätzlich D(A) = D(B). (b) Wir definieren A+B und AB punktweise auf den natürlichen Definitionsbereichen D(A + B) = D(A) ∩ D(B), Für 0 6= α ∈

D(AB) = {x ∈ D(B) : Bx ∈ D(A)}.

R definieren wir αA punktweise auf D(αA) = D(A).

0A ist der (beschränkte und überall definierte) Nulloperator.

8

2.1. EINIGE GRUNDBEGRIFFE (c) Es gelten die folgenden Rechenregeln (A + B) + C = A + (B + C), (AB)C = A(BC),

(A + B)C = AC + BC, A(B + C) ⊇ AB + AC.

Beweis: Übungsaufgabe



Definition und Satz 2.10 (a) Die adjungierte Abbildung eines Operators A : D(A) ⊆ X → Y mit dichtem Definitionsbereich D(A) ist der durch (Ax, y) = (x, A∗ y) ∀x ∈ D(A), y ∈ D(A∗ )

(2.2)

eindeutig definierte Operator A∗ : D(A∗ ) ⊆ Y → X mit Definitionsbereich D(A∗ ) := {y ∈ Y : x 7→ (Ax, y) ist stetig auf D(A)} (b) Sind A, B und AB Operatoren mit dichten Definitionsbereichen, dann ist (AB)∗ ⊇ B ∗ A∗ . Ist A ∈ L(X, Y ), dann gilt sogar (AB)∗ = B ∗ A∗ . (c) Ein Operator A : D(A) ⊆ X → X heißt symmetrisch, falls (Ax, y) = (x, Ay)

∀x, y ∈ D(A).

Ist D(A) dicht in X, so gilt ⇐⇒

A symmetrisch

A ⊆ A∗ ,

und A heißt selbstadjungiert, falls A = A∗ , also zusätzlich D(A) = D(A∗ ) gilt. Beweis: (a) Offenbar ist D(A∗ ) ein Unterraum von Y . Für y ∈ D(A∗ ) kann x 7→ (Ax, y) zu einer stetigen linearen Abbildung X → fortgesetzt werden, nach dem Satz von Riesz (Bemerkung 2.5) existiert also genau eine Lösung A∗ y der definierenden Gleichung (2.2). Die Linearität von A∗ ist klar.

R

(b) Sei y ∈ D(B ∗ A∗ ). Wir wollen zeigen, dass y ∈ D((AB)∗ ), d.h. x 7→ (ABx, y) ist stetig auf D(AB). Sei dazu x ∈ D(AB). Dann ist insbesondere x ∈ D(B) und A∗ y ∈ D(B ∗ ), also (Bx, A∗ y) = (x, B ∗ A∗ y).

9

KAPITEL 2. LINEARE INVERSE PROBLEME Es ist aber auch Bx ∈ D(A) und y ∈ D(A∗ ), also (ABx, y) = (Bx, A∗ y) = (x, B ∗ A∗ y)

∀x ∈ D(AB), y ∈ D(B ∗ A∗ ).

Es folgt, dass für alle y ∈ D(B ∗ A∗ ) die Abbildung x 7→ (ABx, y) = (x, B ∗ A∗ y) stetig ist in D(AB) und damit D(B ∗ A∗ ) ⊆ D((AB)∗ ). Damit erhalten wir (x, B ∗ A∗ y) = (ABx, y) = (x, (AB)∗ y)

∀x ∈ D(AB), y ∈ D(B ∗ A∗ )

und da D(AB) dicht in X liegt folgt B ∗ A∗ y = (AB)∗ y

∀y ∈ D(B ∗ A∗ )

also B ∗ A∗ ⊆ (AB)∗ . Nun sei A beschränkt. Um (AB)∗ = B ∗ A∗ zu beweisen, müssen wir nur noch zeigen, dass D((AB)∗ ) ⊆ D(B ∗ A∗ ). Sei also y ∈ D((AB)∗ ). Dann ist für alle x ∈ D(AB) (x, (AB)∗ y) = (ABx, y) = (Bx, A∗ y). wobei wir in der zweiten Umformung A ∈ L(X, Y ) verwendet haben. Es ist also x → (Bx, A∗ y) stetig in D(AB) und damit A∗ y ∈ D(B ∗ ). Also ist y ∈ D(B ∗ A∗ ), womit die Behauptung folgt. (c) Sei A symmetrisch mit dichtem D(A). Für alle y ∈ D(A) ist x 7→ (Ax, y) = (x, Ay) stetig, also y ∈ D(A∗ ) und Ay = A∗ y für alle y ∈ D(A), d.h. A ⊆ A∗ . Die Rückrichtung ist trivial.  Bemerkung 2.11 Achtung! Alle von A gebildeten Ausdrücke hängen automatisch auch von D(A) ab, insbesondere auch A∗ und D(A∗ )! Es gibt oft mehrere natürliche Möglichkeiten D(A) zu wählen, der Definitionsbereich muss nicht der „maximal mögliche” sein. Umgekehrt ist D(A∗ ) entsprechend Def. 2.10 eindeutig durch A und D(A∗ ) festgelegt und muss ebenfalls nicht mit dem „maximal möglichen” Definitionsbereich übereinstimmen. Beispiel 2.12 Wir definieren die (eindimensionalen) Sobolevräume n

o

H 1 (0, 1) = u ∈ L2 (0, 1) : u0 ∈ L2 (0, 1) n

H01 (0, 1) = u ∈ H 1 (0, 1) : u(0) = u(1) = 0 n

o

Hπ1 (0, 1) = u ∈ H 1 (0, 1) : u(0) = u(1)

10

o

2.2. MOORE-PENROSE-INVERSE Auf allen drei Räumen können wir den unbeschränkten Ableitungsoperator definieren A1 : D(A1 ) ⊂ L2 (0, 1) → L2 (0, 1), A2 : D(A2 ) ⊂ L2 (0, 1) → L2 (0, 1), A3 : D(A3 ) ⊂ L2 (0, 1) → L2 (0, 1),

A1 f = f 0 , A2 f = f 0 , A3 f = f 0 ,

D(A1 ) = H 1 (0, 1), D(A2 ) = H01 (0, 1), D(A3 ) = Hπ1 (0, 1).

Dann kann man zeigen, dass (siehe z.B. [Rudin, Ex. 13.4]) A∗1 = −A2 ,

A∗2 = −A1

A∗3 = −A3 .

2.2 Moore-Penrose-Inverse In diesem Abschnitt ist immer A ∈ L(X, Y ) ein linearer beschränkter Operator zwischen Hilberträumen X und Y . Wir interessieren uns für die Lösung der linearen Gleichung y = Ax für möglicherweise nicht injektives und/oder nicht surjektives A. Satz 2.13 Sei y ∈ Y . Äquivalent sind (a) x ∈ X löst Ax = PR(A) y (b) x ∈ X minimiert das Residuum kAx − ykY ≤ kAξ − ykY

∀ξ ∈ X.

(c) x ∈ X löst die Normalengleichungen A∗ Ax = A∗ y.

(2.3)

Beweis: (a) ⇐⇒ (b) folgt direkt aus unserer Definition von PR(A) und stetiger Fortsetzung. (a) ⇐⇒ (c) : Nach Satz 2.7(a),(e) ist Ax = PR(A) y

⇐⇒

Ax − y ∈ R(A)⊥ = N (A∗ )

⇐⇒

A∗ Ax = A∗ y,

also gilt (a) ⇐⇒ (c).



Satz 2.14 (a) Zu y ∈ Y existiert genau dann eine Lösung der Normalengleichungen (2.3), wenn y ∈ R(A) ⊕ R(A)⊥ . (b) Zu y ∈ R(A) ⊕ R(A)⊥ existiert genau eine Lösung x+ der Normalengleichungen mit minimaler Norm, A∗ Ax+ = A∗ y

und



+

x

≤ kxk

∀x ∈ (A∗ A)−1 A∗ y.

11

KAPITEL 2. LINEARE INVERSE PROBLEME Beweis: (a) Löst x die Normalengleichungen, so ist Ax − y ∈ R(A)⊥ , also y = Ax + y − Ax ∈ R(A) ⊕ R(A)⊥ . Ist umgekehrt y ∈ R(A) ⊕ R(A)⊥ , also y = Ax + η mit η ∈ R(A)⊥ = N (A∗ ) dann folgt A∗ y = A∗ Ax. (b) Die Menge U := (A∗ A)−1 A∗ y ist das Urbild der abgeschlossenen einelementigen Menge {A∗ y} unter der stetigen Abbildung A∗ A. U ist also abgeschlossen und damit vollständig. Für die eindeutige Existenz eines Elementes x+ ∈ U mit minimaler Norm zeigen wir, dass jede minimierende Folge xn ∈ U , limn→∞ kxn k = inf x∈U kxk eine CauchyFolge ist: U ist offenbar konvex, insbesondere ist 21 xn + 21 xm ∈ U ∀n, m und damit

1

xn

1 + xm

inf kxk ≤ x∈U 2 2 1 1 ≤ kxn k + kxm k → inf kxk x∈U 2 2

für n, m → ∞.

Es folgt, dass 2

inf kxk =

x∈U

1 2 + xm

2  1 1 1 kxn k2 + (xn , xm ) + kxm k2 , 4 2 4

1 lim

xn n,m→∞ 2 

= n,m→∞ lim

also limn,m→∞ (xn , xm ) = inf x∈U kxk2 und damit lim kxn − xm k2 = 0.

n,m→∞

Da U vollständig ist, existiert x+ := limn→∞ xn ∈ U .



+

x

= lim kxn k = inf kxk , n→∞

x∈U



also ist x+ eine Lösung der Normalengleichungen mit minimaler Norm. Schließlich kann es keine weitere von x+ verschiedene Lösung xˆ der Normalengleichungen mit minimale Norm geben, da sonst x+ , xˆ, x+ , xˆ, . . . eine minimierende Folge, jedoch keine Cauchy-Folge wäre. Definition 2.15 Zu A ∈ L(X, Y ) definieren wir die Abbildung A+ : D(A+ ) ⊂ Y → X,

y 7→ x+ ,

mit dem Definitionsbereich D(A+ ) := R(A)⊕R(A)⊥ , durch die entsprechend Satz 2.14b) eindeutig bestimmte Minimum-Norm-Lösung x+ der Normalengleichungen. A+ heißt verallgemeinerte oder Moore-Penrose-Inverse von A.

12

2.2. MOORE-PENROSE-INVERSE Satz 2.16 (a) D(A+ ) = Y , genau dann wenn R(A) abgeschlossen ist. (b) R(A+ ) = N (A)⊥ . (c) Löst x die Normalengleichungen A∗ Ax = A∗ y, so ist x+ = PN (A)⊥ x. (d) A+ ist linear. Beweis: (a) Gilt R(A) = R(A), so ist Y = R(A) ⊕ R(A)⊥ = D(A+ ). Ist umgekehrt Y = R(A) ⊕ R(A)⊥ = R(A) ⊕ R(A)⊥ , dann folgt R(A) = PR(A) (R(A) ⊕ R(A)⊥ ) = PR(A) (R(A) ⊕ R(A)⊥ ) = R(A). (b)+(c) Sei x+ = A+ y mit y ∈ D(A+ ). Angenommen ∃x ∈ N (A) mit (x+ , x) 6= 0. Für alle λ ∈ löst dann auch x+ + λx die Normalengleichungen, aber wegen

R

+

x

2



2

+ λx

=

x+

+ 2λ(x+ , x) + λ2 kxk2

können wir λ so wählen, dass kx+ + λxk < kx+ k (z.B. λ := −(x+ , x)/ kxk2 ). Dies widerspricht der Minimalnormeigenschaft von x+ . Es ist also R(A+ ) ⊆ N (A)⊥ . Aus A∗ Ax = A∗ y folgt A∗ A(x − x+ ) = 0 und damit (A(x − x+ ), A(x − x+ )) = 0. Es ist also x − x+ ∈ N (A) und mit Satz 2.7 und R(A+ ) ⊆ N (A)⊥ folgt x+ = PN (A)⊥ x und damit (c). Da jedes x die Normalengleichungen zu y := Ax löst, folgt damit auch R(A+ ) = N (A)⊥ .

R

(d) Sind y1 , y2 ∈ D(A+ ) und λ ∈ , dann löst A+ y1 + λA+ y2 offenbar die Normalengleichungen zu y1 + λy2 . Mit (c) und (b) folgt A+ (y1 + λy2 ) = PN (A)⊥ (A+ y1 + λA+ y2 ) = A+ y1 + λA+ y2 .



Satz 2.17 Die Moore-Penrose-Inverse A+ ist die einzige Abbildung R(A) ⊕ R(A)⊥ ⊆ Y → X, die die folgenden vier Moore-Penrose-Axiome erfüllt AA+ A = A +

+

A AA = A

A+ A = PR(A∗ )

auf X, +

+

auf D(A ),

+

AA = PR(A) ,

auf X, auf D(A+ ).

Beweis: Da A+ y die Normalengleichungen löst folgt mit Satz 2.13(a) AA+ y = PR(A) y

∀y ∈ D(A+ )

13

KAPITEL 2. LINEARE INVERSE PROBLEME und damit auch AA+ Ax = PR(A) Ax = Ax ∀x ∈ X. Jedes x ∈ X löst die Normalengleichungen zu y := Ax ∈ D(A+ ), also folgt aus Satz 2.16c) A+ Ax = x+ = PR(A∗ ) x und damit wegen R(A+ ) = N (A)⊥ = R(A∗ ) auch A+ AA+ y = PR(A∗ ) A+ y = A+ y

∀y ∈ D(A+ ).

Erfülle nun umgekehrt A◦ : D(A◦ ) = D(A+ ) ⊂ Y → X die Moore-Penrose-Axiome. Für y ∈ D(A+ ) und x = A◦ y ist dann Ax = AA◦ y = PR(A) y, Nach Satz 2.13 löst x = A◦ y also die Normalengleichungen. Mit Satz 2.16c) folgt A+ y = PR(A∗ ) A◦ y = A◦ AA◦ y = A◦ y.



Bemerkung 2.18 (a) Aus N (A∗ A) = {x : A∗ Ax = 0} ⊆ {x : (Ax, Ax) = (A∗ Ax, x) = 0} = N (A) folgt N (A∗ A) = N (A). (b) Ist A injektiv, so besitzt A∗ A eine Linksinverse (A∗ A)−1 und es gilt A+ y = (A∗ A)−1 A∗ y

für alle y ∈ D(A+ ).

(c) Endlich-dimensionale Vektorräume sind (bzgl. jeder Norm) vollständig. Für Operatoren mit dim R(A) < ∞ gilt also stets R(A) = R(A) und damit D(A+ ) = Y .

2.3 Kompakte Operatoren 2.3.1 Definition und erste Eigenschaften Definition 2.19 A ∈ L(X, Y ) heißt kompakt, falls das Bild jeder in X beschränkten Folge eine konvergente Teilfolge in Y besitzt bzw. (äquivalent dazu) wenn A(B) kompakt ist für alle beschränkten Teilmengen B ⊂ X. Die Menge aller kompakten Operatoren bezeichnen wir mit K(X, Y ).

14

2.3. KOMPAKTE OPERATOREN Satz 2.20 (a) K(X, Y ) ist ein Vektorraum. Jede Hintereinanderausführung von kompakten Operatoren und stetigen Operatoren ist wiederum kompakt. (b) Jeder Operator mit endlich dimensionalem Bild ist kompakt (die sogenannten degenerierte Operatoren). (c) K(X, Y ) ist abgeschlossen bezüglich der Operatornorm k·kL(X,Y ) . Insbesondere ist also wegen (b) jeder Grenzwert degenerierter Operatoren kompakt. Beweis: (a) ist trivial. (b) folgt aus dem Satz von Bolzano-Weierstrass. (c) Sei (Kk )k∈N ⊂ K(X, Y ) mit Kk → K ∈ L(X, Y ). Sei (xn )n∈N ⊂ X eine beschränkte Folge. Dann existiert eine Teilfolge (x1,l )l∈N , so dass K1 x1,l konvergiert. Von dieser existiert wiederum eine Teil-Teilfolge (x2,l )l∈N , so dass K2 x2,l konvergiert und davon eine Teil-Teil-Teilfolge (x3,l )l∈N , u.s.w.

N

Für jedes feste k ∈ bilden dann fast alle Glieder der Diagonalfolge (xl,l )l∈N eine Teilfolge von (xk,l )l∈N , so dass für jedes k ∈ die Folge (Kk xl,l )l∈N ⊂ Y konvergiert. Damit folgt für alle k, l, m ∈

N

N

kKxl,l − Kxm,m k ≤ kKxl,l − Kk xl,l k + kKk xl,l − Kk xm,m k + kKk xm,m − Kxm,m k ≤ kK − Kk k (kxl,l k + kxm,m k) + kKk xl,l − Kk xm,m k . Der erste Summand wird für hinreichend große k beliebig klein, der zweite Summand für hinreichend große l(k), m(k). Es gilt also lim kKxl,l − Kxm,m k = 0,

l,m→∞

d.h. (Kxl,l )l∈N ist Cauchy-Folge und damit konvergent.



Satz 2.21 (Arzela-Ascoli) Sei Ω ⊂ X kompakt und (un )n∈N ⊂ C(Ω) eine gleichmäßig beschränkte und gleichgradig stetige Folge stetiger Funktionen uk : Ω → , d.h.

R

∃C > 0 : sup |un (x)| ≤ C x∈Ω

∀n ∈

N

(2.4)

und sup |un (x) − un (y)| → 0 für |x − y| → 0.

N

(2.5)

n∈

Dann besitzt (un )n∈N eine konvergente Teilfolge in C(Ω) bezüglich der Supremumsnorm kukC(Ω) := supx∈Ω |u(x)|.

15

KAPITEL 2. LINEARE INVERSE PROBLEME Beweis: (a) Wir zeigen zuerst, dass (uk )k∈N Fast-Cauchy-Folgen besitzt, d.h. zu jedem δ > 0 existiert eine Teilfolge (uki )i∈N mit



lim sup

uki − ukj

C(Ω)

i,j→∞

(2.6)

< δ.

R

Hierzu sei  > 0. Wir überdecken [−C, C] ⊂ und Ω ⊂ X mit -Kugeln. Seien L M also (xm )m=1 ⊂ Ω und (yl )l=1 ⊂ [−C, C], so dass Ω⊂

M [

B (xm )

[−C, C] ⊂

und

m=1

L [

B (yl ).

l=1

Wegen (2.4) bildet jedes Folgenglied uk die Punkte xm nach uk (xm ) ∈ [−C, C] ab, wir können also jedem uk (mindestens) eine Abbildung π : {1, . . . , M } → {1, . . . L} mit |uk (xm ) − yπ(m) | <  zuordnen. Da es nur endlich viele solcher Abbildung gibt, existiert ein π, dem unendlich viele uk , also eine Teilfolge (uki )i∈N zugeordnet werden. Für x ∈ B (xm ) gilt dann |uki (x) − ukj (x)| ≤ |uki (x) − uki (xm )| + |uki (xm ) − yπ(m) | + |yπ(m) − ukj (xm )| + |ukj (xm ) − ukj (x)| ≤ 2 + 2 sup sup |uk (x) − uk (y)| =: δ . k∈

N |x−y| 0 finden wir also eine Teilfolge mit der Eigenschaft (2.6). (b) Nun konstruieren wir aus den Fast-Cauchy-Folgen richtige Cauchy-Folgen. Nach (a) existiert eine Teilfolge, die (2.6) mit δ1 = 1 erfüllt. Auf diese können wir wiederum (a) anwenden und finden so eine Teil-Teilfolge, die (2.6) mit δ2 = 21 und darin wiederum eine, die (2.6) mit δ3 = 13 erfüllt, u.s.w. Wir nehmen nun das erste Glied der Teilfolge zu δ1 = 1, dann das zweite Glied der Teil-Teilfolge zu δ2 = 21 , u.s.w. So erhalten wir eine Teilfolge (uki )i∈N der ursprünglichen Folge (uk )k∈N mit



lim sup uki − ukj i,j→∞

C(K)

≤ δl =

1 → 0. l

also eine Cauchy-Folge. Da C(Ω) vollständig ist, konvergiert die Teilfolge (uki )i∈N .  Satz 2.22 Ist K ∈ K(X, Y ), so ist K ∗ ∈ K(Y, X).

16

2.3. KOMPAKTE OPERATOREN Beweis: Sei (yk )k∈N ⊂ Y beschränkt. Wir müssen zeigen, dass (K ∗ yk )k∈N eine konvergente Teilfolge besitzt. Dazu definieren wir zuerst lk : Y →

R

R,

lk (η) := (yk , η).

Offenbar ist lk ∈ L(Y, ) und |lk (η) − lk (η 0 )| = |(yk , η − η 0 )| ≤ kyk kY kη − η 0 kY

∀η, η 0 ∈ Y,

also sind die (lk )k∈N als stetige Funktionen auf Y auch gleichgradig stetig. Sei B := {x ∈ X : kxkX ≤ 1} ⊂ X die Einheitskugel in X. Da K kompakt ist, ist Ω := K(B) ⊂ Y eine kompakte Teilmenge von Y . Die Folge der Einschränkungen (lk |Ω )k∈N ⊂ C(Ω) ist auf Ω gleichmäßig beschränkt und gleichgradig stetig, besitzt also nach dem Satz von Arzela-Ascoli (Satz 2.21) eine in C(Ω) konvergente Teilfolge (lkj )j∈N . Für (lkj )j∈N gilt

lim sup |lki (η) − lkj (η)| = 0,

i,j→∞ η∈Ω

und damit insbesondere



lim K ∗ (yki − ykj ) = lim sup |(K ∗ (yki − ykj ), x)| X

i,j→∞

i,j→∞ x∈B

= lim

sup |(yki − ykj , η)| = 0.

i,j→∞ η∈K(B)

(K ∗ (ykj ))j∈N ist also eine Cauchy-Folge, und damit konvergent.



Satz 2.23 Sei Ω ⊂ n ein beschränktes Gebiet. Zu einer Kernfunktion k ∈ L2 (Ω × Ω) definieren wir den Fredholm-Integraloperator der 1. Art

R

2

2

K : L (Ω) → L (Ω),

(Kf )(x) :=

Z

k(x, y)f (y) dy.



K ist kompakt, kKkL(L2 (Ω)) ≤ kkkL2 (Ω×Ω) und K ∗ ist gegeben durch ∗

2

2

K : L (Ω) → L (Ω),



(K g)(x) :=

Z

k(y, x)g(y) dy.



Beweis: Für alle f ∈ L2 (Ω) ist kKf k2L2 (Ω) = ≤

Z

|(Kf )(x)|2 dx =

Z Z Ω

|k(x, y)|2 dy

2 Z Z k(x, y)f (y) dy ΩZ Ω 



dx

|f (y)|2 dy dx



= kkk2L2 (Ω×Ω) kf k2L2 (Ω) ,

17

KAPITEL 2. LINEARE INVERSE PROBLEME also K ∈ L(L2 (Ω))

kKkL(L2 (Ω)) ≤ kkkL2 (Ω×Ω) .

und

Da K offenbar linear von k abhängt, folgt damit auch dass K ∈ L(L2 (Ω)) stetig von k ∈ L2 (Ω × Ω) abhängt. Da C(Ω × Ω) dicht in L2 (Ω × Ω) liegt (siehe z.B. [Forster3, §10, Satz 3]), genügt es nach Satz 2.20 die Kompaktheit von K für k ∈ C(Ω × Ω) zu zeigen. Sei also k ∈ C(Ω × Ω) und (fl )l∈N ⊂ L2 (Ω) beschränkt. Wir zeigen, dass (Kfl )l∈N die Voraussetzungen des Satzes von Arzela-Ascoli erfüllt. Glm. Beschränktheit: Z |Kfl (x)|2 ≤

also

|k(x, y)|2 dy kfl k2L2 (Ω) ≤ |Ω| sup |k(x, y)|2 kfl k2L2 (Ω) ,



(2.7)

y∈Ω

sup |Kfl (x)| < ∞. x∈Ω,l∈

N

Glgd. Stetigkeit: 2

|(Kfl )(x) − (Kfl )(ξ)| =

2 (k(x, y) − k(ξ, y)) fl (y) dy Ω Z

Z

≤ kfl k2L2 (Ω)

|k(x, y) − k(ξ, y)|2 dy



≤ kfl k2L2 (Ω) |Ω| sup |k(x, y) − k(ξ, y)|2 y∈Ω

Da k glm. stetig ist und fl beschränkt ist, folgt sup |(Kfl )(x) − (Kfl )(ξ)| → 0 l∈

N

für |x − ξ| → 0,

insbesondere also auch Kfl ∈ C(Ω). Nach dem Satz von Arzela-Ascoli besitzt Kfl eine in C(Ω) konvergente Teilfolge und genauso wie in (2.7) folgt, dass diese auch in L2 (Ω) konvergiert. K ist also kompakt. Schließlich ist für alle f, g ∈ L2 (Ω) (f, K ∗ g) = (Kf, g) = =

Z

Z Z

Z Ω

f (x)



k(x, y)f (y) dy g(x) dx





k(y, x)g(y) dy dx,





also (K ∗ g(x)) = Ω k(y, x)g(y) dy. Korollar 2.24 Den Operator aus Abschnitt 1.2 R

2



2

A : L (0, 1) → L (0, 1),

(Af )(x) :=

Z x

f (y) dy

0

können wir als Integraloperator (Af )(x) =

Z 1 0

(

k(x, y)f (y) dy,

mit k(x, y) :=

1 0

schreiben. Offenbar ist k ∈ L2 ((0, 1)2 ), also ist A nach Satz 2.23 kompakt.

18

für y < x sonst

2.3. KOMPAKTE OPERATOREN

2.3.2 Spektraltheorie kompakter Operatoren Satz 2.25 Sei A ∈ L(X), A = A∗ . Dann ist kAkL(X) = sup kAxk = sup |(Ax, x)|. kxk=1

kxk=1

Beweis: Offenbar ist S := sup |(Ax, x)| ≤ sup kAxk = kAkL(X) . kxk=1

kxk=1

Außerdem gilt für jedes c > 0 1 1 4 kAxk = A cx + Ax , cx + Ax c c      1 1 − A cx − Ax , cx − Ax c c !

2

2



1 1 ≤ S

cx + Ax

+

cx − Ax

c c   1 = 2S c2 kxk2 + 2 kAxk2 . c 2

Für Ax 6= 0 wähle c2 =

kAxk kxk





 



dann folgt (offenbar auch für Ax = 0) kAxk ≤ S kxk ,

also S ≥ supkxk=1 kAxk = kAkL(X) .



Definition 2.26 Sei A ∈ L(X), A = A∗ . A heißt (a) positiv, falls (Ax, x) > 0 für alle x 6= 0. (b) positiv semidefinit, falls (Ax, x) ≥ 0 für alle x ∈ X. (c) positiv definit oder koerziv, falls ∃α > 0 : (Ax, x) ≥ α kxk2

für alle x ∈ X.

Analog heißt A negativ (neg. semidefinit, neg. definit), falls −A positiv (pos. semidefinit, pos. definit) ist. Definition und Satz 2.27 Ein abzählbar unendliches Orthonormalsystem (en )n∈N ⊂ X heißt Orthonormalbasis (ONB), falls eine der folgenden äquivalenten Bedingungen erfüllt ist: (a) Das Erzeugnis he1 , e2 , . . .i (d.h. der Raum aller endlichen Linearkombinationen) liegt dicht in X.

19

KAPITEL 2. LINEARE INVERSE PROBLEME (b) x =

P∞

(c) (x, ξ)

n=1 (x, en )en für alle P = ∞ n=1 (x, en )(ξ, en )

(d) kxk2 =

P∞

2 n=1 (x, en )

x ∈ X. für alle x, ξ ∈ X.

für alle x ∈ X.

Dies zeigt, dass wir x ∈ X mit dem unendlichen langen Vektor seiner Entwicklungskoeffzienten   (x, e1 )   (x, e2 )  ∈ l2 x=   .. . identifizieren können und damit wie im endlich-dimensionalen rechnen können. Hilberträume in denen eine (endliche oder abzählbare unendliche) ONB existiert heißen separabel. Beweis: Für jedes x ∈ X und VN := he1 , . . . , eN i gilt offenbar ξ :=

N X

(x, en )en ∈ VN ,

x − ξ ∈ VN⊥ ,

n=1

also ist nach Satz 2.7 PVN x = ξ und damit insbesondere

N

X

(x, en )en

x −

= min kx − vk = dist(x, he1 , . . . , eN i). v∈VN

n=1

(2.8)

(a)=⇒(b): Sei x ∈ X und xm ∈ he1 , e2 , . . .i Dann ist xm ∈ VNm für ein Nm ∈

mit

xm → x.

N und mit (2.8) folgt für jedes N ≥ Nm

N

X

x − (x, en )en

≤ kx − xm k → 0,

n=1

also limN →∞

PN

n=1 (x, en )en

= x.

(b)=⇒(c): folgt aus der Stetigkeit des Skalarproduktes. (c)=⇒(d): setze ξ := x. PN

(d)=⇒(a): Wir wenden (d) auf ξ := x −

2 N

X

x − (x, en )en

n=1

=

∞ X

n=1 (x, en )en

(ξ, en )2 =

n=1

Dies zeigt (b) und damit insbesondere auch (a).

20

∞ X

an und erhalten (x, en )2 → 0.

n=N +1



2.3. KOMPAKTE OPERATOREN Satz 2.28 Sei K ∈ K(X), K = K ∗ und K positiv semidefinit. Dann hat K nur abzählbar viele von Null verschiedene Eigenwerte kKk = λ1 ≥ λ2 ≥ λ3 ≥ . . . > 0, die sich höchstens im Nullpunkt häufen (d.h. falls unendlich viele Eigenwerte existieren, so ist λn → 0). Die zugehörigen Eigenvektoren vn können so gewählt werden, dass sie eine ONB von N (K)⊥ bilden. Beweis: Für K = 0 ist die Aussage trivial. Für K 6= 0, existiert wegen Satz 2.25 eine Folge (xk )k∈N ⊂ X mit kxk k = 1, (Kxk , xk ) → kKk =: λ1 > 0. Aus 0 ≤ kKxk − λ1 xk k2 = kKxk k2 − 2λ1 (Kxk , xk ) + λ21 kxk k2 ≤ 2λ21 − 2λ1 (Kxk , xk ) → 0. folgt Kxk − λ1 xk → 0.

(2.9)

Da K kompakt besitzt Kxk eine konvergente Teilfolge, o.B.d.A. sei dies bereits Kxk . Aus (2.9) folgt, dass auch xk konvergiert. Mit v1 := limk→∞ xk ist dann kv1 k = 1,

Kv1 − λ1 v1 = 0.

v1 ist also Eigenvektor zum Eigenwert λ1 . Nun setzen wir X1 = hv1 i⊥ . Für jedes x ∈ X1 ist (Kx, v1 ) = (x, Kv1 ) = λ1 (x, v1 ) = 0, also K(X1 ) ⊆ X1 . Offenbar ist damit K1 := K|X1 ∈ K(X1 ) positiv semidefinit, K1 = K1∗ und kK1 k ≤ kKk. Ist K1 = 0, so ist die Aussage bewiesen, anderenfalls existieren v2 ∈ X1 und λ1 ≥ λ2 > 0, so dass Kv2 = K1 v2 = λ2 v2 . Wir fahren so fort und erhalten eine (möglicherweise abbrechende) Folge von Eigenwerten λ1 ≥ λ2 ≥ λ3 ≥ . . . mit zugehörigem ONS von Eigenvektoren (v1 , v2 , v3 , . . .). Die Folge ist genau dann endlich, wenn Km = 0 für ein m ∈ und in diesem Fall ist die Aussage bewiesen.

N

Wir zeigen jetzt, dass λn → 0, falls die Folge unendlich ist. Angenommen ∃ > 0  

mit λn ≥ . Dann ist λ1n vn ≤ 1 . Da K kompakt ist, hat also K λ1n vn = vn eine konvergente Teilfolge. Dies widerspricht aber der Orthogonalität der vn .

21

KAPITEL 2. LINEARE INVERSE PROBLEME Es ist noch zu zeigen, dass hv1 , v2 , . . .i = N (K)⊥ . Sei dazu v ∈ hv1 , v2 , . . .i⊥ . Dann liegt nach Konstruktion v ∈ Xn , also kKvk = kKn vk ≤ λn+1 kvk für alle n ∈ und damit Kv = 0. Damit ist hv1 , v2 , . . .i⊥ = N (K),

N

also nach Satz 2.7 hv1 , v2 , . . .i = N (K)⊥ . Wie im endlich-dimensionalen gilt, dass Eigenvektoren zu verschiedenen Eigenwerten senkrecht aufeinander stehen, so dass damit auch gezeigt ist, dass keine weiteren (von Null verschiedenen) Eigenwerte existieren können.  Satz 2.29 Für A ∈ L(X, Y ) gilt N (A∗ A) = N (A) und kA∗ AkL(X) = kAk2L(X,Y ) . Beweis: Die erste Behauptung folgt aus A∗ Ax = 0 ⇐⇒ 0 = (A∗ Ax, ξ) = (Ax, Aξ) ∀ξ ∈ X ⇐⇒ Ax = 0. (Das hatten wir bereits in Bemerkung 2.18(a) gezeigt.) Die zweite Behauptung folgt aus kAk2L(X,Y ) = sup kAxk2 = sup (A∗ Ax, x) = kA∗ AkL(X) , kxk=1

kxk=1



wobei wir im letzten Schritt Satz 2.25 verwendet haben. Definition und Satz 2.30 Für jedes K ∈ K(X, Y ) existiert eine (möglicherweise endliche) Folge σ1 ≥ σ2 ≥ . . . > 0 von sich höchstens im Nullpunkt häufenden Zahlen, sowie Orthonormalfolgen (un )n∈N ⊂ Y,

(vn )n∈N ⊂ X

mit

Kvn = σn un ,

K ∗ un = σn vn .

Außerdem ist kKk = σ1 und (vn )n∈N bildet eine ONB von N (K)⊥ . (un , vn , σn ) heißt Singulärwertzerlegung. Beweis: Offenbar ist K ∗ K ∈ K(X) selbstadjungiert und positiv semidefinit. Nach Satz 2.28 existiert also eine ONB (vn )n∈N von N (K ∗ K)⊥ = N (K)⊥ (siehe Satz 2.29), sowie eine Folge λ1 ≥ λ2 ≥ . . . > 0, mit K ∗ Kvn = λn vn und λ1 = kK ∗ Kk = kKk2 (siehe wieder Satz 2.29). √ Mit σn := λn und un := σ1n Kvn folgt Kvn = σn un ,

22

K ∗ un =

1 ∗ K Kvn = σn vn , σn

kKk = σ1

2.3. KOMPAKTE OPERATOREN und wegen (un , um ) =

1 λn (Kvn , Kvm ) = (vn , vm ) = δnm . σn σm σn σm

ist auch (un )n∈N ein Orthonormalsystem.



Bemerkung 2.31 Sei K ∈ K(X, Y ) und (un , vn , σn ) seine Singulärwertzerlegung. (a) Da (vn ) eine ONB von N (K)⊥ bildet, können wir jedes x ∈ X gemäß Satz 2.27 schreiben als x = x0 +

∞ X

(vn , x)vn

mit x0 ∈ N (K).

n=1

Es gilt also Kx =

∞ X

σn (vn , x)un .

n=1

(b) Wir definieren AN : X → Y durch AN x =

N X

σn (vn , x)un .

n=1

Dann ist dim R(AN ) ≤ N < ∞. Aus Satz 2.27 und Satz 2.30 folgt, dass für alle x ∈ X kKx − AN xk2 = ≤

2

X



σn (vn , x)un



n=N +1 2 σN +1

2 ≤ σN +1

∞ X

(vn , x)2

n=N +1

2

kxk

und damit kK − AN kL(X,Y ) → 0,

d.h. AN → K

Zusammen mit Satz 2.20 erhalten wir, dass die kompakten Operatoren genau der Abschluss der Operatoren mit endlich-dimensionalen Bild (sog. degenerierte Operatoren) sind. (c) Wir können Kx =

∞ X

σn (vn , x)un ,

n=1

auch formal mit unendlich dimensionalen Matrizen schreiben als K = U ΣV ∗ ,

23

KAPITEL 2. LINEARE INVERSE PROBLEME mit 

U=

u1 u2 . . .



V =

v1∗   v∗  V∗ =  2 , .. . 







v1 v2 . . .







(v1 , x)   ∗ (v2 , x)  , V x=   .. . 

σ1 σ2



Σ= 

..

.

 . 

Satz 2.32 Sei K ∈ K(X, Y ) und (un , vn , σn ) seine Singulärwertzerlegung. (a) Für jedes y ∈ Y gilt y ∈ D(K + ) = R(K) ⊕ R(K)⊥

⇐⇒

∞ X

(y, un )2 0) die Abweichung K + y δ − K + y beliebig groß sein. Die naive Anwendung der Moore-Penrose-Inverse scheitert also selbst für beliebig kleine Messfehler! Idee dieses Kapitels: Ersetze K + durch stetige Approximation Rα . Der Parameter α steuert dabei wie stetig Rα ist bzw. wie gut Rα die gewünschte Inverse K + approximiert. Ziel: Rα(δ,yδ ) y δ → x = K + y für δ → 0.

3.1 Regularisierung Definition 3.1 Eine Familie (Rα )α>0 von linearen Operatoren Rα : Y → X heißt Regularisierung von K + für α → 0, falls (a) Rα ∈ L(Y, X) für alle α > 0 ( Stabilität) (b) Rα y → K + y für alle y ∈ D(K + ) ( pktw. Konvergenz). Analog verwenden wir auch Regularisierungen (Rk )k∈N und erstzen in diesem Fall α → 0 durch k → ∞. Definition 3.2 Sei (Fα )α>0 eine Familie beschränkter Funktionen Fα : (0, kKk2 ] → Filter, falls lim Fα (λ) = 1/λ ∀λ ∈ (0, kKk2 ].

R. (Fα)α>0 heißt

α→0

Ist zusätzlich λFα (λ) glm. beschränkt in α, d.h. ∃C > 0 : λ|Fα (λ)| < C

∀α > 0, λ ∈ (0, kKk2 ],

so heißt (Fα )α>0 regularisierender Filter.

27

KAPITEL 3. REGULARISIERUNG LINEARER PROBLEME Definition und Satz 3.3 Sei (Fα )α>0 ein Filter. Wir definieren damit Rα : Y → X,

Rα y :=

∞ X

Fα (σn2 )σn (un , y)vn

n=1

und schreiben auch formal Rα = Fα (K ∗ K)K ∗ .1 Dann ist Rα ∈ L(Y, X) und kRα kL(Y,X) ≤ sup |Fα (σn2 )| kK ∗ kL(Y,X) , n∈

N

kKRα kL(Y ) ≤ sup |Fα (σn2 )|σn2 n∈

N

Ist (Fα )α>0 ein regularisierender Filter, so gilt lim Rα y = K + y

für alle y ∈ D(K + ),

α→0

(Rα )α>0 ist also eine Regularisierung für K + . Beweis: Für jedes α ist Fα beschränkt und damit kRα yk ≤

sup |Fα (σn2 )|2 n∈

2



X

σ (u , y)v

n n n



sup |Fα (σn2 )|2 n∈

kK yk2 ≤ sup |Fα (σn2 )|2 kK ∗ k2 kyk2 .

2

N

N

n=1 ∗

N

n∈

Es ist also Rα ∈ L(Y, X) und kRα kL(Y,X) ≤ supn∈N |Fα (σn2 )| kK ∗ k. Außerdem ist 2

kKRα yk ≤

sup |Fα (σn2 )σn2 |2 n∈

N

2



X

(u

n , y)un

n=1

≤ sup |Fα (σn2 )σn2 |2 kyk2 , n∈

N

also kKRα kL(Y ) ≤ supn∈N |Fα (σn2 )|σn2 . Nun sei y ∈ D(K + ). Mit Satz 2.32 ist

(K +

2 − Rα )y

=

∞ 

X

σn−1



1 (un , y) σn

= (vn , K + y) und

Fα (σn2 )σn



n=1

= ≤

∞  X

n=1 N  X n=1

1

σn−1 − Fα (σn2 )σn 1−

2 Fα (σn2 )σn2

2

2

(un , y)vn

(un , y)2 +

2

(vn , K y) +

∞  X

1 − Fα (σn2 )σn2

2

(vn , K + y)2

n=N +1

Die Frage, für welche Funktionen dies mehr als nur formale Bedeutung hat ist Gegenstand des sog. Funktionalkalküls und wird uns in dieser Vorlesung nicht beschäftigen.

28

3.1. REGULARISIERUNG Der zweite Summand wird unabhängig von α beliebig klein für N → ∞ und der erste Summand wird für festes N und α → 0 beliebig klein. Es folgt Rα y → K + y.



Beispiel 3.4 (a) Durch (

Fα (λ) :=

λ−1 : λ ≥ α 0: λ 0 mit kxkX ≤ C kKxkY ∀x ∈ X.



Möglicherweise divergiert also K + y δ → ∞ für δ → 0, d.h. für immer kleinere MessX fehler konvergieren unsere naiven Lösungen i.A. nicht nur nicht, sondern können sogar beliebig groß werden! Ein naheliegender praktischer Ansatz ist daher das Problem nur so gut es geht zu lösen, und gleichzeitig zu verhindern, dass die Norm der Lösung zu groß wird, d.h. zu y suchen wir den Minimierer xα = Rα y von ky − Kxk2Y + α kxk2X → min!

(3.1)

Der Regularisierungsparameter α > 0 steuert dabei, ob die Lösung auf Kosten Ihrer Regularität (hier: ihrer k·kX -Norm) besser zu den Daten passen soll (α → 0) oder umgekehrt (α → ∞). Die Minimierungsaufgabe lässt sich auch schreiben als



√K αI

!

x−

y 0

! 2



Y ×X

=





Kx √−y αx

! 2



→ min!

Y ×X

29

KAPITEL 3. REGULARISIERUNG LINEARER PROBLEME Gemäß Satz 2.13 löst der Minimierer xα die Normalengleichungen 

K∗



αI

!

√K αI



xα =



K∗



αI



y 0

!

,

also (K ∗ K + αI)xα = K ∗ y.

(3.2)

Wir verwenden die Singulärwertzerlegung von K und erhalten xα =

∞ X

x0 ∈ N (K)

(xα , vn )vn + x0 ,

n=1

und

∞ X

N (K)⊥ 3 K ∗ y =

(K ∗ y, vn )vn =

n=1

∞ X

σn (un , y)vn .

n=1

xα löst also ∞ X

(σn2 + α)(xα , vn )vn + αx0 = (K ∗ K + αI)xα = K ∗ y =

n=1

∞ X

σn (un , y)vn

n=1

und durch Koeffizientenvergleich folgt xα =

∞ X

(xα , vn )vn =

n=1

∞ X

σn (un , y)vn . +α

2 n=1 σn

Bemerkung 3.6 Für die abgeschnittene Singulärwertzerlegung wissen wir schon aus Satz 2.32, dass kRα yk → ∞

falls y 6∈ D(K + ).

Tatsächlich kann es keine Regularisierung geben für die kRα k beschränkt bleibt. Um dies zu zeigen benötigen wir jedoch noch einige Hilfsmittel aus der Funktionalanalysis.

3.2 Schwache Konvergenz Satz 3.7 S (a) Ist X = k∈N Vk mit abgeschlossenen Mengen Vk , so besitzt mindestens ein Vk nicht-leeres Inneres, d.h. ∃k ∈

N, x ∈ X,  > 0 :

B (x) ⊂ Vk .

(Baire’scher Kategoriensatz) (b) Ist (An )n∈N ⊂ L(X, Y ) punktweise beschränkt, d.h. sup kAn xk < ∞

N

∀x ∈ X,

n∈

so ist An beschränkt, also supn∈N kAn kL(X,Y ) < ∞. (Satz von der gleichmäßigen Beschränktheit)

30

3.2. SCHWACHE KONVERGENZ Beweis: (a) Angenommen kein Vk enthält eine Kugel B (x). Zu 0 := 1 und x0 := 0 ist dann B0 (x0 )\V1 nichtleer und offen. Es existiert also 1 < 1, x1 ∈ B0 (x0 ) mit B1 (x1 ) ⊂ B0 (x0 ) \ V1 . B1 (x1 )\V2 ist wiederum nichtleer und offen, enthält also eine abgeschlossene Kugel B2 (x2 ) mit 0 < 2 < 1/2, x2 ∈ B1 (x1 ). Wir fahren so fort und wählen dabei immer n < 1/n. Dies ergibt eine Cauchy-Folge (xn )n∈N , deren Grenzwert x = limn→∞ xn S in jedem Bk (xk ) und damit in keinem Vk liegt. Dies widerspricht X = k∈N Vk . (b) Setze Vk := {x ∈ X : kAn xk ≤ k ∀n ∈

N} .

Die Vk sind offensichtlich abgeschlossen und aus der punktweise Beschränktheit S folgt X = k∈N Vk . Nach (a) existiert ein K und eine Kugel B (x0 ) mit B (x0 ) ⊂ VK , also kAn (x + x0 )k ≤ K ∀ kxk < , n ∈ .

N

Aus der Linearität von An folgt kAn (x)k ≤ 2K und damit kAn k ≤

∀ kxk < , n ∈

2K 

∀n ∈

N,

N.



Satz 3.8 (Banach-Steinhaus) Sei (An )n∈N ⊂ L(X, Y ). (An ) konvergiert genau dann punktweise gegen ein A : X → Y , wenn (a) ∃C > 0 :

kAn k ≤ C

∀n ∈

N.

(b) (An x)n∈N konvergiert für alle x in einer dichten Teilmenge V ⊆ X. Außerdem ist dann A ∈ L(X, Y ). Beweis: „⇐=“: Sei x ∈ X. Wir zeigen, dass (An x) eine Cauchy-Folge ist. Für alle v ∈ V gilt kAn x − Am xk ≤ kAn x − An vk + kAn v − Am vk + kAm v − Am xk ≤ 2C kx − vk + kAn v − Am vk . Der erste Summand wird unabhängig von n, m beliebig klein für geeignetes v, der zweite Summand konvergiert für festes v und n, m → ∞ gegen 0. (An x) ist also eine CauchyFolge und damit konvergent. Wir können also Ax := limn→∞ An x für alle x ∈ X definieren. Die Linearität von A ist klar. Die Stetigkeit folgt aus kAxk = lim kAn xk ≤ C kxk . n→∞

„=⇒“: Konvergiert An punktweise auf ganz X, so ist es insbesondere punktweise beschränkt, so dass (a) aus Satz 3.7(b) folgt. (b) ist trivial. 

31

KAPITEL 3. REGULARISIERUNG LINEARER PROBLEME Definition 3.9 Eine Folge (xn )n∈N ⊂ X konvergiert schwach gegen x ∈ X, falls (xn , ξ) → (x, ξ)

für alle ξ ∈ X.

Wir schreiben auch xn * x. Offenbar ist der schwache Grenzwert eindeutig und die schwache Grenzwertbildung vertauscht mit den Vektorraumoperationen. Bemerkung 3.10 Der Begriff Konvergenz ist in der Mathematik festgelegt. Ihn einfach umzudefinieren birgt die Gefahr vieler Missverständnisse. So ist etwa die Definition (ak )k∈N ⊂

R

konvergiert gegen a ∈

R,

falls a1 = a.

ziemlicher Unsinn und besitzt sicher nicht die bekannten und intuitiv erwarteten Eigenschaften eines Grenzwertbegriffs. Von Konvergenz sollte man deshalb nur sprechen, wenn es eine Norm, Metrik oder zumindest Topologie gibt, die diese Konvergenz induziert. Wir werden die zu Definition 3.9 gehörige Topologie hier weder explizit angeben noch verwenden. Es ist aber wichtig festzustellen, dass es sie gibt. Satz 3.11 (a) Es gibt eine Topologie auf X, die die Konvergenz aus Definition 3.9 induziert und die X zu einem topologischen Vektorraum macht, d.h. in dieser Topologie sind die Vektorraumoperationen stetig und einelementige Mengen sind abgeschlossen. (b) Für (xn )n∈N ⊂ X folgt aus xn → x auch xn * x. (c) Schwach konvergente Folgen (xn )n∈N ⊂ X sind beschränkt. (d) Ist A ∈ L(X, Y ) und (xn )n∈N ⊂ X, xn * x ∈ X, so gilt Axn * Ax ∈ Y . (e) Ist K ∈ K(X, Y ) und (xn )n∈N ⊂ X, xn * x ∈ X, so gilt Kxn → Kx. Beweis: (a) [Rudin, Chp. 3] (b) klar. (c) Für die Abbildungen

R

An ∈ L(X, ),

An ξ := (xn , ξ)

gilt offenbar kAn kL(X,R) = kxn kX . (An ↔ xn ist gerade der Riesz-Isomorphismus, vgl. Bemerkung 2.5). Schwache Konvergenz der xn bedeutet punktweise Konvergenz der An , so dass die Beschränktheit aus Satz 3.8 folgt. (d) Für alle y ∈ Y gilt (Axn , y) = (xn , A∗ y) → (x, A∗ y) = (Ax, y), also Axn * Ax.

32

3.2. SCHWACHE KONVERGENZ (e) Nach (d) konvergiert Kxn * Kx. Da nach (c) (xn ) beschränkt ist, konvergiert eine Teilfolge von jeder Teilfolge von (Kxn )n∈N . Aus (b) und der Eindeutigkeit des schwachen Limes folgt, dass eine Teilfolge jeder Teilfolge gegen Kx konvergiert. Außerhalb jeder Umgebung von Kx können also nur endlich viele Kxn liegen, so dass y = limn→∞ Kxn folgt.  Satz 3.12 In einem Hilbertraum X besitzt jede beschränkte Folge eine schwach konvergente Teilfolge. Beweis: Sei (xk )k∈N ⊂ X beschränkt. Nach Satz 2.6 ist V := hx1 , x2 , . . .i ein Hilbertraum.

N

R

Für jedes k ∈ ist (x1 , xk ), (x2 , xk ), . . . eine beschränkte Folge in . Nach BolzanoWeierstrass existiert also eine Teilfolge (x1,n )n∈N von (xk )k∈N , so dass (x1,n , x1 ) konvergiert und davon wiederum eine Teil-Teilfolge (x2,n )n∈N , so dass (x2,n , x2 ) konvergiert, u.s.w. Für die Diagonalfolge (vn )n∈N := (xn,n )n∈N gilt also, dass (vn , xk ) für jedes k konvergiert. Wir definieren An ∈ L(V, ) = V 0 , An : x 7→ (vn , x),

R

dann folgt kAn kV 0 = kvn kV ≤ supk∈N kxk kX < ∞ und aufgrund der Linearität konvergiert An x für alle x ∈ hx1 , x2 , . . .i.

R

Aus Satz 3.8 folgt, dass ein A ∈ L(V, ) existiert mit Ax = lim An x ∀x ∈ V n→∞

und nach dem Satz von Riesz existiert v ∈ V mit (v, x) = Ax für alle x ∈ V . Schließlich ist für alle x ∈ X, PV x ∈ V und x − PV x ∈ V ⊥ , also (vn , x) = (vn , PV x) + (vn , x − PV x) = (vn , PV x) = An PV x → APV x = (v, PV x) = (v, PV x) + (v, x − PV x) = (v, x). Die Teilfolge (vn )n∈N von (xk )k∈N konvergiert also schwach gegen v ∈ V ⊆ X.



Korollar 3.13 Ist (xn )n∈N ⊂ X beschränkt, so besitzt (Kxn )n∈N eine konvergente Teilfolge, deren Grenzwert in R(K) liegt. Beweis: Nach Satz 3.12 existiert eine Teilfolge (xnk )k∈N mit xnk * x und aus Satz 3.11(e) folgt limk→∞ Kxnk = Kx 

33

KAPITEL 3. REGULARISIERUNG LINEARER PROBLEME

3.3 Parameterwahlstrategien In diesem Abschnitt sei K stets nicht-degeneriert. Satz 3.14 Ist (Rα )α>0 eine Regularisierung von K + , dann gilt (a) kRα kL(Y,X) → ∞ für α → 0. (b) Ist zudem kKRα kL(Y ) glm. beschränkt in α, dann gilt für alle y 6∈ D(K + ) kRα ykX → ∞

für α → 0.

Nach Satz 3.3 gilt (b) für regularisierende Filter. Beweis: (a) Angenommen es existiert eine (glm. in α) beschränkte Teilfolge von Rα . Dann wäre K + stetig nach dem Satz 3.8 (Banach-Steinhaus). Dann wäre aber nach Satz 2.33 K degeneriert. (b) Angenommen es existiert eine beschränkte Teilfolge kRα ykX . Nach Korollar 3.13 existiert dann eine Teilfolge von KRα y, die gegen ein η ∈ R(K) konvergiert. Außerdem konvergiert KRα punktweise auf D(K + ) gegen KK + = PR(K) . Aus der Beschränkheit von KRα folgt mit Satz 3.8 (Banach-Steinhaus), auch KRα y → PR(K) y. Es gilt also PR(K) y = η ∈ R(K) und damit y ∈ R(K)+R(K)⊥ = D(K + ).  Bemerkung 3.15 Für die Abweichung von xδα := Rα y δ vom gesuchten K + y gilt

δ













− K + y ≤ xδα − Rα y + Rα y − K + y







= Rα (y δ − y) + Rα y − K + y Der erste Summand Rα (y δ − y) beschreibt den fortgepflanzten Datenfehler. Gemäß Satz 3.14 konvergiert er (für y δ 6∈ D(K + )) für α → 0 gegen unendlich. Der zweite Summand beschreibt den durch die Regularisierung eingeführten Verfahrensfehler. Er konvergiert für α → 0 gegen Null. δ Das Parameterwahlproblem besteht darin,

α (in Abhängigkeit von δ und y ) so zu wäh

len, dass der Gesamtfehler xδα − K + y möglichst klein wird und für δ → 0 gegen Null konvergiert.

Definition 3.16 Eine Funktion α:

R+ × Y → R+,

heißt Parameterwahlstrategie.

34

(δ, y δ ) → α(δ, y δ )

3.3. PARAMETERWAHLSTRATEGIEN Analog heißt für Regularisierungen (Rk )k∈N eine Funktion k(δ, y δ ) Parameterwahlstrategie oder auch Stoppregel. Eine Kombination von Regularisierung und Parameterwahlstrategie heißt Regularisierungsverfahren, falls für jedes y ∈ D(K + ) Rα(δ,yδ ) y δ → K + y





für δ → 0, y δ − y ≤ δ.

Hängt α nur von δ ab, so sprechen wir von einer a priori Parameterwahl sonst von einer a posteriori Parameterwahl. Satz 3.17 Sei (Rα )α>0 eine Regularisierung. Dann erzeugt jede Parameterwahlstrategie α = α(δ) mit α(δ) → 0, kRα k δ → 0 (für δ → 0) ein Regularisierungsverfahren. Beweis: Wie in Bemerkung 3.15 gilt für y ∈ D(K + )

δ







{z

}

|

− K + y

≤ kRα k

y δ − y

+

Rα y − K + y

, |

≤kRα kδ→0

{z

→0 für α→0

}



womit die Behauptung folgt.

Für allgemeine Filter haben wir kRα k schon in Satz 3.3 abgeschätzt, für regularisierende Filter lässt sich dies noch verschärfen: Satz 3.18 Für regularisierende Filter (Fα )α>0 ist kRα k ≤ C sup n∈

mit C = supα>0,λ∈(0,kKk2 ]

q

q

N

|Fα (σn2 )|

≤C

sup

q

|Fα (λ)|

λ∈(0,kKk2 ]

λ|Fα (λ)|.

Beweis: Es ist 2

kRα yk = Rα y,

∞ X

!

Fα (σn2 )σn (un , y)vn =

n=1

=

∞ X

∞ X

Fα (σn2 )σn (un , y)(Rα y, vn , )

n=1

Fα (σn2 )(un , y)(KRα y, un ) ≤ sup |Fα (σn2 )| kKRα k kyk2 .

n=1

und aus Satz 3.3 folgt kKRα k ≤ C 2 .

N

n∈



35

KAPITEL 3. REGULARISIERUNG LINEARER PROBLEME Beispiel 3.19 (a) Für die abgeschnittene Singulärwertzerlegung (

Fα (λ) := ist kRα k ≤ C σ1n mit σn ≥



λ−1 : λ ≥ α 0: λ σn+1 .

2 Da σn → 0 für n → ∞ erzeugt jede Parameterwahlstrategie α(δ) := σn(δ) mit

n(δ) → ∞,

δ σn(δ)

→0

ein Regularisierungsverfahren. √ Mit der Wahl σn(δ) ≥ δ > σn(δ)+1 folgt also Rα(δ) y δ =

X √

σk−1 (uk , y δ )vk → K + y

für δ → 0.

σk ≥ δ

(b) Für die Tikhonov-Regularisierung Fα (λ) :=

1 λ+α

gilt Rα ≤ C √1α , so dass jede Parameterwahl mit α(δ) → 0

und

δ2 → 0, α(δ)

zu einem Regularisierungsverfahren führt. Mit der Wahl α(δ) := δ folgt also Rα(δ) y δ = (K ∗ K + δI)−1 K ∗ y δ → K + y

für δ → 0.

Satz 3.20 (Bakushinskii) Sei (Rα )α>0 eine Regularisierung. Es existiert keine Parameterwahl α = α(y δ ), so dass für alle y ∈ D(K + ) Rα(yδ ) y δ → K + y für δ → 0. (3.3) Beweis: Angenommen, es gibt eine solche Parameterwahl. Definiere R : Y → X,

Rη := Rα(η) η.

Für jedes y ∈ D(K + ) folgt mit y δ := y aus (3.3), dass Ry = K + y, d.h. R|D(K + ) = K + Außerdem folgt aus (3.3) für jede Folge y δ → y, dass Ry δ = Rα(yδ ) y δ → K + y = Ry, d.h. R (und damit K + ) ist stetig auf D(K + ). Dies widerspricht Satz 2.33.

36



3.4. ORDNUNGSOPTIMALITÄT Bemerkung 3.21 Satz 3.20 zeigt dass die Kenntnis des Datenfehlers notwendig ist für eine konvergenete Parameterwahlstrategie. In der Praxis ist dieser jedoch nicht immer bestimmbar und so haben sich neben den mathematisch rigoros gerechtfertigten auch heuristische Parame

terwahlstrategie etabliert. Ein Beispiel hierfür ist das L-Kurven-Kriterium, in dem xδα



als Funktion von y δ − Kxδα (doppeltlogarithmisch) geplottet wird und der zum linken „Eckpunkt“ gehörige Parameter α verwendet wird (vgl. das in der Vorlesung gemalte Bild).

3.4 Ordnungsoptimalität 3.4.1 Grundlagen und Definition Mit der abgeschnittenen SVD und dem Tikhonov-Verfahren haben wir bereits zwei Verfahren gefunden, für die bei richtiger Parameterwahl Rα y δ gegen K + y konvergiert. Nun wenden wir uns der Frage der Konvergenzgeschwindigkeit zu. Dafür betrachten wir den Fehler

n



E(y, δ) := sup K + y − Rα(δ,yδ ) y δ

X



o

: y δ ∈ Y, y − y δ ≤ δ . Y

Für jedes Regularisierungsverfahren gilt per Definition lim E(y, δ) = 0 ∀y ∈ D(K + ).

δ→0

Leider ist diese Konvergenz nicht gleichmäßig in y und damit beliebig langsam: Satz 3.22 Sei K nicht degeneriert und Rα(δ,yδ ) ein Regularisierungsverfahren für K + . Für δ → 0 konvergiert

sup

E(y, δ) nicht gegen Null.

y∈D(K + ), kyk≤1

Beweis: Angenommen, sup

E(y, δ) → 0

für δ → 0.

y∈D(K + ), kyk≤1

Sei (ηk )k∈N ⊂ D(K + ) eine Folge mit ηk → η ∈ D(K + ). Dann folgt mit y := ηk − η, δ := kηk − ηk, y δ := 0 für k → ∞

+

K (ηk







− η) = K + y − Rα(δ,yδ ) y δ ≤ X

sup

E(y, δ) → 0,

y∈D(K + ), kyk≤1

d.h. K + ηk → K + η. K + ist also stetig auf D(K + ). Dies widerspricht Satz 2.33.



Schranken für die Konvergenzgeschwindigkeit E(y, δ) → 0 können also nur auf Teilräumen von D(K + ) gelten.

37

KAPITEL 3. REGULARISIERUNG LINEARER PROBLEME Definition 3.23 Für ν ∈ , ν > 0 definieren wir (K ∗ K)ν ∈ L(X) durch

R

(K ∗ K)ν x =

∞ X

σn2ν (vn , x)vn ,

∀x ∈ X.

n=1

Außerdem definieren wir |K|ν := (K ∗ K)ν/2 , insbesondere also |K| = (K ∗ K)1/2 . Satz 3.24 (a) (K ∗ K)ν ist selbstadjungiert und kompakt. (b) Für ν ∈

N ist

(K ∗ K)ν = (K ∗ K) · . . . · (K ∗ K) . |

{z

}

ν mal

(c) Für ν, µ ≥ 0 ist (K ∗ K)ν (K ∗ K)µ = (K ∗ K)ν+µ = (K ∗ K)µ (K ∗ K)ν . (d) Für ν ≥ 0 ist (K ∗ K)ν+1 = K ∗ K(K ∗ K)ν = K ∗ (KK ∗ )ν K.



(e) Für ν ≥ 0, x ∈ X ist kK(K ∗ K)ν xk =

(K ∗ K)ν+1/2 x

. Beweis: (a) Für x, ξ ∈ X ist ((K ∗ K)ν x, ξ) =

∞ X

σn2ν (vn , x)(vn , ξ) = (x, (K ∗ K)ν ξ).

n=1

Da σn2 die Eigenwerte von K ∗ K sind, stimmt dies für ν ∈ üblichen Potenz überein.

N offenbar mit der

Wie in Bemerkung 2.31 ist

N

X

σn2ν (vn , x)vn

(K ∗ K)ν x −

2ν ≤ σN kxk ,

n=1

also ist (K ∗ K)ν Grenzwert degenerierter Operatoren und damit nach Satz 2.20 kompakt. (b) folgt, da σn2 die Eigenwerte von K ∗ K sind. (c) folgt aus (vn , (K ∗ K)µ x) = σn2µ (vn , x). (d) folgt aus (c) und K ∗ (KK ∗ )ν Kvn = K ∗ (KK ∗ )ν σn un = K ∗ σn2ν+1 un = σn2(ν+1) vn = (K ∗ K)ν+1 vn .

38

3.4. ORDNUNGSOPTIMALITÄT (e) folgt aus (a),(c) und kK(K ∗ K)ν xk2 = ((K ∗ K)ν K ∗ K(K ∗ K)ν x, x) 

2





= (K ∗ K)ν+1/2 x, (K ∗ K)ν+1/2 x = (K ∗ K)ν+1/2 x .



Satz 3.25 (Interpolationsungleichung) Für alle ν, µ > 0 und x ∈ X gilt



µ

ν

k|K|ν xkX ≤ |K|ν+µ x ν+µ kxkXν+µ . X

Beweis: Wir schreiben ν

k|K|

xk2X

=

∞ X

σn2ν (vn , x)2

=

n=1

∞ X

an b n

n=1

mit 1 ν := p ν+µ 1 µ := q ν+µ

an := σn2ν (vn , x)2/p , bn := (vn , x)2/q , und wenden die Höldersche Ungleichung an: ν

k|K|

xk2X

=

∞ X

an b n ≤

n=1 ∞ X

=

∞ X

!1/p

∞ X

apn

n=1

n=1

!1/p

∞ X

σn2(ν+µ) (vn , x)2

n=1



!1/q

bqn !1/q 2

(vn , x)

n=1

2 ν

ν+µ

= |K|ν+µ x

µ

kxk2 ν+µ .



Korollar 3.26 Sind x1 , x2 ∈ {x = |K|ν z, kzk ≤ ρ} und kKx1 − Kx2 k ≤ δ, dann ist ν

1

kx1 − x2 k ≤ δ ν+1 (2ρ) ν+1 . Beweis: Mit µ = 1 folgt aus Satz 3.25



ν

1

kx1 − x2 k = k|K|ν (z1 − z2 )k ≤ |K|ν+1 (z1 − z2 ) ν+1 kz1 − z2 k ν+1 . Außerdem ist kz1 − z2 k ≤ 2ρ und nach Satz 3.24(e) gilt

|K|ν+1 (z1











− z2 ) = (K ∗ K)ν/2+1/2 (z1 − z2 ) = K(K ∗ K)ν/2 (z1 − z2 ) = kK|K|ν (z1 − z2 )k = kKx1 − Kx2 k .



39

KAPITEL 3. REGULARISIERUNG LINEARER PROBLEME Korollar 3.26 motiviert, die Konvergenzgeschwindigkeit auf den folgenden Unterräumen von D(K + ) zu untersuchen Definition 3.27 Zu ν > 0 definieren wir ν

Xν := R(|K| )

kxk2ν

mit der Norm

:=

∞ X

σn−2ν (x, vn )2 .

n=1

Offenbar gilt Xν = {|K|ν z : z ∈ N (K)⊥ } ⊆ N (K)⊥ und





kxkν = PN (K)⊥ z

∀z ∈ X : |K|ν z = x.

Bemerkung 3.28 Wir betrachten die Konvergenzgeschwindigkeit nun auf den Räumen Xν , genauer gesagt sup

E(y, δ),

y∈D(K + ), kK + ykν ≤ρ

wobei wir hier und im Folgenden die Forderung kxkν ≤ ρ auch immer x ∈ Xν und damit insbesondere x ∈ N (K)⊥ impliziere. Die zusätzliche Forderung an K + y können wir als eine abstrakte Glattheitsannahme interpretieren. Für den Integraloperator A : L2 (0, 1) → L2 (0, 1),

Af :=

Z x

f (s) ds

0

bedeutet A+ g ∈ Xν zum Beispiel, dass die wahre Ableitung durch mehrfaches Integrieren entstanden ist. Definition und Satz 3.29 Ist K nicht degeneriert, so gilt für jedes Regularisierungsverfahren E(y, δ) ≥ eν (δ, ρ) :=

sup y∈D(K + ), kK + ykν ≤ρ

sup kxkν ≤ρ,kKxkY ≤δ

Für alle ρ > 0 existiert eine Folge δn → 0 mit ν

1

eν (δn , ρ) ≥ δnν+1 ρ ν+1 . Ein Regularisierungsverfahren für das ein C ≥ 1 existiert mit sup

ν

1

E(y, δ) ≤ Cδ ν+1 ρ ν+1

y∈D(K + ), kK + ykν ≤ρ

heißt deshalb ordnungsoptimal (für C = 1 heißt es optimal).

40

kxkX .

3.4. ORDNUNGSOPTIMALITÄT Beweis: Für jedes x ∈ Xν ⊆ N (K)⊥ mit kxkν ≤ ρ und kKxk ≤ δ gilt



kxk = K + Kx − Rα(δ,yδ ) 0 ≤ E(Kx, δ), also auch sup kxkν ≤ρ,kKxkY ≤δ

kxkX ≤

E(Kx, δ) ≤

sup

sup

E(y, δ),

y∈D(K + ), kK + ykν ≤ρ

kxkν ≤ρ,kKxkY ≤δ

womit die erste Behauptung folgt. Sei nun ρ > 0. Wir setzen δn := ρσnν+1 und xn := ρ|K|ν vn . Dann gilt kxn kν = ρ, δn → 0 1 und außerdem folgt mit σn = (δn /ρ) ν+1 ν

ν

ν

1

xn = ρ|K|ν vn = ρσnν vn = δnν+1 ρ1− ν+1 vn = δnν+1 ρ ν+1 vn , ν

1

also kxn k = δnν+1 ρ ν+1 und kKxn k ≤ δn . Insgesamt ist also ν

eν (δn , ρ) =

sup kxkν ≤ρ,kKxkY ≤δn

1

kxkX ≥ kxn kX = δnν+1 ρ ν+1 .



Bemerkung 3.30 Definition 3.29 lässt offen, ob das Regularisierungsverfahren von ρ und ν abhängen darf oder nicht. Dementsprechend spricht man auch von ordnungsoptimal bezüglich Xν falls für ein festes ν ∃C ≥ 1 : ∀ρ > 0

sup

ν

1

E(y, δ) ≤ Cδ ν+1 ρ ν+1

y∈D(K + ), kK + ykν ≤ρ

für alle hinreichend kleinen δ > 0 und von ordnungsoptimal bezüglich Xν und ρ, falls für feste ν, ρ > 0 ν ∃C > 0 : sup E(y, δ) ≤ Cδ ν+1 y∈D(K + ), kK + ykν ≤ρ

für alle hinreichend kleinen δ > 0.

3.4.2 Ordnungsoptimalität für a-priori Parameterwahlstrategien Wir untersuchen jetzt, mit welcher a-priori Parameterwahlstrategie wir Ordnungsoptimalität für durch regularisierende Filter erzeugte Verfahren erhalten. Satz 3.31 Sei (Fα )α>0 ein regularisierender Filter und Rα = Fα (K ∗ K)K ∗ die zugehörige Regularisierung. Wir setzen ων (α) :=

sup

λν/2 |1 − λFα (λ)| < ∞

∀α > 0, ν > 0.

λ∈(0,kKk2 ]

41

KAPITEL 3. REGULARISIERUNG LINEARER PROBLEME Dann gilt für jedes x = K + y mit y ∈ D(K + ), x ∈ Xν und kxkν ≤ ρ kx − xα k ≤ ων (α)ρ kKx − Kxα k ≤ ων+1 (α)ρ wobei xα = Rα y, α > 0. Beweis: Beachte zunächst, dass nach Definition 3.2 |1 − λFα (λ)| < ∞,

sup α>0,λ∈(0,kKk2 ]

also ων (α) wohldefiniert ist. Für x = K + y ist Kx − y ⊥ R(K) und damit (y, un ) = (Kx, un ) = (x, K ∗ un ) = σn (x, vn ). Für alle x = K + y ∈ Xν mit kxkν ≤ ρ folgt also für alle α > 0 2

kx − xα k =

+

K y

2 − Rα y

=

∞ 

X

σn−1



Fα (σn2 )σn

n=1

=

∞  X

σn−1 − Fα (σn2 )σn

2



2

(y, un )vn

(y, un )2

n=1

2



≤

λν/2 |1 − λFα (λ)|

sup 2

λ∈(0,kKk ]

= ων (α)2

∞ X

∞ X

σn−2ν σn−2 (y, un )2

n=1

σn−2ν (x, vn )2 = ων (α)2 kxk2ν ≤ ων (α)2 ρ2 .

n=1

Wegen Kx − Kxα =

∞  X n=1



σn−1 − Fα (σn2 )σn (y, un ) Kv | {z n}

=σn un

folgt analog auch die zweite Abschätzung.



Satz 3.32 Die Voraussetzungen von Satz 3.31 gelten weiterhin. Außerdem gelte für ein ν > 0 und hinreichend kleine α ων (α) ≤ Cν αν/2 und |Fα (λ)| ≤ CF α−1 .

sup 2

λ∈(0,kKk ]

42

3.4. ORDNUNGSOPTIMALITÄT α(δ) sei eine Parameterwahlstrategie mit δ c ρ

!

2 ν+1

δ ≤ α(δ) ≤ C ρ

!

2 ν+1

(3.4)

für hinreichend kleine δ. Dann ist (Rα )α>0 mit dieser PWS ein ordnungsoptimales Regularisierungsverfahren bezüglich Xν und ρ. Beweis: Aus Satz 3.18 und der Voraussetzung folgt



Rα(δ)

≤ CR

q

q

|Fα(δ) (λ)| ≤ CR CF α(δ)−1/2 .

sup λ∈(0,kKk2 ]

Für δ → 0 konvergiert α(δ) → 0



Rα(δ) δ

und

−1

≤ C 0 δ ν+1 δ → 0,

nach Satz 3.17 ist also (Rα )α>0 mit dieser PWS ein Regularisierungsverfahren.



Sei nun y ∈ D(K + ) mit x = K + y ∈ Xν und kxkν ≤ ρ, sowie y δ ∈ Y mit y δ − y ≤ δ. Für hinreichend kleine δ folgt mit Satz 3.31

+

K y











− Rα(δ) y δ ≤ K + y − Rα(δ) y + Rα(δ) y − Rα(δ) y δ



≤ ων (α(δ))ρ + Rα( δ) δ q

≤ Cν α(δ)ν/2 ρ + CR CF α(δ)−1/2 δ ν

−ν

q

−1

1

≤ Cν C ν/2 δ ν+1 ρ ν+1 ρ + CR CF c−1/2 δ ν+1 ρ ν+1 δ ν

1

≤ C 00 δ ν+1 ρ ν+1 . (Rα )α>0 ist also mit dieser PWS ordnungsoptimal.



Definition 3.33 Sei (Fα )α>0 ein regularisierender Filter, der für hinreichend kleine α |Fα (λ)| ≤ CF α−1

sup 2

λ∈(0,kKk ]

erfülle. Das maximale ν0 , so dass für alle ν ∈ (0, ν0 ] ein Cν > 0 existiert mit λν/2 |1 − λFα (λ)| ≤ Cν αν/2

sup 2

λ∈(0,kKk ]

(für hinreichend kleine α) heißt die Qualifikation des Filters.

43

KAPITEL 3. REGULARISIERUNG LINEARER PROBLEME Beispiel 3.34 (a) Für die abgeschnittene Singulärwertzerlegung (

Fα (λ) :=

λ−1 : λ ≥ α, 0: λ < α,

ist supλ∈(0,kKk2 ] |Fα (λ)| ≤ α−1 und für jedes ν > 0 ist (

λ

ν/2

|1 − λFα (λ)| =

0: λ≥α λν/2 : λ < α,

und damit λν/2 |1 − λFα (λ)| ≤ αν/2 .

sup 2

λ∈(0,kKk ]

Der Filter der abgeschnittenen SWZ besitzt also unendliche Qualifikation. Für alle ν, ρ > 0 ergibt sich mit der PWS (3.4) aus Satz 3.32 ein ordnungsoptimales Regularisierungsverfahren. (b) Für die Tikhonov-Regularisierung Fα (λ) :=

1 λ+α

ist supλ∈(0,kKk2 ] |Fα (λ)| ≤ α−1 . Für die Funktion f (λ) := λν/2 |1 − λFα (λ)| =

αλν/2 α+λ

gilt αλν/2 λν/2−1 α ν αλν/2−1 − = f (λ) = 2 α+λ (α + λ)2 (α + λ)2 λν/2−1 α = (αν/2 + (ν/2 − 1)λ) . (α + λ)2 0



ν (α + λ) − λ 2



Für ν ≥ 2 ist f monoton wachsend in λ und damit ν/2

sup

λ 2

λ∈(0,kKk ]

α kKkν |1 − λFα (λ)| = f (kKk ) = α + kKk2

(

2

≥ cα, ≤ Cα

(für hinreichend kleine α). Die Qualifikation kann also nicht größer als 2 sein. Für 0 < ν < 2 ist f maximal an λmax = αν/2(1 − ν/2)−1 , also sup

λν/2 |1 − λFα (λ)| = f (λmax ) =

λ∈(0,kKk2 ]

α(αν/2(1 − ν/2)−1 )ν/2 α + αν/2(1 − ν/2)−1

ν

≤ Cν α 2 . Die Qualifikation ist also ν0 = 2. Für alle 0 < ν ≤ 2 und ρ > 0 ergibt sich mit der PWS (3.4) aus Satz 3.32 ein ordnungsoptimales Regularisierungsverfahren.

44

3.4. ORDNUNGSOPTIMALITÄT

3.4.3 Das Diskrepanzprinzip Bemerkung 3.35 (a) In der Praxis sind die a-priori PWS aus dem letzten Abschnitt nur sehr begrenzt einsetzbar, da oft keine Information darüber vorliegt, in welchem Raum Xν die exakte Lösung x = K + y liegt. Einen Ausweg bietet ein a-posteriori Verfahren, das auf folgender Idee beruht:



Sei Rα eine Regularisierung. Gegeben y δ ∈ Y , δ > 0 mit y δ − y ≤ δ und xδα := Rα y δ misst das Residuum



Kxδα − y δ wie gut die (regularisierte) Lösung zu den beobachteten Daten passt. Offenbar ist es sinnlos hier eine höhere Genauigkeit als δ zu fordern. Die PWS



„Wähle α(y δ , δ) so dass Kxδα(yδ ,δ) − y δ ≈ δ“ heißt Diskrepanzprinzip von Morozov. dicht

(b) Im allgemeinen ist D(K + ) = R(K) + R(K)⊥ ⊂ Y , so dass selbst für exakte Daten und exakte Inversion das Residuum K(K + y) − y

Satz 2.17

=

PR(K) y − y ∈ R(K)⊥

beliebig groß sein kann und das Diskrepanzprinzip keine Lösung besitzen muss. Wir untersuchen deshalb das Diskrepanzprinzip nur für den Fall, dass K dichtes Bild besitzt. Eine naheliegende allgemeine Methode um das Diskrepanzprinzip praktisch umzusetzen, ist es α schrittweise zu verringern bis das Residuum etwa die Größe δ hat. Das dies funktioniert zeigt der folgende Satz. Satz 3.36 K habe dichtes Bild, (Fα )α>0 sei ein regularisierender Filter und (Rα )α>0 sei die zugehörige Regularisierung. Außerdem sei τ > 1 und (αk )k∈N eine streng monoton fallende Nullfolge. Zu jedem

δ

+ δ y ∈ D(K ), δ > 0 und y ∈ Y mit y − y ≤ δ existiert ein k ∗ ∈ , so dass

N



Kxδαk∗







∀k < k ∗ .

− y δ ≤ τ δ < Kxδαk − y δ

Beweis: Wie gehen wie im Beweis von Satz 3.14 vor. Auf D(K + ) konvergiert KRαk gegen KK + = PR(K) . Da nach Satz 3.3 KRαk glm. beschränkt ist, konvergiert nach Banach-Steinhaus (Satz 3.8) (Banach-Steinhaus) KRαk auf ganz Y gegen PR(K) .



Für alle y ∈ D(K + ) = R(K) und y δ ∈ Y , y δ − y ≤ δ folgt, dass











lim Kxδαk − y δ = PR(K) y δ − y δ ≤ y − y δ ≤ δ

k→∞

und damit die Behauptung.



45

KAPITEL 3. REGULARISIERUNG LINEARER PROBLEME Satz 3.37 Zusätzlich zu den Voraussetzungen von Satz 3.36 gelte noch (a) Der Filter erfülle (für hinreichend kleine α) |Fα (λ)| ≤ CF α−1

sup 2

λ∈(0,kKk ]

und habe Qualifikation ν0 . |1 − λFα (λ)|.

sup

(b) τ >

α>0,λ∈(0,kKk2 ]

(c) Für die Nullfolge (αk )k∈N existiere ein q > 0 mit αk+1 > qαk ∀k ∈

N.

Dann erfüllt das gemäß Satz 3.36 umgesetzte Diskrepanzprinzip die Ordnungsoptimalitätsbedingung bezüglich Xν für alle 0 < ν ≤ ν0 − 1, d.h. es existiert Cν > 0, so dass für + + δ alle ρ > 0 und

y ∈ D(K ) mit kK ykν ≤ ρ sowie hinreichend kleine δ > 0 und y ∈ Y mit

y δ − y

< δ gilt

δ

xαk∗

ν



1

− x

=

Rαk∗ y δ − K + y

≤ Cν δ ν+1 ρ ν+1 ,

wobei xδαk∗ := Rαk∗ y δ , x := K + y. Beweis: Beachte wieder zunächst, dass (b) immer erfüllbar ist, da nach Definition 3.2 gilt C :=

|1 − λFα (λ)| < ∞.

sup α>0,λ∈(0,kKk2 ]

Sei nun y ∈ D(K + ) = R(K) mit x = K + y ∈ Xν , d.h. x = |K|ν w und kwk ≤ ρ. Wir schreiben xk := Rαk y und xδk := Rαk y δ . Wir zerlegen wieder



x − xδk∗



≤ kx − xk∗ k +

xk∗ − xδk∗

(3.5)

und schätzen die beiden Summanden einzeln ab: (a) Es ist x − xk ∗ =

∞ X

(1 − Fαk∗ (σn2 )σn2 )σn−1 (y, un )vn

n=1

und σn−1 (y, un ) = σn−1 (Kx, un ) = (x, vn ) = (|K|ν w, vn ) = σnν (w, vn ), also x − xk∗ = |K|ν

∞ X

Satz 3.24

=

(1 − Fαk∗ (σn2 )σn2 )(w, vn )vn .

n=1

|

46

{z

=:ξ

}

(w, |K|ν vn )

3.4. ORDNUNGSOPTIMALITÄT Aus der Interpolationsungleichung (Satz 3.25) folgt deshalb



ν

1

kx − xk∗ k ≤ |K|ν+1 ξ ν+1 kξk ν+1 Für den zweiten Faktor erhalten wir kξk2 ≤ C 2 kwk2 ≤ C 2 ρ2 . und für den ersten Faktor folgt



|K|ν+1 ξ

X

= (|K|(x − xk∗ ), |K|(x − xk∗ ))X = (K ∗ K(x − xk∗ ), (x − xk∗ ))X = kK(x − xk∗ )kY = ky − Kxk∗ kY







≤ y δ − Kxδk∗ + y − y δ − K(xk∗ − xδk∗ ) ≤ τδ



X

+

(1 − Fαk∗ (σn2 )σn2 )(y

−y

n=1

δ



, un )un

≤ (τ + C)δ. Insgesamt ist also ν

ν

1

1

kx − xk∗ k ≤ (τ + C) ν+1 C ν+1 δ ν+1 ρ ν+1 , d.h. der erste Summand in (3.5) erfüllt die Ordnungsoptimalitätsbedingung. (b) Für den zweiten Summanden in (3.5) gilt nach Satz 3.18 und der Voraussetzung

xk∗







− xδk∗ = Rαk∗ (y − y δ ) ≤ kRαk∗ k δ ≤ CR

sup

q

λ∈(0,kKk2 ]

q

−1/2

|Fαk∗ (λ)|δ ≤ CR CF αk∗ δ.

Um αk∗ abzuschätzen, betrachte zunächst k ∗ ≥ 2. Dann erhalten wir aus der Definition des Diskrepanzprinzips



τ δ < Kxδk∗ −1 − y δ ≤

(3.6)

kKxk∗ −1 − yk + K(xδk∗ −1

− xk∗ −1 ) − (y δ − y) .

Wie in (a) folgt

K(xδk∗ −1



− xk∗ −1 ) − (y δ − y) ≤ Cδ,

(3.7)

und kKxk∗ −1 − yk = kK(xk∗ −1 − x)k =



X

ν+1 2 2

σ (1 − F (σ )σ )(w, v )v

α n n ∗ n n n k −1

(3.8)

n=1

ν+1

≤ Cq αk∗2−1 ρ,

47

KAPITEL 3. REGULARISIERUNG LINEARER PROBLEME wobei im letzten Schritt die Bedingung ν ≤ ν0 −1 an die Qualifikation ν0 verwendet wurde. Wir kombinieren (3.6)–(3.8) und erhalten ν+1

τ δ ≤ Cδ + Cq αk∗2−1 ρ, also (beachte τ > C) −1/2 αk∗

≤q

−1/2

−1/2 αk∗ −1

≤q

(τ − C)δ Cq ρ

−1/2

!

−1 ν+1

.

Auch für k ∗ = 1 gilt für hinreichend kleine δ, −1/2

αk ∗

−1/2

= α1

−1/2

≤ α1

−1

1

ρ ν+1 δ ν+1 .

Insgesamt existiert also ein C 0 > 0, so dass

xk∗

ν

1

− xδk∗

≤ C 0 δ ν+1 ρ ν+1 .

Auch der zweite Summand in (3.5) erfüllt also die Ordnungsoptimalitätsbedingung, womit die Behauptung gezeigt ist.  Satz 3.38 K habe dichtes Bild. Ist (Rα )α>0 eine Regularisierung und α(δ, y δ ) eine Parameterwahlstrategie, deren Kombination die Ordnungsoptimalitätsbedingung bezüglich eines Xν , ν > 0 erfüllt, so bildet die Kombination ein Regularisierungsverfahren. Beweis: Sei y ∈ D(K + ) = R(K) und x = K + y. Zu N ∈ xN :=

N X

N definieren wir

(x, vn )vn ,

n=1

und yN = KxN =

N X

σn (x, vn )un =

N X

(y, un )un .

n=1

n=1

Dann gilt kyN − yk ≤ σN kx − xN k , sowie xN ∈ X ν ,

2

kxN k =

N X

−2ν σn−2ν (x, vn )2 ≤ σN kxk2 .

n=1 δ

Ist nun y ∈ Y ,

48

δ

y

− y

δ

y

− yN ≤ y δ − y + ky − yN k ≤ δ + σN kx − xN k .

≤ δ, so ist





3.5. DAS LANDWEBER-VERFAHREN Aus der Ordnungsoptimalität folgt also

δ

xα(δ,yδ )

ν



1

−ν − xN ≤ Cν (δ + σN kx − xN k) ν+1 (σN kxk) ν+1

!

δ + kx − xN k σN

= Cν

ν ν+1

1

kxk ν+1 .

Für δ → 0, wählen wir N (δ) so, dass N → ∞, aber δ/σN → 0. Dann folgt

xα(δ,yδ )





− x



xα(δ,yδ ) − xN

+ kxN − xk → 0 

und damit die Behauptung.

Korollar 3.39 (a) Unter den Voraussetzungen von Satz 3.37 führt ein Filter mit Qualifikation ν0 zusammen mit dem Diskrepanzprinzip für alle 0 < ν ≤ ν0 − 1 zu einem ordnungsoptimalen Regularisierungsverfahren bez. Xν . (b) Die abgeschnitte Singulärwertzerlegung bildet zusammen mit dem Diskrepanzprinzip (mit beliebigem τ > 1) für alle ν > 0 ein ordnungsoptimales Regularisierungsverfahren bez. Xν . (c) Die Tikhonov-Regularisierung bildet zusammen mit dem Diskrepanzprinzip (mit beliebigem τ > 1) für alle 0 < ν ≤ 1 ein ordnungsoptimales Regularisierungsverfahren bez. Xν . Man kann zeigen, dass bei der Tikhonov-Regularisieung mit dem Diskrepanzprinzip tatsächlich nur diese suboptimale Konvergenzordnung möglich ist (im Gegensatz zu den im letzten Abschnitt diskutierten a-priori PWS). Eine Abhilfe bieten verallgemeinerte Diskrepanzprinzipien, siehe z.B. [Rieder, Satz 3.4.2 + Abschnitt 3.5].

3.5 Das Landweber-Verfahren Wir stellen nun noch ein iteratives Regularisierungsverfahren vor, das Landweber-Verfahren. Bemerkung 3.40 Wir schreiben die Normalengleichungen K ∗ Kx = K ∗ y als Fixpunktgleichung x = x − ω(K ∗ Kx − K ∗ y) = x + ωK ∗ (y − Kx) mit einem Dämpfungsparameter ω. (Naheliegend ist: 0 < ω
1 − ωλ ≥ 0, also

R ist beschränkt und für alle λ ∈ (0, kKk2] ist

lim Fm (λ) =

m→∞

1 λ

∀λ ∈ (0, kKk2 ]

und λ|Fm (λ)| = |1 − (1 − ωλ)m | ≤ 2 ∀m ∈

N, λ ∈ (0, kKk2].

Fm ist also ein regularisierender Filter und die Behauptung folgt aus Satz 3.3 und Satz 3.14.  2

Wir verwenden hier und im Folgenden die für kontinuierlich indizierte Familien von Funktionen (Fα )α>0 und Operatoren (Rα )α>0 definierten Begriffe analog auch für diskret indizierte (Fm )m∈N und (Rm )m∈N . Offenbar übertragen sich die Ergebnisse aus den letzten Abschnitten, indem wir 1 setzen. α= m

50

3.5. DAS LANDWEBER-VERFAHREN Mit den Ergebnissen aus dem letzten Abschnitt liegt es nahe, als Parameterwahlstrategie (bzw. Stoppregel) die Iteration solange durchzuführen, bis das greift,

Diskrepanzprinzip

δ δ d.h. mit einem τ > 1 bestimmen wir zu y ∈ R(K), y ∈ Y , y − y < δ den Stoppindex m∗ ∈ so, dass für xδm = Rm y δ

N



Kxδm∗







− y δ ≤ τ δ < Kxδm − y δ ,

∀m ∈ {0, 1, . . . , m∗ − 1}.

(Die Existenz eines solchen m∗ folgt aus Satz 3.36.) Satz 3.42 K habe dichtes Bild und es sei τ > 1. Das Landweber-Verfahren (Rm )m∈N bildet zusammen mit dem Diskrepanzprinzip für alle ν > 0 ein ordnungsoptimales Regularisierungsverfahren bezüglich Xν . Beweis: Wir wenden die Ergebnisse aus Abschnitt 3.4 mit αm := m1 an. Zuerst bemerken wir, dass −1 sup |Fm (λ)| ≤ ωm = ωαm . λ∈(0,kKk2 ]

und |1 − λFm (λ)| = (1 − ωλ)m ≤ e−ωλm ≤ 1 < τ

∀m ∈

N, λ ∈ (0, kKk2].

Außerdem ist für f (λ) := λν/2 e−ωλm die Ableitung gegeben durch ν ν −λ , f (λ) = λν/2−1 e−ωλm − ωmλν/2 e−ωλm = λν/2−1 e−ωλm ωm 2 2ωm 

0



so dass für alle ν > 0 sup λ∈(0,kKk2 ]

λν/2 |1 − λFα (λ)| ≤

sup

f (λ) ≤ f



λ∈(0,kKk2 ]

≤ Cν

ν 2ωm



1 ν/2 = Cν αm . mν/2

Der Filter Fm (λ) des Landweber-Verfahrens besitzt also unendliche Qualifikation. m Schließlich ist αm+1 /αm = m+1 ≥ 12 und damit sind alle Voraussetzungen von Satz 3.37 erfüllt. Es folgt, dass die Ordnungsoptimalitätsbedinung für alle ν > 0 erfüllt ist und aus Satz 3.38 folgt damit die Behauptung. 

Wir zeigen noch zwei nützliche Monotonie-Eigenschaften des Landweber-Verfahrens und schätzen die zur Erfüllung des Diskrepanzprinzips nötige Iterationszahl ab. Satz 3.43

Sei y ∈ R(K), δ > 0, y δ ∈ Y mit

y − y δ

≤ δ und xδm = Rm y δ die Landweber-Iterierten

51

KAPITEL 3. REGULARISIERUNG LINEARER PROBLEME (a) Die Residuen der Landweber-Iteration sind monoton fallend

Kxδm+1





− y δ



Kxδm − y δ

∀m ∈

N.

(b) Gilt für das Residuum

Kxδm



− y δ > 2δ,

so verringert eine weitere Landweber-Iteration den Fehler

+

K y





− xδm+1

<

K + y − xδm

.

Beweis: (a) Da kI − ωK ∗ Kk ≤ 1 folgt die Behauptung aus Kxδm+1 − y δ = K((I − ωK ∗ K)xδm + ωK ∗ y δ ) − y δ = (I − ωK ∗ K)(Kxδm − y δ ). (b) Wir setzen x := K + y. Es gilt

2

x − xδm+1

2

= x − xδm − ωK ∗ (y δ − Kxδm )

2  =

x − xδm

− 2ω y − Kxδm , (y δ 

− Kxδm )





+ ω y δ − Kxδm , ωKK ∗ (y δ − Kxδm )

2







= x − xδm + ω y δ − Kxδm , (ωKK ∗ − I)(y δ − Kxδm ) 

+ ω y δ − Kxδm − 2y + 2Kxδm , y δ − Kxδm



Für η := y δ − Kxδm gilt nach Voraussetzung 



((ωK ∗ K − I)η, η) = ω kKηk2 − kηk2 ≤ ω kKk2 − 1 kηk2 ≤ 0. Außerdem ist 

y δ − Kxδm − 2y + 2Kxδm , y δ − Kxδm 





2



= 2 y δ − y, y δ − Kxδm − y δ − Kxδm 









≤ 2δ − y δ − Kxδm y δ − Kxδm < 0, so dass insgesamt 

52



x − xδm+1



<

x − xδm

. 

3.5. DAS LANDWEBER-VERFAHREN Bemerkung 3.44 Satz 3.43 zeigt noch einmal deutlich das in Abschnitt 3.3 diskutierte typische Verhalten schlecht-gestellter Probleme. Für ein festes y δ 6∈ R(K) verbessert jede LandweberIteration das Residuum, d.h. mit jeder Iteration passt die berechnete Lösung xδm besser zu den beobachteten Daten y δ .



Die ersten Iterationen führen auch zu einer Reduzierung des wahren Fehlers x − xδm . Aufgrund der Schlechtgestelltheit des Problems schlägt diese sogenannte Semikonvergenz

dann aber um in Divergenz, x − xδm → ∞, vgl. Satz 3.41. Ein (für δ → 0) konvergentes Verfahren erhält man nicht durch bestmöglichen „datafit“, sondern durch geschickten vorzeiten Abbruch der Iteration (etwa entsprechend dem Diskrepanzprinzip)! Zum Abschluss dieses Abschnitts schätzen wir die zur Erfüllung des Diskrepanzprinzips nötige Iterationszahl ab. Satz 3.45 Sei y ∈ R(K) und τ > 1. Es existiert ein C > 0, so dass für alle (hinreichend kleinen)

δ > 0 und y δ ∈ Y mit y − y δ ≤ δ das Diskrepanzprinzip einen Abbruchindex m∗ (δ, y δ ) liefert mit m∗ (δ, y δ ) ≤ Cδ −2 . Beweis: Seien xm = Rm y die Landweber-Iterierten zu exakten Daten y und x = K + y. Es ist kx − xk k2 − kx − xk+1 k2 = kx − xk k2 − kx − xk − ωK ∗ (y − Kxk )k2 = 2 (x − xk , ωK ∗ (y − Kxk )) − ω 2 (K ∗ (y − Kxk ), K ∗ (y − Kxk )) = 2ω (y − Kxk , y − Kxk ) − ω 2 (KK ∗ (y − Kxk ), y − Kxk ) = ω (y − Kxk , (I − ωKK ∗ )(y − Kxk )) + ω ky − Kxk k2 ≥ ω ky − Kxk k2 , wobei wir im letzten Schritt ausgenutzt haben, dass (wie im Beweis von Satz 3.43(b)) 1 I − ωKK ∗ wegen ω ≤ kKk 2 positiv semidefinit ist. Summation ergibt zusammen mit Satz 3.43(a) kx − x1 k2 − kx − xm+1 k2 =

m  X

kx − xk k2 − kx − xk+1 k2

k=1 m X

≥ω



ky − Kxk k2 ≥ ωm ky − Kxm k2

k=1

und damit kx − x1 k2 ≥ ωm ky − Kxm k2 .

53

KAPITEL 3. REGULARISIERUNG LINEARER PROBLEME Wie im Beweis von Satz 3.43(a) ist y δ − Kxδm = (I − ωK ∗ K)(y δ − Kxδm−1 ) = . . . = (I − ωK ∗ K)m y δ und genauso ergibt sich y − Kxm = (I − ωK ∗ K)m y. Damit ist

δ

y







− Kxδm = (I − ωK ∗ K)m y δ



≤ k(I − ωK ∗ K)m yk + (I − ωK ∗ K)m (y δ − y) ≤ ky − Kxm k + k(I − ωK ∗ K)km δ ≤ (ωm)−1/2 kx − x1 k + δ. Das Diskrepanzprinzip wählt den Stoppindex m∗ ∈

δ

y − Kxδm ≤ τ δ gilt. Es ist also m∗ ≤ m

für alle m ∈

N

als den ersten Index für den

N mit kx√−ωmx1k + δ ≤ τ δ.

Es ist also 2

m∗ ≤ m

für alle m ∈

− x1 k −2 N mit m ≥ kx δ =: C 0 δ −2 . ω(τ − 1)2

und damit gilt m∗ ≤ C 0 δ −2 + 1 ≤ Cδ −2 mit C := C 0 + 1 für hinreichend kleine δ > 0.

54



4 Nicht-lineare Probleme Wir beenden die Vorlesung mit einem kurzen Ausblick auf die Behandlung schlecht gestellter nicht-linearer Probleme. Dazu betrachten wir die Gleichung Φ(x) = y,

(4.1)

wobei in diesem Kapitel stets Φ : D(Φ) ⊆ X → Y ein nicht-linearer, stetiger Operator mit Definitionsbereich D(Φ) und X und Y Hilberträume seien.

4.1 Lokale Schlechtgestelltheit Definition 4.1 Sei x ∈ D(Φ). Die nichtlineare Gleichung (4.1) heißt lokal schlecht gestellt in x, falls es zu jedem r > 0 eine Folge (xn )n∈N ⊆ Br (x) ∩ D(Φ) gibt, so dass Φ(xn ) → Φ(x),

xn 6→ x.

aber

Anderenfalls heißt die Gleichung lokal gut gestellt. Im linearen Fall trat Schlechtgestelltheit bei der Invertierung kompakter Operatoren auf. Ein ähnliches Resultat gilt auch hier. Definition 4.2 (a) Φ heißt kompakt, wenn das Bild Φ(U ) jeder beschränkten Mengen U ⊆ D(Φ) relativ kompakt in Y ist. Beachte, dass für dim Y < ∞ jede beschränkte Funktion kompakt ist. Kompakte nicht-lineare Operatoren müssen also nicht stetig sein. (b) Ein (nicht-linearer) Operator heißt vollstetig, wenn er kompakt und stetig ist. (c) Φ heißt schwach folgenabgeschlossen, wenn für alle (xn )n∈N ⊆ D(Φ) gilt (vgl. Abschnitt 3.2): xn * x

und

Φ(xn ) * y

=⇒

x ∈ D(Φ)

und

Φ(x) = y.

Satz 4.3 Sei Φ vollstetig und schwach folgenabgeschlossen. Für (xn )n∈N ⊆ D(Φ), xn * x gilt x ∈ D(Φ)

und

Φ(xn ) → Φ(x).

55

KAPITEL 4. NICHT-LINEARE PROBLEME Beweis: Nach Satz 3.11(c) ist jede schwach konvergente Folge (xn )n∈N ⊆ D(Φ), xn * x beschränkt. Eine Teilfolge von jeder Teilfolge von Φ(xn ) konvergiert also stark (und damit auch schwach, vgl. Satz 3.11(b)) gegen ein y ∈ Y . Da Φ schwach folgenabgeschlossen ist folgt x ∈ D(Φ) und y = Φ(x). Eine Teilfolge von jeder Teilfolge von Φ(xn ) konvergiert also (stark) gegen Φ(x). Außerhalb jeder Umgebung von Φ(x) können also nur endlich viele Φ(xn ) liegen, d.h. lim Φ(xn ) = Φ(x).

n→∞



Satz 4.4 Sei Φ : D(Φ) ⊂ X → Y vollstetig und schwach folgenabgeschlossen. Außerdem sei X unendlich-dimensional. Dann ist die nichtlineare Gleichung Φ(x) = y lokal schlecht gestellt in jedem x ∈ int(D(Φ)). Beweis: Da X unendlich-dimensional ist, existiert ein unendliches Orthonormalsystem (en )n∈N P 2 (vgl. Def. 2.27). Aus der Konvergenz von ∞ n=1 (x, en ) folgt insbesondere (x, en ) → 0 für alle x ∈ X, also en * 0. Wähle nun r > 0 so klein, dass xn := x + ren ∈ D(Φ) für alle n ∈ Satz 4.3 Φ(xn ) → Φ(x), aber kxn − xk = r 6→ 0.

4.2 Nicht-lineare Regularisierung In diesem Abschnitt nehmen wir an, dass Φ : D(Φ) ⊆ X → Y vollstetig und schwach folgenabgeschlossen ist. Definition 4.5 (a) Zu y ∈ R(Φ) heißt x ∈ D(Φ) mit Φ(x) = y und kxk ≤ kξk Minimum-Norm-Lösung.

56

∀ξ ∈ Φ−1 (y)

N. Dann gilt nach 

4.2. NICHT-LINEARE REGULARISIERUNG (b) Ein Familie von stetigen (i. A. nichtlinearen) Operatoren (Rα )α>0 Rα : Y → X

R

R

+ zusammen mit einer Parameterwahlstrategie α : × Y → + heißt Regulari

δ δ sierungsverfahren, falls für jedes y ∈ Y und jede Folge y ∈ Y mit y − y

≤ δ, δ → 0 gilt Rα(δ,yδ ) (y δ ) → x

mit einer Minimum-Norm-Lösung x von Φ(x) = y. Bemerkung 4.6 Gemäß Bemerkung 3.5 ist die Lösung der linearen Tikhonov-Regularisierung xδα = (K ∗ K + αI)−1 K ∗ y δ das (eindeutige) Minimum des quadratischen Funktionals

2



Kx − y δ

Y

+ α kxk2X .

In dieser Form können wir die Tikhonov-Regularisierung auch für nicht-lineare Probleme anwenden und versuchen das Funktional

2



Jα (x, y δ ) := Φ(x) − y δ + α kxk2X Y

zu minimieren. Um diese nicht-lineare Tikhonov-Regularisierung zu untersuchen, benötigen wir noch einen Hilfssatz: Satz 4.7 Sei (xn )n∈N ⊂ X mit xn * x ∈ X. (a) kxk ≤ lim inf n→∞ kxn k (b) Gilt lim supn→∞ kxn k ≤ kxk, so ist xn → x. Beweis: (a) folgt aus kxk2 = lim inf (x, xn ) ≤ kxk lim inf kxn k . n→∞

n→∞

(b) folgt aus 

lim sup kx − xn k2 = lim sup kxk2 − 2(x, xn ) + kxn k2 n→∞



n→∞





= lim sup kxn k2 − kxk2 ≤ 0. n→∞



Wir zeigen nun die Existenz eines Minimierers von Jα .

57

KAPITEL 4. NICHT-LINEARE PROBLEME Satz 4.8 Zu jedem α > 0 und y ∈ Y existiert ein (möglicherweise nicht eindeutiges!) Minimum x ∈ D(Φ) von Jα (·, y), d.h. Jα (x, y) ≤ Jα (ξ, y) ∀ξ ∈ D(Φ). Beweis: Sei (xn )n∈N ⊂ D(Φ) eine monoton minimierende Folge für Jα (·, y), d.h. Jα (xn , y) konvergiere monoton fallend gegen inf ξ∈D(Φ) Jα (ξ, y) ≥ 0. Dann gilt für alle n ∈

N

s

kxn kX ≤

1 Jα (xn , y) ≤ α

s

1 Jα (x1 , y), α

d.h. (xn ) ist beschränkt, so dass nach Satz 3.12 eine schwach konvergente Teilfolge existiert. O.B.d.A. sei dies (xn ) selbst, xn * x ∈ X. Nach Satz 4.7(a) gilt dann kxk ≤ lim inf kxn k n→∞

und aus Satz 4.3 folgt x ∈ D(Φ),

kΦ(x) − yk = lim kΦ(xn ) − yk . n→∞

Insgesamt ist also inf Jα (ξ, y) = lim Jα (xn , y) ≥ lim kΦ(xn ) − yk2 + α lim inf kxn k2

ξ∈D(Φ)

n→∞

n→∞

2

n→∞

2

≥ kΦ(x) − yk + α kxk = Jα (x, y) ≥ inf Jα (ξ, y) ξ∈D(Φ)

und damit Jα (x, y) = inf ξ∈D(Φ) Jα (ξ, y).



Nun zeigen wir, dass die Minimierer stetig von den Daten abhängen. Satz 4.9 Sei α > 0, (yn )n∈N ⊂ Y , yn → y, und (xn )n∈N eine Folge von Minimierern von Jα (·, yn ). Dann existiert eine konvergente Teilfolge von xn und jede konvergente Teilfolge konvergiert gegen einen Minimierer von Jα (·, y). Existiert nur ein Minimierer x von Jα (·, y) so gilt sogar xn → x. Beweis: (a) Wir zeigen zuerst die Existenz einer schwach konvergenten Teilfolge von (xn )n∈N : Wegen kΦ(xn ) − yn k2Y + α kxn k2X = Jα (xn , yn ) ≤ Jα (x, yn ) ≤ kΦ(x) − yn k2Y + α kxk2X ist Φ(xn ) und xn beschränkt. Wie im Beweis von Satz 4.8 folgt also die Existenz einer Teilfolge (xnk )k∈N mit xnk * x.

58

4.2. NICHT-LINEARE REGULARISIERUNG (b) Nun zeigen wir, dass jede schwach konvergente Teilfolge (stark) gegen einen Minimierer konvergiert: Nach Satz 4.7(a) gilt kxk ≤ lim inf k→∞ kxnk k und aus Satz 4.3 folgt x ∈ D(Φ),

lim Φ(xnk ) = Φ(x).

k→∞

Damit erhalten wir für jedes ξ ∈ D(Φ) (beachte ynk → y): Jα (x, y) ≤ lim inf Jα (xnk , ynk ) ≤ lim sup Jα (xnk , ynk ) k→∞

k→∞

≤ lim sup Jα (ξ, ynk ) = lim Jα (ξ, ynk ) = Jα (ξ, y). k→∞

k→∞

Dies zeigt dass Jα (x, y) = inf ξ∈D(Φ) Jα (ξ, y), x ist also ein Minimierer. Außerdem folgt mit ξ := x, dass lim Jα (xnk , ynk ) = Jα (x, y). Es ist also α kxnk k2 = Jα (xnk , ynk ) − kΦ(xnk ) − ynk k2 → Jα (x, y) − kΦ(x) − yk2 = α kxk2 , woraus mit Satz 4.7(b) die starke Konvergenz xnk → x folgt. (c) Ist der Minimierer x von Jα (·, y) eindeutig, so besitzt (nach (a) und (b)) jede Teilfolge von xn eine gegen x konvergente Teilfolge, d.h. außerhalb jeder Umgebung von x können nur endlich viele xn liegen, so dass lim xn = x.



n→∞

Satz 4.10 Sei y ∈ R(Φ) und x ∈ D(Φ) eine Minimum-Norm-Lösung von Φ(x) = y. Weiterhin sei (yδ )δ>0 ⊂ Y , kyδ − yk ≤ δ und wir wählen α(δ) > 0 so dass (vgl. Beispiel 3.19) α(δ) → 0

und

δ2 →0 α(δ)

für δ → 0.

(4.2)

xδα seien Minimierer von Jα(δ) (·, y δ ). Dann hat (xδα )δ>0 eine konvergente Teilfolge. Der Grenzwert jeder konvergenten Teilfolge ist eine Minimum-Norm-Lösung von Φ(x) = y. Ist x die einzige Minimum-NormLösung, dann gilt sogar lim xδα = x. δ→0

Beweis: Aus

2

Φ(xδα ) − y δ



2

+ α

xδα

= Jα (xδα , y δ ) ≤ Jα (x, y δ )



2

= Φ(x) − y δ + α kxk2 ≤ δ 2 + α kxk2 .

59

KAPITEL 4. NICHT-LINEARE PROBLEME



folgt Φ(xδα ) − y δ → 0 und damit limδ→0 Φ(xδα ) = y.



2

Außerdem folgt xδα ≤ δ 2 /α + kxk2 , also



lim sup xδα ≤ kxk . δ→0

Insbesondere existiert also (nach Satz 3.12) eine schwach konvergente Teilfolge xn := xδαn . Für jede (Teil-)Folge xn := xδαn , δn → 0, xn * x∗ gilt nach Satz 4.3 x∗ ∈ D(Φ),

lim Φ(xn ) = Φ(x∗ )

k→∞

und nach Satz 4.7(a)



2

kx∗ k ≤ lim inf xδαn ≤ kxk . n→∞ Da x Minimum-Norm-Lösung ist, ist also auch x∗ eine Minimum-Norm-Lösung und kx∗ k = kxk. Wegen





lim sup xδα ≤ kxk = kx∗ k δ→0



folgt aus Satz 4.7(b) xn → x . Jede schwach konvergente Teilfolge konvergiert also (stark) gegen eine Minimum-Norm-Lösung. Ist x die einzige Minimum-Norm-Lösung, so folgt wie in Teil (c) vom Beweis von  Satz 4.9, dass limδ→0 xδα = x. Korollar 4.11 Existiert für jedes y ∈ R(Φ) eine eindeutige Minimum-Norm-Lösung und existiert für alle α > 0 und jedes y ∈ Y nur ein Minimierer x von Jα (·, y), so definiert Rα : Y → X,

Rα (y δ ) := xδα ,

xδα minimiert Jα (·, y δ )

mit der a-priori Parameterwahlstrategie (4.2) ein Regularisierungsverfahren.

60

Literaturverzeichnis [Alt] H. W. Alt. Lineare Funktionalanalysis. 3. Auflage. Springer, Berlin, 1999. [Forster3] O. Forster: Analysis 3. Integralrechnung im Vieweg, Braunschweig, 1996.

Rn mit Anwendungen. 3. Auflage,

[Rieder] A. Rieder. Keine Probleme mit Inversen Problemen. Vieweg, Wiesbaden, 2003. [Rudin] W. Rudin: Functional analysis. Second edition. International Series in Pure and Applied Mathematics. McGraw-Hill, Inc., New York, 1991.

61