1
5. Datenanalyse
5. Datenanalyse
5.1. Motivation 2
5.1. Motivation
5. Datenanalyse
5.1. Motivation 3
Deskriptive Datenanalyse ... sollte bei jeder Analyse immer als erster Schritt zum Kennenlernen der Daten und als letzter Schritt zum Bewerten und Veranschaulichen der Ergebnisse durchgeführt werden! Vorteile: -
Datenfehler, Ausreißer etc. zu erkennen, Abhängigkeiten und Zusammenhänge zu erkennen, geeignete statistische Modelle für die spätere Analyse auszuwählen und ungeeignete Modelle auszuschließen, die Ergebnisse statistischer Analysen größenordnungsmäßig im Vorfeld abzuschätzen, den Erklärungsgehalt durchgeführter Analysen zu beurteilen.
5. Datenanalyse
5.1. Motivation 4
Statistische Analysen -
quantifizieren Erkenntnisse, die durch deskriptive Statistik qualitativ bereits vorher gewonnen wurden,
-
werden im Nachgang durch deskriptive Statistik qualitativ hinsichtlich ihres Erklärungsgehaltes beurteilt und
-
sind nicht nur aussagelos, sondern meist irreführend, wenn vorab keine deskriptive Analyse der Daten vorgenommen wurde! Nicht umgekehrt!
5. Datenanalyse: 5.2. Überblick über Aufgabenstellungen und Verfahren 5
5.2. Überblick über Aufgabenstellungen und Verfahren
5. Datenanalyse: 5.2. Überblick über Aufgabenstellungen und Verfahren 6
5.2.1. Aufgabenstellungen Zusammenhangsanalyse gleichberechtigter Merkmale: Scatterplot Beispiele: Zusammenhang zwischen • Motorstärke – Typklasse oder • Alter – Kaufkraft Anwendung: Häufiger z.B. in Marketing und Controlling als in der Versicherung Wichtig zur Diagnose des Erklärungsgehaltes eines gefitteten GLM (Generalisiertes Lineares Modell): Bestätigen die Residuen etwa die Varianzannahme?
5. Datenanalyse: 5.2. Überblick über Aufgabenstellungen und Verfahren 7
Darstellung eindimensionaler Verteilungen: Histogramm, empirische Verteilungsfunktion, Q-Q- bzw. P-P-Plots, Box-Plot Beispiel: Schadenhöhenverteilung Anwendung: Rückversicherung; Auswahl von GLM’s; Ausreißer-Analyse
5. Datenanalyse: 5.2. Überblick über Aufgabenstellungen und Verfahren 8
Abhängigkeit zwischen einer Zielvariablen und einer erklärenden Variablen: Mittelwert-Plot, Scatterplot Beispiele: • •
Sterblichkeit abhängig vom Alter, Schadenhäufigkeit abhängig von der Typklasse
Anwendung: Erstversicherung: dies sind die klassischen Methoden, um die diversen Einflüsse auf die versicherungstechnische Zielgröße Schaden bzw. Leistung kennen zu lernen. Vor jeder Analyse mit statistischen Verfahren (Regression, GLM, Credibility etc.) wird üblicherweise eine eindimensionale Abhängigkeitsanalyse der jeweiligen Kovariablen durchgeführt.
5. Datenanalyse: 5.2. Überblick über Aufgabenstellungen und Verfahren 9
Abhängigkeit zwischen einer Zielvariablen und zwei erklärenden Variablen: zweidimensionaler Mittelwert-Plot, Oberflächen-Darstellung, mehrere Box-Plots in einem Diagramm Beispiele: • •
Sterblichkeit abhängig vom Alter und vom Geschlecht, Schadenhäufigkeit abhängig von der Typklasse und vom Alter
Anwendung: Erstversicherung: Dies sind die klassischen Methoden, um die Angemessenheit einer Regression oder eines GLM zu diagnostizieren und um eine Modelldiagnose durchzuführen.
5. Datenanalyse: 5.2. Überblick über Aufgabenstellungen und Verfahren 10
5.2.2. Verfahren Scatterplot Ein Streudiagramm (engl. Scatterplot) ist die graphische Darstellung eines beobachteten bivariaten Datensatzes ( x1 , y1 ) ,… , ( xn , yn ) . Die Beobachtungspaare werden als Punkte in der euklidischen Ebene 2 aufgefasst und in ein zweidimensionales Koordinatensystem eingezeichnet, so dass die x -Werte auf der Abszissenachse und die y -Werte auf der Ordinatenachse aufgetragen werden, wodurch sich eine Punktwolke ergibt. Durch die Anordnung der Punkte im Streudiagramm erhält man Informationen über die Abhängigkeitsstruktur der beiden Merkmale.
5. Datenanalyse: 5.2. Überblick über Aufgabenstellungen und Verfahren 11
Beispiel: Im Rahmen einer Untersuchung wurde das bivariate Merkmal ( X , Y ) = (Alter, Jahreseinkommen ) von 10 Personen angegeben (in Jahren bzw. T Euro):
T Euro
Jahreseinkommen gegen Alter 140 120 100 80 60 40 20 0 0
20
40 Alter (Jahre)
60
80
5. Datenanalyse: 5.2. Überblick über Aufgabenstellungen und Verfahren 12
Histogramm Ein Histogramm ist die graphische Darstellung der absoluten und/oder relativen Häufigkeitsverteilung von Messwerten. Hierfür werden die zugrunde liegenden n Beobachtungen der Größe nach geordnet und klassiert, d.h. der gesamte Bereich der Stichprobe wird in m Klassen aufgeteilt. Die Klassen seien durch die Intervalle K1 = [v0 , v1 ], K1 = (v1 , v2 ],..., K m = (vm−1 , vm ] mit den Klassenbreiten b j = v j − v j−1 , j ∈ {1,..., m} gegeben. Die relativen Klassenhäufigkeiten werden
mit f ( K1 ) , f ( K 2 ) ,..., f ( K m ) bezeichnet. Anschließend werden auf einer horizontalen Achse die Klassengrenzen v1 ,..., vm der Intervalle abgetragen. Die erhobenen, beobachteten oder gemessenen Häufigkeiten eines Merkmals werden über jedem Intervall K j als Rechtecke graphisch dargestellt, dessen Flächen proportional zu den klassenspezifischen Häufigkeiten hi =
H absolute Häufigkeit = i sind. n Anzahl der Beobachtungen
5. Datenanalyse: 5.2. Überblick über Aufgabenstellungen und Verfahren 13
Die Höhe des Rechtecks erhält man durch Hj =
f (K j ) bj
, j ∈ {1,..., m} .
Histogramme eignen sich besonders für die graphische Darstellung klassierter stetiger Merkmale. Ebenso können sie aber auch zur Darstellung ordinaler und qualitativer Merkmale (Säulendiagramm) benutzt werden.
Anwendungen hierzu findet man zum Beispiel in Kapitel 4, Abschnitt 4.3 und Abschnitt 4.4.
5. Datenanalyse: 5.2. Überblick über Aufgabenstellungen und Verfahren 14
Beispiel: Schadenhöhenverteilung: Histogramm 5000 4500 4000 3500 3000 2500 2000 1500 1000 500 0 1
3
5
7
9
11 13 15 17 19 21 23 25 27 29
Klassenbreite 10 000 €
5. Datenanalyse: 5.2. Überblick über Aufgabenstellungen und Verfahren 15
Bemerkung: Das Histogramm ist aufgrund seiner Einfachheit weit verbreitet und ermöglicht einen visuellen Eindruck über die Häufigkeitsverteilung großer Datenmengen. Jedoch lässt sich die Aussagekraft eines Histogramms durch die Klassenbreite beeinflussen: Vorsicht vor Fehlinterpretationen! Die Gesamtfläche unterhalb des Histogramms muss wie bei der Dichte gerade Eins ergeben, wenn man die relativen Häufigkeiten zur Darstellung verwendet. Werden jedoch zur Darstellung die absoluten Häufigkeiten der Messwerte verwendet, so addieren sich die Flächen der Rechtecke zur Gesamtzahl aller n Beobachtungen auf.
5. Datenanalyse: 5.2. Überblick über Aufgabenstellungen und Verfahren 16
Empirische Verteilungsfunktion Es seien X 1 ,..., X n reellwertige Zufallsvariablen mit Realisierungen xi ∈ , i = 1,..., n, n ∈ und stetiger Verteilungsfunktion F . Die empirische Verteilungsfunktion Fˆn ist dann die Funktion, welche jeder Realisierung xi die gleiche Masse 1/ n zuordnet, d.h. n
1 Fˆn ( x) = ∑ 1(−∞, x] ( xi ), x ∈ . n i=1 Die empirische Verteilungsfunktion ist eine Treppenfunktion. Sie ist monoton wachsend und rechtsseitig stetig. Häufig wird sie auch durch eine Linearisierung geglättet. Beispiel: Schadenhöhenverteilungen
5. Datenanalyse: 5.2. Überblick über Aufgabenstellungen und Verfahren 17
Schadenhöhenverteilung von VGV Sturm (Quelle: Branchenstatistik des GDV)
Das Beispiel der VGV-Schadensätze zeigt eindrucksvoll, wie durch geeignete Betrachtung der Daten ein Zusammenhang erkannt oder auch nicht erkannt werden kann!
5. Datenanalyse: 5.2. Überblick über Aufgabenstellungen und Verfahren 18 S c h a d e n s ä tz e V G V -S tu rm G D V 80
70
Schadensatz in %o
60
50
40
30
20
10
0 1965
1970
1975
1980
1985
1990
1995
Bemerkung: Eine Prognose aus dieser Darstellung ist kaum möglich!
2000
2005
5. Datenanalyse: 5.2. Überblick über Aufgabenstellungen und Verfahren 19
Q-Q- bzw. P-P-Plot Ein Quantile-Quantile-Plot, kurz auch Q-Q-Plot genannt, ist eine graphische Darstellung, in der die theoretischen Quantile einer Verteilung gegen die empirischen Quantile von geordneten beobachteten Merkmalswerten abgetragen werden, um zu überprüfen, ob die beobachteten Daten Realisationen aus einer bestimmten Verteilung darstellen. Wenn die Merkmalswerte aus der getroffenen Verteilungsannahme stammen, stimmen die empirischen und die theoretischen Quantile annähernd überein, d.h. die n Punktepaare (ungefähr) auf der Ausgleichsgeraden liegen (ausführlichere Informationen siehe Kapitel 1, Abschnitt 1.1). Eine weitere Möglichkeit zur Überprüfung der Verteilungsannahme besteht in dem sog. Probability-Probability-Plot (P-P-Plot), bei dem die theoretischen gegen die empirischen Summenhäufigkeiten aufgetragen werden; im Idealfall sollten die n Punktepaare (ungefähr) auf der Ausgleichsgeraden liegen. Diagnose: Die analytische Verteilungsfunktion beschreibt dann die Daten gut, wenn die Punkte nahe an der Ausgleichsgeraden liegen.
5. Datenanalyse: 5.2. Überblick über Aufgabenstellungen und Verfahren 20
Beispiel: P-P-Plot und Q-Q-Plot der VGV-Sturm-Schadensätze
⎛ 7, 25 ⎞⎟ F ( x) = 1− ⎜⎜ ⎜⎝ x ⎠⎟⎟
1, 6
für x > 7, 25
P-P-Plot VGV-Sturm-SchadensätzeabSchadensatz0,1%o
Q-Q-PlotderVGV-Sturm -SchadensätzeabSchadensatz10%o 80,0
Quantil der gefitteten Verteilungsfunktion an den Sprungstellen der empirischen VF
120,0%
Quantil der gefittetenVertreilung
100,0%
80,0%
60,0%
40,0%
20,0%
0,0% 0,00%
20,00%
40,00%
60,00%
80,00%
EmpirischesQuantil
P-P-Plot
100,00%
120,00%
70,0
60,0
50,0
40,0
30,0
20,0
10,0
0,0 0,0
10,0
20,0
30,0
40,0
50,0
Em pirischesQuantil
Q-Q-Plot
60,0
70,0
80,0
5. Datenanalyse: 5.2. Überblick über Aufgabenstellungen und Verfahren 21
Aber Vorsicht:
Datentransformation kann Einfluss auf die graphische Darstellung haben: VGV-Schadendaten (absolut), zeitlich trendbereinigt (mit Bestandsentwicklung):
Q-Q-Plot
(STATISTICA)
P-P-Plot
5. Datenanalyse: 5.2. Überblick über Aufgabenstellungen und Verfahren 22
Box-Plot
Eine einfache grafische Methode zur Visualisierung der Lage und Streuung eines Datensatzes ( x1 ,..., xn ) stellt der so genannte Box-Plot (Kasten-Diagramm) dar. Er eignet sich besonders zum Vergleich mehrerer Datensätze. Die Lage- und Streuungsmaße, die im Box-Plot Verwendung finden, können unterschiedlich gewählt werden. Ein Box-Plot besteht aus einer Kasten („box“) und zwei Antennen („whiskers“), die links und rechts von diesem Kasten wegführen. Eine Achse gibt an, welche Skalierung der Daten vorliegt.
5. Datenanalyse: 5.2. Überblick über Aufgabenstellungen und Verfahren 23
Zunächst werden die zugrunde liegenden Beobachtungen der Größe nach geordnet (Ordnungsstatistiken x(1) ,…, x(n) ). Im nächsten Schritt wird der linke Rand des Kastens durch das 25%-Quantil x0,25 und der rechte Rand durch das 75%-Quantil x0,75 festgelegt. Sie werden auch als das untere und das obere Quartil bezeichnet.
Der Abstand zwischen den beiden Quartilen entspricht dem Quartilabstand Q = x0,75 − x0,25 (Breite der Box, „spread“), welchen man auch in der Literatur unter der Bezeichnung Interquartilabstand (interquartile range, IQR) findet. Anschließend wird der Median x0,5 ermittelt und innerhalb der Box als Strich abgetragen. Die beiden Antennen entsprechen dem Minimum bzw. Maximum des zugrunde liegenden der Größe nach geordneten Datensatzes x(1) ,…, x(n) , wenn keine Ausreißer vorhanden sind. Der Abstand zwischen Minimum und Maximum gibt dabei die Spannweite R = max { x1 ,..., xn } − min { x1 ,..., xn } = x(n) − x(1) („range“) an.
5. Datenanalyse: 5.2. Überblick über Aufgabenstellungen und Verfahren 24
x(1)
x0,25
x0,5
Beispiel: Schadenhöhenverteilung
x0,75
x(n)
5. Datenanalyse: 5.2. Überblick über Aufgabenstellungen und Verfahren 25
Häufig werden Beobachtungen, die zwischen 1,5 ⋅ IQR und höchstens 3 ⋅ IQR liegen, als Ausreißer bezeichnet und mittels Kreuzen dargestellt. Beobachtungen eines Datensatzes, die bei mindestens 3 ⋅ IQR liegen, bezeichnet man als „krasse“ Ausreißer, welche man durch Kreise markiert. Die folgende Grafik zeigt Datensätze mit einem Ausreißer beim Minimum bzw. einem Ausreißer beim Maximum. ∗
∗
Ausreißer bei Minimum
Ausreißer bei Maximum
5. Datenanalyse: 5.2. Überblick über Aufgabenstellungen und Verfahren 26
Bemerkung: Der Box-Plot bietet eine übersichtliche Darstellung für kleine Stichproben. Da jedoch in der Versicherungspraxis wesentlich größere Stichproben üblich sind, wird der Box-Plot in der Praxis kaum angewendet.
5. Datenanalyse: 5.2. Überblick über Aufgabenstellungen und Verfahren 27
Mittelwert-Plot:
Problemstellung: Zufallsgröße Y ist abhängig von einer kategorialen (oft in Intervalle gruppierten metrischen oder ordinal skalierten) Kovariablen. Für die Ausprägungen der Kovariablen liegen i.d.R. mehrere Realisierungen von Y vor. Ziel: Darstellung der Abhängigkeit der Zufallsgröße Y von der Kovariablen. Die Messwerte liegen in K Gruppen vor, in der k-ten Gruppe nk Messwerte: n1
Gruppe 1
y11 ,..., y1n1
Mittelwert
y1K ,..., y1nK
Mittelwert
y1 = ∑ y1i i =1
.... nK
Gruppe K
y K = ∑ y1i i =1
5. Datenanalyse: 5.2. Überblick über Aufgabenstellungen und Verfahren 28
Dargestellt werden die Paare (k , y k ) als Scatter-Plot, als Linien-Plot oder als Säulen-Graphik, ... Beispiel: Erstversicherung: Schadenbedarf abhängig von der Typklasse oder Versicherungssummen-Klasse, Sterbewahrscheinlichkeit abhängig vom Alter, ... Das wichtigste Instrument zum Kennenlernen der Daten, bevor Auswertungen wie Regression, GLM’s etc. angewendet werden, bzw. zur Analyse der Residuen einer Regression etc.
5. Datenanalyse: 5.2. Überblick über Aufgabenstellungen und Verfahren 29 Schadenbedarf 800 600 400 200 0 10
15
20
25
Typklasse
2-dimensionaler Mittelwert-Plot:
Problemstellung: Zufallsgröße Y ist abhängig von zwei kategorialen (oft in Intervalle gruppierten metrischen oder ordinal skalierten) Kovariablen. Für die Ausprägungen der beiden Kovariablen („Zellen“) liegen i.d.R. mehrere Realisierungen von Y vor. Ziel: Darstellung der Abhängigkeit von Y von den beiden Kovariablen.
5. Datenanalyse: 5.2. Überblick über Aufgabenstellungen und Verfahren 30
Die Messwerte liegen in 2 Dimensionen gruppiert in J bzw. K Gruppen vor. Gleichzeitig in der j-ten Gruppe in der einen und der k-ten Gruppe in der anderen Dimension seien n jk Messwerte: Beispiel: Erstversicherung: Schadenbedarf abhängig von der Typklasse und SFKlasse n11
Gruppe (1,1)
y111 ,..., y11n11
Mittelwert
y11 = ∑ y11i i =1
... n1 K
Gruppe (1,K)
y1K 1 ,..., y1Kn1 K
Mittelwert
y JK 1 ,..., y JKnJK
Mittelwert
y1K = ∑ y1Ki i =1
... n JK
Gruppe (J,K)
y JK = ∑ y JKi i =1
5. Datenanalyse: 5.2. Überblick über Aufgabenstellungen und Verfahren 31
Dargestellt werden die Tripel ( j , k , y k ) als 3-dimensionale Säulen-Graphik: ( j, k ) meist in der x-y-Ebene, y jk in der z-Dimension, oft auch als OberflächenGraphik. Alternativ verschiedenfarbige Linien-Plots: Für jede Gruppe j ein Linien-Plot ( j , k , y k ) unter Variation von k. Oft hilfreich: die Dimensionen wechseln! Anwendungen: Mit der zweidimensionalen Analyse aller Kovariablen-Paare wird qualitativ analysiert, ob die Daten eine Struktur aufweisen, die mit Regression oder einem GLM erklärbar ist: Hierfür sollten für die üblicherweise verwendeten Modelle die Plots von Variable 1 jeweils für die verschiedenen Ausprägungen von Variable 2 entweder Parallel verlaufen ( → Regression) oder durch Multiplikation mit einem Faktor in einander übergehen (häufiges GLM).
5. Datenanalyse: 5.2. Überblick über Aufgabenstellungen und Verfahren 32 Schadenbedarf nach Typklasse für verschiedene SFGruppen
Schadenbedarf nach Typklasse für verschiedene SF-Gruppen
700 700
600 600
500
400
Schadenbedarf 300 200 100
ab 16
SFGr.
0 bis 5
0
10
11
12
14
15
16
17
24 25 22 23 20 21 18 19
Typklasse
Schadenbedarf
500
0 bis 5
400
6 bis 15 300
ab 16
200 100 0 10
15
20
25
Typklasse
Spezialfall: Residuen-Analyse Bei der Residuenanalyse werden die Differenzen zwischen Schätzwerten, z.B. einer Regression und den Messwerten, als Zufallsgröße betrachtet. Die Regression passt nur dann zur Erklärung der Daten, wenn die Residuen weitgehend zufällig in allen Dimensionen verteilt sind und keine Struktur aufweisen. Speziell in zwei Dimensionen sollte auf Struktur geachtet werden!
5. Datenanalyse: 5.2. Überblick über Aufgabenstellungen und Verfahren 33
5. Datenanalyse: 5.3. Wichtige Grundregeln statistischer Arbeit 34
5.3. Wichtige Grundregeln statistischer Arbeit
5. Datenanalyse: 5.3. Wichtige Grundregeln statistischer Arbeit 35
1. Kontrolliere die Vollständigkeit, Aussagefähigkeit und Repräsentativität der Daten in Bezug auf die interessierende Fragestellung! Problemfall Repräsentativität: Diese ist sicher dann verletzt, wenn eine versteckte Variable Einfluss hat, und in ihren Ausprägungen im analysierten Datenmaterial anders vertreten ist, als in zukünftigen Beständen, die zu prognostizieren sind! Beispiel: Die Leistungen eines BU-Bestandes werden nach Alter, Geschlecht und Beruf analysiert. In der Analyse wird aber nicht berücksichtigt, dass die Dauer der Bestandszugehörigkeit einen erheblichen Einfluss auf die Leistung hat. Demzufolge ist die Extrapolation der Leistungswahrscheinlichkeit nach Alter, Geschlecht und Beruf aus einem neu aufgebauten Bestand nicht ohne Berücksichtigung dieses Merkmals möglich!
5. Datenanalyse: 5.3. Wichtige Grundregeln statistischer Arbeit 36
In der Praxis ausgesprochen nützliches Vorgehen: „Schichtung“ der Daten, d.h. die Daten werden nach Variablen gruppiert, die eigentlich nicht von Interesse sind und man betrachtet anschließend zweidimensionale MW-Plots jeweils von einer interessierenden Variablen gegen eine durch Gruppierung neu geschaffene Variable. Dies vermittelt zumindest ein Gefühl für die Varianz. Erkennt man Strukturen, die über die erwartete Varianz hinausgehen, muss durch geeignete Interpretation nach versteckten Einflussgrößen gesucht werden. Weitere Kenntnis der Daten erhält man meist nur auf diese Weise! Hat eine versteckte Variable Einfluss, und ändert sich die Bestandszusammensetzung hinsichtlich dieser versteckten Variable, sind nur Aussagen fähig, die den Einfluss der versteckten Variablen mit berücksichtigen!
5. Datenanalyse: 5.3. Wichtige Grundregeln statistischer Arbeit 37
Möglichkeiten der Schichtung von Daten: • •
Schichtung nach der Zeit (evtl. Tarifgeneration), Bestandssegment (evtl. Region, Vertriebsschiene, ...)
Beispiele: Schichtung von Sterblichkeitsanalysen nach Alter (gemessen gegen prognostiziert mittels Sterbetafel): Ungleiche Verhältnisse in den Altern implizieren eine durch die Bestandsalterung verursachte Entwicklung, die aus dem ungeschichteten Vergleich nicht ersichtlich ist! Schichtung der Schadenquote eines Sach-Bestandes nach Tarifgenerationen: Deutlich schlechtere Schadenquoten in den neuen – noch gering besetzten – Tarifgenerationen, die erst ins Gewicht fallen, wenn die Bestände in den Folgejahren in die neuen Tarifgenerationen umgeschichtet werden.
5. Datenanalyse: 5.3. Wichtige Grundregeln statistischer Arbeit 38
Der unterschiedliche Verlauf in den Schichten (hier: Tarifgenerationen) ist meist nur Symptom, nicht Ursache. Aufgabe des Aktuars ist es, die Ursachen von Unterschieden in den Schichten zu analysieren, zu erklären und zu bewerten. Anwendung auf die Konzeption von Auswertungen mittels GLM’s: Eine saubere graphische Analyse der Daten mit zweidimensionalen MW-Plots nach allen Paaren von Kovariablen ist unverzichtbare Voraussetzung für die Anwendung jedes GLM! Meistens ist nach der graphischen Analyse die Aussage der Daten schon weitgehend bekannt, so dass mittels des GLM nur noch eine exakte Quantifizierung durchzuführen ist!
5. Datenanalyse: 5.3. Wichtige Grundregeln statistischer Arbeit 39
2. Auswahl geeigneter gebundener Schätzungen – Gaußsches Fehlerfortpflanzungsgesetz Das Gauß’sche Fehlerfortpflanzungsgesetz ist ein Instrument zur näherungsweisen Bestimmung des mittleren Fehlers bei indirekten Beobachtungen, die sich ergeben, wenn die zu Grunde liegenden Daten aus anderen messbaren Größen berechnet werden. Somit pflanzen sich die Fehler in den indirekten Beobachtungen fort. Von diesem gilt es, die tatsächliche oder im ungünstigsten Fall mögliche oder wahrscheinliche Größe zu bestimmen.
5. Datenanalyse: 5.3. Wichtige Grundregeln statistischer Arbeit 40
Gegeben seien n messbare Zufallsvariablen X 1 ,..., X n . Die gesuchte Größe erhält man als Funktion f ( X 1 ,..., X n ) . Ist f ( x1 ,..., xn ) nach allen xi (total) differen-
zierbar, so gilt das Gauß’sche Fehlerfortpflanzungsgesetz: Sind μi = E ( X i ) der Erwartungswert und σi2 = Var ( X i ) die Varianz der X i sowie σij = Cov ( X i , X j ) die Kovarianz von X i und X j für i, j = 1,..., n , dann gilt näherungsweise:
E ( f ( X 1 ,..., X n )) f (μ1 ,..., μn ) = f (μ) und 2 ⎫⎪ ⎪⎧ ∂f ⎪⎫ 2 ⎪⎧ ∂f ⎪⎫ ⎧⎪ ∂f ⎪ ⎪ Var ( f ( X 1 ,..., X n )) ∑ ⎨ (μ )⎬ ⋅ σi + 2 ⋅ ∑ ⎪⎨ (μ)⎪⎬ ⋅ ⎨⎪ (μ)⎬⎪⋅ σij . ⎪⎩ ∂xi ⎪⎪⎭ ⎪⎩ ∂xi ⎪⎪⎭ ⎪⎪ ∂x j ⎪⎪ i =1 ⎪ i< j ⎪ ⎩ ⎭ n
5. Datenanalyse: 5.3. Wichtige Grundregeln statistischer Arbeit 41
Beweis: Taylor-Entwicklung mit Abbruch nach linearem Term und anschließender Erwartungswertbildung: n
f ( x1 ," , xn ) − f (μ) ∑ ( xi − μi )⋅ i =1
∂f (μ) ∂xi
⎛ n ⎞ ∂f ( f ( x1 ," , xn )− f (μ)) ⎜⎜⎜∑ ( xi − μi )⋅ (μ)⎟⎟⎟⎟ ∂xi ⎝ i=1 ⎠
2
2
2 ⎫⎪ ⎪⎧⎪ ∂f ⎪⎫⎪ ⎪⎧ ∂f ⎪⎫ ⎧⎪ ∂f = ∑ ( xi − μi ) ⋅⎨ (μ )⎬ + 2 ⋅ ∑ ( xi − μi )( x j − μ j )⎪⎨ (μ )⎪⎬ ⋅ ⎪⎨ μ ( )⎪⎬ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪⎪ i=1 i< j ⎩⎪ ∂xi ⎭⎪ ⎩⎪ ∂xi ⎭⎪ ⎩⎪ ∂x j ⎭ n
2
5. Datenanalyse: 5.3. Wichtige Grundregeln statistischer Arbeit 42
Bemerkung: In der Regel sind unterschiedliche Funktionen von unterschiedlichen Messgrößen abhängig, wie man an dem nachfolgenden Beispiel zur Schätzung des Jahresgewinnes sehen kann. Auf Basis dieser Näherungsformel wird der Aktuar die geeignetste Schätzmethode finden, welche die niedrigste Varianz liefert. Meist bedeutet dies, dass die volatileren Teilgrößen nicht aus ihren unterjährigen Realisationen hochgerechnet werden, sondern als Verhältnisse der stabileren Teilgrößen geschätzt werden („gebundene Hochrechnung“).
5. Datenanalyse: 5.3. Wichtige Grundregeln statistischer Arbeit 43
Anwendung: Jede Art von Bilanz-Hochrechnung Beispiel: Hochrechnung des Gewinns aus den Hochrechnungen von Beitrag und Schaden auf Basis der bis März vorliegenden Beitrags- und Schadendaten: 1. Variante:
Jahresschaden = erwarteter Beitrag * mittlere Schadenquote
2. Variante:
Jahresschaden = (Schaden Jan - März) + 9/12* erwarteter Beitrag * mittlere Schadenquote
3. Variante:
Jahresschaden = (Schaden Jan - März) *4
Frage: Welche Methode schätzt den Gewinn mit minimaler Varianz?
5. Datenanalyse: 5.3. Wichtige Grundregeln statistischer Arbeit 44
Beispiel: Die Jahresschadenquote wird unterjährig meist stabiler mit dem Durchschnitt der letzten Jahre prognostiziert als durch eine reine Hochrechnung des bisher eingetretenen Schadens. Der Zeitpunkt des Übergangs zwischen den naheliegenden Schätzmethoden gegen Jahresende lässt sich anhand von Schätzungen der beteiligten Varianzen mit der o.a. Formel festlegen. In der Regel wird selten explizit zwischen den Schätzmethoden optimiert. Der Aktuar sollte sich jedoch unbedingt auf Basis des Gauß’schen Fehlerfortpflanzungsgesetzes ein Gespür für sinnvolle Schätzungen zulegen. Eine deutlich bessere und begründetere Prognose ist mit Hilfe von Credibility möglich, da hier die möglichen Schätzer miteinander kombiniert werden im Verhältnis der jeweiligen „Glaubwürdigkeit“. Dieses Konzept hat deutliche Ähnlichkeit mit dem Gauß’schen Fehlerfortpflanzungsgesetz. Beispiele hierfür sind im Kapitel 9 zu finden.