Gliederung

I.

Motivation

II.

Lesen mathematischer Symbole

III. Wissenschaftliche Argumentation IV. Matrizenrechnung V.

Metriken

VI. Algorithmen

VII.Praktischer Umgang mit Daten

Wissenschaftliches Arbeiten – Quantitative Methoden, WS 2008 / 2009 Dipl. Kfm. Hans-Peter Ziegler

Seite 126

VII. Praktischer Umgang mit Daten Datenanalyse: Bei der Analyse von Daten lassen sich in 3 Grundaufgaben der Statistik unterscheiden: • Deskription: Die deskriptive Statistik dient zur Beschreibung und graphischen Aufbereitung von Daten (besonders bei großen Datenmengen). Sie umfasst 1.) die Darstellung und Verdichtung von Daten in Grafiken (Diagramme & Verlaufskurven) Tabellen Kenngrößen (Mittelwert, Streuung, etc.) 2.) die Datenvalidierung 3.) die Gewinnung erster Eindrücke oder Ideen zur weiteren Analyse

Wissenschaftliches Arbeiten – Quantitative Methoden, WS 2008 / 2009 Dipl. Kfm. Hans-Peter Ziegler

Seite 127

VII. Praktischer Umgang mit Daten • Exploration: Die Exploration baut auf der deskriptiven Analyse auf. Über die Darstellung der Daten hinaus befasst sie sich mit der Suche nach Strukturen und Besonderheiten in den Daten. Sie kann richtungweisend sein, wenn die Fragestellung nicht genau definiert ist und bei der Wahl eines geeigneten Modells helfen. Darüber hinaus kann die Exploration empirische Evidenz für bestimmte Tatsachen oder Forschungshypothesen liefern. • Induktion: Grundsätzlich lässt sich die induktive Statistik in die Bereiche der Schätz- und Testprobleme unterteilen: 1.) Bei Schätzproblemen ist die Aufgabe, Parameter aus den gemessenen Daten zu schätzen (z.B. den Erwartungswert der zugrundeliegenden Verteilung). 2.) Bei Testproblemen überprüft man, ob eine bestimmte Behauptung (z.B. dass der Erwartungswert der Verteilung, der den Daten zugrunde liegt, einen bestimmten Wert annimmt) von den Daten unterstützt wird.

Wissenschaftliches Arbeiten – Quantitative Methoden, WS 2008 / 2009 Dipl. Kfm. Hans-Peter Ziegler

Seite 128

VII. Praktischer Umgang mit Daten Elementare Grundbegriffe: • Statistische Einheit: Objekt, an denen interessierende Größen erfasst werden. • Grundgesamtheit: Menge aller für die Fragestellung relevanten statistischen Einheiten. • Teilgesamtheit: Teilmenge der Grundgesamtheit. • Stichprobe: Tatsächlich untersuchte Teilmenge der Grundgesamtheit. • Markmale: Interessierende Größen (= Variablen). • Merkmalsausprägung: Konkreter Wert des Merkmals für eine bestimmte statistische Einheit. Wissenschaftliches Arbeiten – Quantitative Methoden, WS 2008 / 2009 Dipl. Kfm. Hans-Peter Ziegler

Seite 129

VII. Praktischer Umgang mit Daten

Wissenschaftliches Arbeiten – Quantitative Methoden, WS 2008 / 2009 Dipl. Kfm. Hans-Peter Ziegler

Seite 130

VII. Praktischer Umgang mit Daten • Statistische Einheit: Mensa in Saarbrücken, Unigelände. • Grundgesamtheit: Menge aller Mensen, die es weltweit gibt. • Teilgesamtheit: Menge aller deutschen Uni-Mensen. • Stichprobe: Menge aller Uni-Mensen, für die genug Stimmen abgegeben werden. • Markmale: Freundlichkeit, Auswahl, Service, Atmosphäre, Geschmack, Wohnort. • Merkmalsausprägung: Freundlichkeit(SB,1) = 5Tabletts, Auswahl(SB,1) = 4Tabletts, etc.

Wissenschaftliches Arbeiten – Quantitative Methoden, WS 2008 / 2009 Dipl. Kfm. Hans-Peter Ziegler

Seite 131

VII. Praktischer Umgang mit Daten Merkmalstypen diskret: endlich oder abzählbar unendlich viele Ausprägungen stetig: alle Werte eines Intervalls sind mögliche Ausprägungen (überabzählbar unendlich viele Ausprägungen) nominalskaliert: Ausprägungen sind Namen, keine Ordnung möglich ordinalskaliert: Ausprägungen können geordnet, Abstände aber nicht interpretiert werden intervallskaliert: Ausprägungen sind Zahlen, Interpretation der Abstände möglich verhältnisskaliert:Ausprägungen besitzen sinnvollen absoluten Nullpunkt qualitativ: endlich viele Ausprägungen, höchstens ordinalskaliert quantitativ: Ausprägungen geben Intensität wieder Wissenschaftliches Arbeiten – Quantitative Methoden, WS 2008 / 2009 Dipl. Kfm. Hans-Peter Ziegler

Seite 132

VII. Praktischer Umgang mit Daten Beispiele: Alter:

diskret, intervallskaliert, quantitativ

Name:

diskret, nominalskaliert, qualitativ

Geschlecht:

diskret, nominalskaliert, qualitativ

Einkommen:

stetig (oder diskret), verhältnisskaliert, quantitativ

Temperatur (in Kelvin):

stetig, verhältnisskaliert, quantitativ

Anzahl Tabletts bei Mensaumfrage: diskret, ordinalskaliert, qualitativ Benzinverbrauch in Liter:

stetig, verhältnisskaliert, quantitativ

Wissenschaftliches Arbeiten – Quantitative Methoden, WS 2008 / 2009 Dipl. Kfm. Hans-Peter Ziegler

Seite 133

VII. Praktischer Umgang mit Daten Versuchsplan: Erfasst man Merkmale, um eine bestimmte Fragestellung zu untersuchen, so ist dafür die Erstellung eines Versuchsplans erforderlich. Dieser Versuchsplan muss festhalten 1.) welches Ziel mit dem Experiment oder welche Studie verfolgt wird, 2.) wie dieses Ziel erreicht werden kann, 3.) welche statistischen Methoden geeignet sind, um die erzielten Resultate statistisch zu manifestieren. Es muss vor dem Erheben der Stichprobe festgelegt werden, wie groß der Stichprobenumfang zu sein hat, um eine gewünschte Präzision zu erreichen. Außerdem ist zu bestimmen, welche Erhebungsart geeignet ist, um diese Stichprobe zu ziehen.

Wissenschaftliches Arbeiten – Quantitative Methoden, WS 2008 / 2009 Dipl. Kfm. Hans-Peter Ziegler

Seite 134

VII. Praktischer Umgang mit Daten Bemerkung: Sind die interessierenden Daten bereits vorhanden (z.B. Verkaufszahlen eines Unternehmens), spricht man beim Ziehen einer Stichprobe von einer Erhebung. Wird die Erhebung speziell in Hinblick auf die aktuelle Fragestellung ausgeführt, spricht man von einer primärstatistischen Erhebung. Wird auf bereits vorhandene Originaldaten zurückgegriffen, bezeichnet man dies als sekundärstatistische Erhebung. Stehen nur bereits transformierte oder komprimierte Daten zur Verfügung, nennt man dies eine tertiärstatistische Erhebung. Müssen die Daten erst in geeigneter Weise Erzeugt werden (z.B. in einer Klinischen Studie), spricht man von Experiment.

Wissenschaftliches Arbeiten – Quantitative Methoden, WS 2008 / 2009 Dipl. Kfm. Hans-Peter Ziegler

Seite 135

VII. Praktischer Umgang mit Daten Stichproben: • Einfache Zufallsstichprobe: Bei einer einfachen Zufallsstichprobe werden Teilmengen der Grundgesamtheit so erhoben, dass jeder dieser Teilmengen dieselbe Wahrscheinlichkeit besitzt gezogen zu werden. Daraus folgt sofort, dass auch jede Untersuchungseinheit mit derselbe Wahrscheinlichkeit gezogen wird. Die Umkehrung gilt jedoch nicht, d.h. alleine aus der Tatsache, dass jedes Element aus der Grundgesamtheit mit derselben Wahrscheinlichkeit gezogen wird, kann noch nicht auf das Vorliegen einer einfachen Stichprobe geschlossen werden. Um eine einfache Stichprobe ziehen zu können, müssen die Elemente der Grundgesamtheit nummerierbar sein und zumindest theoretisch als Liste vorliegen.

Wissenschaftliches Arbeiten – Quantitative Methoden, WS 2008 / 2009 Dipl. Kfm. Hans-Peter Ziegler

Seite 136

VII. Praktischer Umgang mit Daten • Geschichtete Zufallsstichprobe: Bei geschichteten Zufallsstichproben wird die Grundgesamtheit in sich nicht überlappende Schichten zu zerlegen und anschließend aus jeder Schicht eine einfache Zufallswahl zu ziehen. Dieses Vorgehen ist nicht nur einfacher umzusetzen, sondern führt in der Regel auch zu genaueren Schätzungen für die eigentlich interessierende Größe in der Grundgesamtheit, d.h., dass eine geschichtete Stichprobe häufig informativer ist, als eine einfache Stichprobe. Beispiel: Interessiert das durchschnittliche Einkommen der Bundesbürger, so bietet sich beispielsweise eine Schichtung nach Bildungsgrad, Alter oder nach Berufsfeldern.

Wissenschaftliches Arbeiten – Quantitative Methoden, WS 2008 / 2009 Dipl. Kfm. Hans-Peter Ziegler

Seite 137

VII. Praktischer Umgang mit Daten • Klumpenstichprobe: Bei einer geschichteten Zufallsstichprobe wird die Schichtenbildung künstlich durchgeführt. Bei sogenannten Klumpen hingegen zerfällt die Stichprobe auf natürliche Weise in derartige Schichten (z.B. Gemeinden). Bei einer Klumpenstichprobe wird die praktische Anwendbarkeit weiter erhöht, da aus der Gesamtheit aller Klumpen einige wenige ausgewählt werden, die dann vollständig erfasst werden. Beispiele: Es werden einige wenige Gemeinden zufällig ausgewählt, in denen dann alle Bürger befragt werden. Es werden wenige Tage festgelegt, in denen alle Patienten im Krankenhaus erfasst werden. Bemerkung: Eine solche Erhebung ist nur sinnvoll, wenn die einzelnen Klumpen hinsichtlich der Untersuchungsvariable sehr heterogen sind (also kleine Abbilder der Grundgesamtheit) und die Klumpen untereinander sehr homogen sind. Wissenschaftliches Arbeiten – Quantitative Methoden, WS 2008 / 2009 Dipl. Kfm. Hans-Peter Ziegler

Seite 138

VII. Praktischer Umgang mit Daten • Mehrstufige Auswahlverfahren: Meistens ist eine direkte Ziehung der Untersuchungseinheiten nur schwer oder gar nicht umzusetzen. Dann muss die Auswahl der eigentlichen Untersuchungseinheiten stufenweise Erfolgen. Beispiel: In der ersten Stufe könnten alle deutschen Städte zugrunde liegen und aus ihnen eine Stichprobe gezogen werden. Im nächsten Schritt können dann aus den gezogenen Städten Schulen ausgewählt werden. Erst im dritten Schritt kann man aus den Schülern dieser Schulen eine Zufallsauswahl treffen.

Wissenschaftliches Arbeiten – Quantitative Methoden, WS 2008 / 2009 Dipl. Kfm. Hans-Peter Ziegler

Seite 139

VII. Praktischer Umgang mit Daten • Bewusstes Auswahlverfahren: Neben der Zufallsstichprobe werden bei Meinungsumfragen häufig Verfahren eingesetzt, denen zwar ein bestimmter Stichprobenplan zugrunde liegt, die aber nicht mehr als zufällig angesehen werden können. Sei werden mit dem Ziel durchgeführt, die Repräsentativität der gezogenen Stichprobe zu erhöhen. Beispiele: Quotenpläne, die die Quoten für verschiedene Merkmale (z.B. Geschlecht) enthalten. Auswahl typischer Fälle, bei der nach subjektiven Kriterien des Verantwortlichen für die Untersuchungseinheiten als typische Vertreter der Grundgesamtheit ausgewählt werden.

Wissenschaftliches Arbeiten – Quantitative Methoden, WS 2008 / 2009 Dipl. Kfm. Hans-Peter Ziegler

Seite 140

VII. Praktischer Umgang mit Daten Studiendesigns: • Querschnittsstudie: Es wird an einer bestimmten Anzahl an Objekten, den statistischen Einheiten, zu einem bestimmten Zeitpunkt ein oder mehrere Merkmale erfasst. • Zeitreihe: Es wird ein Objekt hinsichtlich eines Merkmals über einen ganzen Zeitraum hinweg beobachtet. • Längsschnittstudie: Es wird eine ganze Gruppe gleichartiger Objekte über einen ganzen Zeitraum hinweg beobachtet.

Wissenschaftliches Arbeiten – Quantitative Methoden, WS 2008 / 2009 Dipl. Kfm. Hans-Peter Ziegler

Seite 141

VII. Praktischer Umgang mit Daten: Graphische Darstellung von Daten Stamm-Blatt-Diagramm (Steam-leaf display): •

Das Stamm-Blatt-Diagramm ist eine semigrafische Darstellungsform für metrische Merkmale bei mittlerem Datenumfang.



Das Diagramm wird in 2 Schritten erstellt: 1. Teile den Datenbereich in Intervalle gleicher Breite ein. Trage die erste(n) Ziffer(n) der Werte im jeweiligen Intervall links von einer senkrechten Linie der Größe nach geordnet ein. Dies ergibt den Stamm. 2. Runde die beobachteten Werte auf die Stelle, die nach den Ziffern des Stamms kommt. Diese werden zeilenweise, der Größe nach geordnet, rechts vom Stamm eingetragen. Diese Ziffern nennt man Blätter.



Stamm-Blatt-Diagramme besitzen den Vorteil, dass sie alle Werte der Stichprobe enthalten und somit einen guten Einblick in die Datenstruktur ermöglichen. Bei großen Datensätzen wird das Diagramm jedoch sehr unübersichtlich. Wissenschaftliches Arbeiten – Quantitative Methoden, WS 2008 / 2009 Dipl. Kfm. Hans-Peter Ziegler

Seite 142

VII. Praktischer Umgang mit Daten: Graphische Darstellung von Daten Beispiel: Die folgenden Daten werden beobachtet:

1.75

3.10

6.80

3.45

2.95

2.75

4.35

4.00

3.25

8.40

9.30

1.35

8.45

6.65

3.65

2.00

7.70

7.00

2.35

3.05

5.10

2.05

6.55

7.65

2.20

4.85

1.80

5.95

4.70

2.55

Wissenschaftliches Arbeiten – Quantitative Methoden, WS 2008 / 2009 Dipl. Kfm. Hans-Peter Ziegler

Seite 143

VII. Praktischer Umgang mit Daten: Graphische Darstellung von Daten Fortsetzung Beispiel: 1

488

2

002458

3

001356

4

0378

5

1

6

0578

7

077

8

44

9

3

Wissenschaftliches Arbeiten – Quantitative Methoden, WS 2008 / 2009 Dipl. Kfm. Hans-Peter Ziegler

1.75 2.95 3.25 8.45 7.70 5.10 2.20 4.70

3.10 2.75 8.40 6.65 7.00 2.05 4.85 2.55

6.80 4.35 9.30 3.65 2.35 6.55 1.80

3.45 4.00 1.35 2.00 3.05 7.65 5.95

Seite 144

VII. Praktischer Umgang mit Daten: Graphische Darstellung von Daten Histogramm: •

Für große Datensätze ist es zweckmäßig, die Daten zu gruppieren und die resultierende Häufigkeiten der Gruppen in einem Histogramm zu visualisieren.



Es wird dabei von einem ordinalskalierten Merkmal ausgegangen, das in vielen Ausprägungen vorliegt. Für die Gruppierung wählt man benachbarte Intervalle .



Nun wird das Histogramm so konstruiert, dass die Fläche über den Intervallen gleich oder proportional zu den absoluten bzw. relativen Häufigkeiten ist (Prinzip der Flächentreue). Dazu werden über den Intervallen Rechtecke gezeichnet, mit: Breite: Höhe: gleich (oder proportional zu) Fläche: gleich (oder proportional zu) Wissenschaftliches Arbeiten – Quantitative Methoden, WS 2008 / 2009 Dipl. Kfm. Hans-Peter Ziegler

Seite 145

VII. Praktischer Umgang mit Daten: Graphische Darstellung von Daten •

Falls es möglich und sinnvoll ist, sollten die Klassenbreiten gleichgroß gewählt werden. Dadurch können als Höhe der Rechtecke direkt die absoluten bzw. relative Häufigkeiten verwendet werden.



Da die Anzahl der Klassen und damit die Wahl der Klassenbreite den Eindruck über die Daten entschieden beeinflussen kann, existieren Faustregeln für die Zahl der Klassen. Bsp.: Anzahl Klassen:

Wissenschaftliches Arbeiten – Quantitative Methoden, WS 2008 / 2009 Dipl. Kfm. Hans-Peter Ziegler

Seite 146

VII. Praktischer Umgang mit Daten: Graphische Darstellung von Daten Fortsetzung Beispiel:

Wissenschaftliches Arbeiten – Quantitative Methoden, WS 2008 / 2009 Dipl. Kfm. Hans-Peter Ziegler

1.75 2.95 3.25 8.45 7.70 5.10 2.20 4.70

3.10 2.75 8.40 6.65 7.00 2.05 4.85 2.55

6.80 4.35 9.30 3.65 2.35 6.55 1.80

3.45 4.00 1.35 2.00 3.05 7.65 5.95

Seite 147

VII. Praktischer Umgang mit Daten: Graphische Darstellung von Daten Beispiel: Histogramme zu 4000 normalverteilten Werten:

Wissenschaftliches Arbeiten – Quantitative Methoden, WS 2008 / 2009 Dipl. Kfm. Hans-Peter Ziegler

Seite 148

VII. Praktischer Umgang mit Daten: Graphische Darstellung von Daten Das Histogramm ist ein erster Schätzer für die Dichte , der die Daten zugrunde liegen. Der Schätzer ist umso genauer, je kleiner die Intervalle gewählt werden. Grund: Für eine beliebige differenzierbare Verteilungsfunktion

Wissenschaftliches Arbeiten – Quantitative Methoden, WS 2008 / 2009 Dipl. Kfm. Hans-Peter Ziegler

gilt:

Seite 149

VII. Praktischer Umgang mit Daten: Graphische Darstellung von Daten Kerndichteschätzer: Ein Nachteil beim Histogramm besteht darin, dass man als geschätzte Dichte eine unstetige Treppenfunktion in erhält. Über den Kerndichteschätzer erhält man ein rollierendes Histogramm, welches die Dichte in der Umgebung eines jeden abschätzt. Die Grundidee ist dabei die selbe, wie im Histogramm: Der Wert entspricht im Histogramm der Höhe des Rechtecks mit der Breite . Lässt man dieses Rechteck nun über die x-Achse gleiten, so erhält man den Graphen des gleitende Histogramms. Dieses gleitende Histogramm lässt sich über ein Rechteckfenster, das mit Zahlenachse gleitet wie folgt schreiben:

über die

, mit

Wissenschaftliches Arbeiten – Quantitative Methoden, WS 2008 / 2009 Dipl. Kfm. Hans-Peter Ziegler

Seite 150

VII. Praktischer Umgang mit Daten: Graphische Darstellung von Daten Es werden hier also zunächst für jeden -Wert genau so viele Rechteckshöhen aufaddiert, wie Beobachtungen im Intervall liegen und anschleißend durch die Zahl aller Beobachtungen dividiert. Da hier unstetige Rechteckfenster aufaddiert werden, ergibt sich als Kerndichteschätzer immer noch eine unstetige Treppenfunktion. Um einen stetigen Kerndichteschätzer zu erhalten, muss man an Stelle des unstetigen Rechteckkerns einen stetigen Kern verwenden. Beispiele:

Wissenschaftliches Arbeiten – Quantitative Methoden, WS 2008 / 2009 Dipl. Kfm. Hans-Peter Ziegler

Seite 151

VII. Praktischer Umgang mit Daten: Graphische Darstellung von Daten Beispiel: Gegeben seien die Beobachtungen: 0

1

1.5

1.75

2

2.25

2.5

3

4

Damit ergibt sich mit dem Rechteckkern der folgende Kerndichteschätzer:

Wissenschaftliches Arbeiten – Quantitative Methoden, WS 2008 / 2009 Dipl. Kfm. Hans-Peter Ziegler

Seite 152

VII. Praktischer Umgang mit Daten: Graphische Darstellung von Daten Beispiel: Gegeben seien die Beobachtungen: 0

1

1.5

1.75

2

2.25

2.5

3

4

Damit ergibt sich mit dem Rechteckkern der folgende Kerndichteschätzer:

Wissenschaftliches Arbeiten – Quantitative Methoden, WS 2008 / 2009 Dipl. Kfm. Hans-Peter Ziegler

Seite 153

VII. Praktischer Umgang mit Daten: Graphische Darstellung von Daten Fortsetzung Beispiel: Über den Epanechnikow-Kern erhält man für die Dichte:

Wissenschaftliches Arbeiten – Quantitative Methoden, WS 2008 / 2009 Dipl. Kfm. Hans-Peter Ziegler

Seite 154

VII. Praktischer Umgang mit Daten: Graphische Darstellung von Daten Fortsetzung Beispiel: Über den Gauß-Kern

erhält man für die Dichte:

Wissenschaftliches Arbeiten – Quantitative Methoden, WS 2008 / 2009 Dipl. Kfm. Hans-Peter Ziegler

Seite 155

VII. Praktischer Umgang mit Daten: Graphische Darstellung von Daten Beispiel: Für die 30 Beobachtungen von vorhin ergibt sich somit als Kerndichteschätzer:

Wissenschaftliches Arbeiten – Quantitative Methoden, WS 2008 / 2009 Dipl. Kfm. Hans-Peter Ziegler

1.75 2.95 3.25 8.45 7.70 5.10 2.20 4.70

3.10 2.75 8.40 6.65 7.00 2.05 4.85 2.55

6.80 4.35 9.30 3.65 2.35 6.55 1.80

3.45 4.00 1.35 2.00 3.05 7.65 5.95

Seite 156

VII. Praktischer Umgang mit Daten: Graphische Darstellung von Daten Quantile und Box-Plot: •

Das p%-Quantil einer Verteilung trennt die Daten so in zwei Teile, dass p% der Daten darunter und (100-p)% darüber liegen.



Der Median ist damit gerade das 50%-Quantil.



Quantile und die daraus abgeleiteten Box-Plots als graphische Zusammenfassung sind geeignete Mittel, um die Streuung der Daten zu charakterisieren. Sie sind somit sehr gut zum Vergleich verschiedener Verteilungen geeignet.



Mit Hilfe der Box-Plots lässt sich schnell ein Eindruck darüber gewinnen, ob die Beobachtungen z.B. annähernd symmetrisch verteilt sind, oder ob Ausreißer in dem Datensatz auftreten.

Wissenschaftliches Arbeiten – Quantitative Methoden, WS 2008 / 2009 Dipl. Kfm. Hans-Peter Ziegler

Seite 157

VII. Praktischer Umgang mit Daten: Graphische Darstellung von Daten • Ein Box-Plot ist bestimmt durch 1. x0,25 x0,75

= Anfang der Schachtel („box“) = Ende der Schachtel

x0,75 - x0,25 = Länge der Schachtel 2. Der Median wird durch einen Strich in der Box markiert. 3. Zwei Linien („whiskers“) außerhalb der Box gehen bis zu xmin und xmax

Wissenschaftliches Arbeiten – Quantitative Methoden, WS 2008 / 2009 Dipl. Kfm. Hans-Peter Ziegler

Seite 158

VII. Praktischer Umgang mit Daten: Graphische Darstellung von Daten Beispiel:

Wissenschaftliches Arbeiten – Quantitative Methoden, WS 2008 / 2009 Dipl. Kfm. Hans-Peter Ziegler

1.75 2.95 3.25 8.45 7.70 5.10 2.20 4.70

3.10 2.75 8.40 6.65 7.00 2.05 4.85 2.55

6.80 4.35 9.30 3.65 2.35 6.55 1.80

3.45 4.00 1.35 2.00 3.05 7.65 5.95

Seite 159

VII. Praktischer Umgang mit Daten: Graphische Darstellung von Daten Über die aufgeführten graphischen Werkzeuge kann man eine Idee davon erhalten, welche Verteilungsfamilien auf den Datensatz passen können und in die nähere Auswahl gezogen werden sollten. Auf den nachfolgenden Seiten findet sich eine Auswahl der wichtigsten Verteilungsfamilien…

Wissenschaftliches Arbeiten – Quantitative Methoden, WS 2008 / 2009 Dipl. Kfm. Hans-Peter Ziegler

Seite 160

VII. Praktischer Umgang mit Daten: Graphische Darstellung von Daten Exkurs: Gammafunktion

Wissenschaftliches Arbeiten – Quantitative Methoden, WS 2008 / 2009 Dipl. Kfm. Hans-Peter Ziegler

Seite 161

VII. Praktischer Umgang mit Daten: Diskrete Verteilungen • Binomialverteilung:

Wissenschaftliches Arbeiten – Quantitative Methoden, WS 2008 / 2009 Dipl. Kfm. Hans-Peter Ziegler

Seite 162

VII. Praktischer Umgang mit Daten: Diskrete Verteilung • Poisson-Verteilung:

Wissenschaftliches Arbeiten – Quantitative Methoden, WS 2008 / 2009 Dipl. Kfm. Hans-Peter Ziegler

Seite 163

VII. Praktischer Umgang mit Daten: Stetige Verteilungen • Beta-Verteilung:

Wissenschaftliches Arbeiten – Quantitative Methoden, WS 2008 / 2009 Dipl. Kfm. Hans-Peter Ziegler

Seite 164

VII. Praktischer Umgang mit Daten: Stetige Verteilungen • Cauchy-Verteilung:

Wissenschaftliches Arbeiten – Quantitative Methoden, WS 2008 / 2009 Dipl. Kfm. Hans-Peter Ziegler

Seite 165

VII. Praktischer Umgang mit Daten: Stetige Verteilungen • Exponentialverteilung:

Wissenschaftliches Arbeiten – Quantitative Methoden, WS 2008 / 2009 Dipl. Kfm. Hans-Peter Ziegler

Seite 166

VII. Praktischer Umgang mit Daten: Stetige Verteilungen • F-Verteilung:

Wissenschaftliches Arbeiten – Quantitative Methoden, WS 2008 / 2009 Dipl. Kfm. Hans-Peter Ziegler

Seite 167

VII. Praktischer Umgang mit Daten: Stetige Verteilungen • Gamma-Verteilung:

Wissenschaftliches Arbeiten – Quantitative Methoden, WS 2008 / 2009 Dipl. Kfm. Hans-Peter Ziegler

Seite 168

VII. Praktischer Umgang mit Daten: Stetige Verteilungen • Log - Normalverteilung:

Wissenschaftliches Arbeiten – Quantitative Methoden, WS 2008 / 2009 Dipl. Kfm. Hans-Peter Ziegler

Seite 169

VII. Praktischer Umgang mit Daten: Stetige Verteilungen • Normalverteilung:

Wissenschaftliches Arbeiten – Quantitative Methoden, WS 2008 / 2009 Dipl. Kfm. Hans-Peter Ziegler

Seite 170

VII. Praktischer Umgang mit Daten: Stetige Verteilungen • Gleichverteilung:

Wissenschaftliches Arbeiten – Quantitative Methoden, WS 2008 / 2009 Dipl. Kfm. Hans-Peter Ziegler

Seite 171

VII. Praktischer Umgang mit Daten: Stetige Verteilungen • Weibull-Verteilung:

Wissenschaftliches Arbeiten – Quantitative Methoden, WS 2008 / 2009 Dipl. Kfm. Hans-Peter Ziegler

Seite 172

VII. Praktischer Umgang mit Daten: Parameterschätzung Fortsetzung Beispiel: Aus der bisherigen Datenanalyse kann man erkenne, dass wir eine stetige Verteilung benötigen und dass die realisierten Daten ausschließlich positive Werte annehmen (Zufall? Woher kommen die Daten?). Außerdem scheinen Werte nahe Null tendenziell häufiger aufzutreten, als große Werte. Damit kommen von den vorhin aufgeführten Verteilungen die Exponential-, F-, Gamma-, Log-Normal- und Weibull-Verteilung in Frage. Im nächsten Schritt müssen nun die Parameter für diese Verteilungen geschätzt werden, um anschließend testen zu können, durch welche Verteilung die Daten repräsentiert werden können.

Wissenschaftliches Arbeiten – Quantitative Methoden, WS 2008 / 2009 Dipl. Kfm. Hans-Peter Ziegler

Seite 173

VII. Praktischer Umgang mit Daten: Parameterschätzung Schätzfunktion Eine Schätzfunktion oder Schätzstatistik für einen gesuchten Parameter Funktion

in den Stichprobenvariablen Der aus den Realisationen

ist eine

. resultierende numerische Wert

ist der zugehörige Schätzwert.

Wissenschaftliches Arbeiten – Quantitative Methoden, WS 2008 / 2009 Dipl. Kfm. Hans-Peter Ziegler

Seite 174

VII. Praktischer Umgang mit Daten: Parameterschätzung Maximum Likelihood-Schätzfunktion Sind die Parameter einer Verteilung bekannt, kann über die Dichte die Wahrscheinlichkeit dafür ausgerechnet werden, dass bestimmte Werte realisiert werden. Beispiele: Poisson-Verteilung mit dem Parameter

Normalverteilung mit den Parametern

:

:

Wissenschaftliches Arbeiten – Quantitative Methoden, WS 2008 / 2009 Dipl. Kfm. Hans-Peter Ziegler

Seite 175

VII. Praktischer Umgang mit Daten: Parameterschätzung Sind die Variablen unabhängig und identisch Verteilt, mit den Parametern , so kann dann die Wahrscheinlichkeit bzw. die Dichte dafür, dass eine bestimmte Kombination an realisierten Werten beobachtet wird wie folgt berechnet werden:

Bei der Parameterschätzung sind nun aber nicht die Parameter, sondern Realisationen bekannt. Dabei muss die Dichte dann für die festen Realisationen als Funktion in aufgefasst werden:

Bemerkung: Im Folgenden wird das Vektorzeichen zur besseren Übersichtlichkeit weggelassen.

Wissenschaftliches Arbeiten – Quantitative Methoden, WS 2008 / 2009 Dipl. Kfm. Hans-Peter Ziegler

Seite 176

VII. Praktischer Umgang mit Daten: Parameterschätzung Maximum Likelihood-Schätzfunktion Ansatz: Wähle zu als Parameterschätzung diejenigen Parameter , für die die Likelihood maximal ist, d.h.

bzw.

Es werden also zu den Beobachtungen diejenigen Parameter gesucht, für welche die Wahrscheinlichkeit (bzw. Dichte), dass grade diese Werte auftreten am größten ist. Anders gesagt: Man sucht zu den Realisationen diejenigen Parameter, welche die plausibelste Erklärung für das Zustandekommen dieser Werte liefern. Wissenschaftliches Arbeiten – Quantitative Methoden, WS 2008 / 2009 Dipl. Kfm. Hans-Peter Ziegler

Seite 177

VII. Praktischer Umgang mit Daten: Parameterschätzung In den meisten Fällen kann das Maximum der Likelihood-Funktion über die erste Ableitung bestimmt werden. Da diese Funktion sich aus dem Produkt vieler einzelner Faktoren zusammensetzt, empfiehlt es sich die Likelihood-Funktion vorab zu logarithmieren und die Ableitung der daraus resultierenden Log-Likelihood-Funktion zu betrachten:

Wissenschaftliches Arbeiten – Quantitative Methoden, WS 2008 / 2009 Dipl. Kfm. Hans-Peter Ziegler

Seite 178

VII. Praktischer Umgang mit Daten: Parameterschätzung Beispiel: Es wird eine Poisson-Verteilung unterstellt und es wurden die Realisationen

beobachtet.

Wissenschaftliches Arbeiten – Quantitative Methoden, WS 2008 / 2009 Dipl. Kfm. Hans-Peter Ziegler

Seite 179

VII. Praktischer Umgang mit Daten: Parameterschätzung Beispiel: Es wird eine Normalverteilung unterstellt und es wurden die Realisationen

beobachtet.

Wissenschaftliches Arbeiten – Quantitative Methoden, WS 2008 / 2009 Dipl. Kfm. Hans-Peter Ziegler

Seite 180

VII. Praktischer Umgang mit Daten: Güte der Anpassung Nachdem die Parameter geschätzt wurden, stellt sich die Frage, ob die angepasste Verteilung wirklich auf die Daten passt. Dazu können zum einen graphische Ansätze verwendet werden, um einen ersten Eindruck über die Qualität der Anpassung zu gewinnen und alternative Verteilungen miteinander zu vergleichen. Die letztendliche Entscheidung über die Annahme / Ablehnung der Verteilungsannahme sollte über einen Test getroffen werden.

Wissenschaftliches Arbeiten – Quantitative Methoden, WS 2008 / 2009 Dipl. Kfm. Hans-Peter Ziegler

Seite 181

VII. Praktischer Umgang mit Daten: Güte der Anpassung Kerndichteschätzer vs. theoretische Verteilung Zunächst sollte der Verlauf des Kerndichteschätzers, der direkt die beobachteten Häufigkeiten abbildet mit der theoretischen Verteilung verglichen werden. Fortsetzung Beispiel:

Wissenschaftliches Arbeiten – Quantitative Methoden, WS 2008 / 2009 Dipl. Kfm. Hans-Peter Ziegler

Seite 182

VII. Praktischer Umgang mit Daten: Güte der Anpassung Q-Q-Plot Im Q-Q-Plot werden die theoretischen Quantile den beobachteten Quantilen gegenübergestellt. Dazu werden die Quantile als Punkte der Form (x,y) = (theoretisches Quantil, beobachtetes Quantil) in ein Koordinatensystem abgetragen. Passt die Verteilung auf die Daten, müssten die Punkte in etwa auf der ersten Winkelhalbierenden liegen.

Wissenschaftliches Arbeiten – Quantitative Methoden, WS 2008 / 2009 Dipl. Kfm. Hans-Peter Ziegler

Seite 183

VII. Praktischer Umgang mit Daten: Güte der Anpassung Fortsetzung Beispiel:

Wissenschaftliches Arbeiten – Quantitative Methoden, WS 2008 / 2009 Dipl. Kfm. Hans-Peter Ziegler

Seite 184

VII. Praktischer Umgang mit Daten: Güte der Anpassung Kolmogorov-Smirnov-Test Annahmen: • Die einzelnen Zufallsvariablen

sind identisch und unabhängig Verteilt.

• Die unbekannte Verteilungsfunktion

ist stetig.

Nullhypothese: Gegenhypothese: Teststatistik: mit

ist die empirische Verteilungsfunktion zu

Die Nullhypothese wird für ein vorgegebenes Signifikanzniveau , bzw. wenn für den entsprechenden p-Wert gilt:

Wissenschaftliches Arbeiten – Quantitative Methoden, WS 2008 / 2009 Dipl. Kfm. Hans-Peter Ziegler

.

abgelehnt, wenn .

Seite 185

VII. Praktischer Umgang mit Daten: Güte der Anpassung Fortsetzung Beispiel: • Bei Normalverteilungsannahme ergibt sich ein Wert für die Teststatistik von: KS = 0,1469. Der zugehörige p-Wert beträgt: KS = 0,4908. Die Verteilungsannahme kann also nicht verworfen werden. • Bei Log-Normalverteilungsannahme ergibt sich ein Wert für die Teststatistik von: KS = 0,1272. Der zugehörige p-Wert beträgt: KS = 0,6697. Die Verteilungsannahme kann also ebenfalls nicht verworfen werden.

Wissenschaftliches Arbeiten – Quantitative Methoden, WS 2008 / 2009 Dipl. Kfm. Hans-Peter Ziegler

Seite 186