09

Konfidenzintervalle Statistische Methoden in der Korpuslinguistik Heike Zinsmeister WS 2008/09 Münzspiel • Experiment – 100 Münzwürfe: Stefan gewin...
Author: Arnim Busch
17 downloads 1 Views 390KB Size
Konfidenzintervalle

Statistische Methoden in der Korpuslinguistik Heike Zinsmeister WS 2008/09

Münzspiel • Experiment – 100 Münzwürfe: Stefan gewinnt bei "Kopf"

• Hypothesen – H0: Stefan wird so oft gewinnen wie der andere Spieler – H1: Stefan wird öfter gewinnen als der andere Spieler

• Bei welchem Ergebnis unterstellen Sie Stefan, dass er schummelt? – bei 51 mal Kopf? Bei 55 mal? Bei 80 mal? – Signifikanztest 20. 11. 2008

1

Münzspiel • Annahme, dass H0 stimmt • Berechnung der Wahrscheinlichkeit p (Irrtumswahrscheinlichkeit), dass das beobachtete Resultat oder alle weiteren Resultate, die genauso hoch oder noch weiter von der Nullhypothese abweichen, zu erhalten • Vorher definiertes Signifikanzniveau, bei dem H0 abgelehnt werden kann – 5% (Signifikanzniveau von 0,05), 1% (Niveau von 0,01),...

20. 11. 2008

2

Signifikanz • Wenn ein Effekt signifikant ist, dann ist er groß genug, dass sein Auftreten bei der Größe der getesteten Stichprobe(n) wahrscheinlich nicht zufällig ist.

20. 11. 2008

3

Vereinfachtes Münzexperiment

(Gries
2008:
40) 20. 11. 2008

4

Diskrete Verteilung (Gries
2008:
42)

20. 11. 2008

5

Diskrete Verteilung (Gries
2008:
45)

20. 11. 2008

6

Binomialverteilung • Funktion dbinom() – x: die Häufigkeit, mit der ein fragliches Ereignis auftritt – s: die Anzahl an Versuchen – p: Wahrscheinlichkeit des Ereignisses

• Wahrscheinlichkeit, dass in drei Würfen dreimal Kopf oben liegt dbinom(3, 3, 0.5)

• Wahrscheinlichkeit, dass in drei Würfen ein- bis dreimal Kopf oben liegt dbinom(0:3, 3, 0.5)

• Kopf taucht zwei oder dreimal auf sum(dbinom(2:3, 3, 0.5))

20. 11. 2008

7

Münzenexperiment 1

barplot(dbinom(0:3,3,0.5), xlab="Anzahl an 'Kopf'", ylab="Auftretenswahrscheinlichkeit", col="gray40", 20. 11. 2008 names.arg=c(0:3),ylim=c(0,0.4))

8

Münzenexperiment 2

barplot(dbinom(0:100,100,0.5), xlab="Anzahl an 'Kopf'", ylab="Auftretenswahrscheinlichkeit", col="gray40", 20. 11. 2008 names.arg=c(0:100),ylim=c(0,0.1))

9

Testen • Wie wahrscheinlich ist es, bei 100 Würfen 58 mal oder öfter Kopf zu erhalten? • sum(dbinom(58:100, 100, 0.5)) • Wie wahrscheinlich ist es, bei 100 Würfen 59 mal oder öfter Kopf zu erhalten? • sum(dbinom(59:100, 100, 0.5))

20. 11. 2008

10

Stetige Verteilungen • und zugehörige Funktion, die ermittelt, welcher Wert wie viel Prozent der Fläche unter der Kurve der entsprechenden Funktion, welche als 1 definiert ist, abschneidet. • Standardnormalverteilung mit z-Werten qnorm() • t-Verteilung: qt() • F-Verteilung: qf() • Chi-Quadrat-Verteilung (χ2): chisq() 20. 11. 2008

11

Normalverteilung • Bsp: IQ-Verteilung, Mean=100, SD=16

20. 11. 2008

12

Normalverteilung • Eigenschaften – unimodal – symmetrisch – zwischen • Mittelwert µ -Standardabweichung sd und Mittelwert+Standardabweichung • liegen ca. 2/3 aller Fälle (68,26%) – zwischen • µ±2*sd • befinden sich ca. 95% aller Fälle (95,44%)

20. 11. 2008

13

Andere Verteilungen • "linkssteil"

20. 11. 2008

14

Bimodale Verteilung

20. 11. 2008

15

Varianz und Standardabweichung von Stichproben • Varianz – Summe der quadratischen Abweichungen vom Mittelwert µ der Stichprobe n – Stichproben vs. Populationsvarianz: (x i " µ) 2 # Normalisierungsfaktor i=1

• Standardabweichung

var ianz _ Stichprobe =

– Wurzel der Varianz !

n "1

n 2 (x " µ ) # i

sd _ Stichprobe =

– Bemerke: sd in R berechnet die Standardabweichung auf der Basis der Stichprobenvarianz

i=1

n "1

!

20. 11. 2008

16

Standardfehler • definiert als die Standardabweichungen der Mittelwerte von gleich großen Stichproben aus einer Population/Grundgesamtheit • Abschätzung des Standardfehlers einer Stichprobe (Stichprobengröße n>30, normal verteilt) SE Mittelwert =

var sd = n n

! 20. 11. 2008

17

Standardfehler der Planungspausen • Einlesen von /Users/cluser/_sflwr/_inputfiles/g_data_chapters_15/03-1_aeh(m).txt

• Standardfehler vom Mittelwert AEHM