Konfidenzintervalle
Statistische Methoden in der Korpuslinguistik Heike Zinsmeister WS 2008/09
Münzspiel • Experiment – 100 Münzwürfe: Stefan gewinnt bei "Kopf"
• Hypothesen – H0: Stefan wird so oft gewinnen wie der andere Spieler – H1: Stefan wird öfter gewinnen als der andere Spieler
• Bei welchem Ergebnis unterstellen Sie Stefan, dass er schummelt? – bei 51 mal Kopf? Bei 55 mal? Bei 80 mal? – Signifikanztest 20. 11. 2008
1
Münzspiel • Annahme, dass H0 stimmt • Berechnung der Wahrscheinlichkeit p (Irrtumswahrscheinlichkeit), dass das beobachtete Resultat oder alle weiteren Resultate, die genauso hoch oder noch weiter von der Nullhypothese abweichen, zu erhalten • Vorher definiertes Signifikanzniveau, bei dem H0 abgelehnt werden kann – 5% (Signifikanzniveau von 0,05), 1% (Niveau von 0,01),...
20. 11. 2008
2
Signifikanz • Wenn ein Effekt signifikant ist, dann ist er groß genug, dass sein Auftreten bei der Größe der getesteten Stichprobe(n) wahrscheinlich nicht zufällig ist.
20. 11. 2008
3
Vereinfachtes Münzexperiment
(Gries
2008:
40) 20. 11. 2008
4
Diskrete Verteilung (Gries
2008:
42)
20. 11. 2008
5
Diskrete Verteilung (Gries
2008:
45)
20. 11. 2008
6
Binomialverteilung • Funktion dbinom() – x: die Häufigkeit, mit der ein fragliches Ereignis auftritt – s: die Anzahl an Versuchen – p: Wahrscheinlichkeit des Ereignisses
• Wahrscheinlichkeit, dass in drei Würfen dreimal Kopf oben liegt dbinom(3, 3, 0.5)
• Wahrscheinlichkeit, dass in drei Würfen ein- bis dreimal Kopf oben liegt dbinom(0:3, 3, 0.5)
• Kopf taucht zwei oder dreimal auf sum(dbinom(2:3, 3, 0.5))
20. 11. 2008
7
Münzenexperiment 1
barplot(dbinom(0:3,3,0.5), xlab="Anzahl an 'Kopf'", ylab="Auftretenswahrscheinlichkeit", col="gray40", 20. 11. 2008 names.arg=c(0:3),ylim=c(0,0.4))
8
Münzenexperiment 2
barplot(dbinom(0:100,100,0.5), xlab="Anzahl an 'Kopf'", ylab="Auftretenswahrscheinlichkeit", col="gray40", 20. 11. 2008 names.arg=c(0:100),ylim=c(0,0.1))
9
Testen • Wie wahrscheinlich ist es, bei 100 Würfen 58 mal oder öfter Kopf zu erhalten? • sum(dbinom(58:100, 100, 0.5)) • Wie wahrscheinlich ist es, bei 100 Würfen 59 mal oder öfter Kopf zu erhalten? • sum(dbinom(59:100, 100, 0.5))
20. 11. 2008
10
Stetige Verteilungen • und zugehörige Funktion, die ermittelt, welcher Wert wie viel Prozent der Fläche unter der Kurve der entsprechenden Funktion, welche als 1 definiert ist, abschneidet. • Standardnormalverteilung mit z-Werten qnorm() • t-Verteilung: qt() • F-Verteilung: qf() • Chi-Quadrat-Verteilung (χ2): chisq() 20. 11. 2008
11
Normalverteilung • Bsp: IQ-Verteilung, Mean=100, SD=16
20. 11. 2008
12
Normalverteilung • Eigenschaften – unimodal – symmetrisch – zwischen • Mittelwert µ -Standardabweichung sd und Mittelwert+Standardabweichung • liegen ca. 2/3 aller Fälle (68,26%) – zwischen • µ±2*sd • befinden sich ca. 95% aller Fälle (95,44%)
20. 11. 2008
13
Andere Verteilungen • "linkssteil"
20. 11. 2008
14
Bimodale Verteilung
20. 11. 2008
15
Varianz und Standardabweichung von Stichproben • Varianz – Summe der quadratischen Abweichungen vom Mittelwert µ der Stichprobe n – Stichproben vs. Populationsvarianz: (x i " µ) 2 # Normalisierungsfaktor i=1
• Standardabweichung
var ianz _ Stichprobe =
– Wurzel der Varianz !
n "1
n 2 (x " µ ) # i
sd _ Stichprobe =
– Bemerke: sd in R berechnet die Standardabweichung auf der Basis der Stichprobenvarianz
i=1
n "1
!
20. 11. 2008
16
Standardfehler • definiert als die Standardabweichungen der Mittelwerte von gleich großen Stichproben aus einer Population/Grundgesamtheit • Abschätzung des Standardfehlers einer Stichprobe (Stichprobengröße n>30, normal verteilt) SE Mittelwert =
var sd = n n
! 20. 11. 2008
17
Standardfehler der Planungspausen • Einlesen von /Users/cluser/_sflwr/_inputfiles/g_data_chapters_15/03-1_aeh(m).txt
• Standardfehler vom Mittelwert AEHM