Statistik mit R, Sitzung am 19.06.07

Mike K¨ uhne

1

R-Kurs

INHALTSVERZEICHNIS

Inhaltsverzeichnis 1 Bivariate Statistik 1.1 Tabellen . . . . . . . 1.2 Zusammenhangsmaße 1.3 Zusammenhangsmaße 1.4 Zusammenhangsmaße

. . . .

3 3 6 7 8

2 Parametrische Hypothesentests 2.1 t-Test f¨ ur eine Stichprobe . . . . . . . . . . . . . . . . . . . . 2.2 t-Test f¨ ur zwei unabh¨angige Stichproben . . . . . . . . . . . . 2.3 t-Test f¨ ur zwei abh¨angige Stichproben . . . . . . . . . . . . . .

10 10 10 12

Mike K¨ uhne

. . f¨ ur f¨ ur f¨ ur

. . . . . . . . . . . . . . nominal skalierte Daten ordinal skalierte Daten . metrische Daten . . . .

2

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

R-Kurs

1 BIVARIATE STATISTIK

Statistik mit R 1

Bivariate Statistik

1.1

Tabellen

Nehmen wir an, dass rauchende Studierende weniger Zeit f¨ ur das Studium 1 aufbringen. Die Daten k¨onnten wie folgt aussehen:

Tabelle 1: Rauchen und Studieren ID 1 2 3 4 5 6 7 8 9 10

Raucher Ja Nein Nein Ja Nein Ja Ja Ja Nein Ja

t¨agliche Studierzeit weniger als 5 Stunden 5 bis 10 Stunden 5 bis 10 Stunden mehr als 10 Stunden mehr als 10 Stunden weniger als 5 Stunden 5 bis 10 Stunden weniger als 5 Stunden mehr als 10 Stunden 5 bis 10 Stunden

Die Daten in R > smokes = c("Y","N","N","Y","N","Y","Y","Y","N","Y") > amount = c(1,2,2,3,3,1,2,1,3,2)

Mit der bereits bekannten Funktion table() kann man sich die univariate Verteilung ansehen. > table(smokes) N Y 4 6

1

Beispiel entnommen und modifiziert aus: Verzani, R. (2002). simpleR − Using R for Introductory Statistics. online

Mike K¨ uhne

3

R-Kurs

1 BIVARIATE STATISTIK Mit der Funktion table() lassen sich auch 2 Variablen zusammengefasst darstellen. > table(smokes, amount) amount smokes 1 2 3 N 0 2 2 Y 3 2 1

Mit der Funktion prop.table() kann man sich die prozentualen Anteile ausweisen lassen. > tab.1 prop.table(tab.1) amount smokes 1 2 3 N 0.0 0.2 0.2 Y 0.3 0.2 0.1

Man kann sich auch die Zeilenprozente > prop.table(tab.1,1) amount smokes 1 2 3 N 0.0000000 0.5000000 0.5000000 Y 0.5000000 0.3333333 0.1666667

und Spaltenprozente ausweisen lassen. > prop.table(tab.1,2) amount smokes 1 2 3 N 0.0000000 0.5000000 0.6666667 Y 1.0000000 0.5000000 0.3333333

Die tabellarische Darstellung f¨allt in R etwas spartanisch aus. F¨ ur die univariate tabellarische Darstellung hat unter anderem Doli´c (2004, S. 62) eine Funktion geschrieben: [Funktion] > freq.table cor.test (esoph$alcgp, esoph$tobgp,method = "kendall" ) Kendall's rank correlation tau data: esoph$alcgp and esoph$tobgp z = -0.1851, p-value = 0.8531 alternative hypothesis: true tau is not equal to 0 sample estimates: tau -0.01655744

Mike K¨ uhne

7

R-Kurs

1 BIVARIATE STATISTIK

1.4

Zusammenhangsmaße fu ¨ r metrische Daten

Zur Veranschaulichung wird auf einen weiteren Datensatz zur¨ uckgegriffen, Statistiken zu den Rettungsbooten der Titanic: Lifeboats. > Lifeboats > ?Lifeboats

Gibt es einen Zusammenhang zwischen der Anzahl von M¨annern und Frauen in den Rettungsbooten der Titanic? Es kann wiederum auf die Funktion cor.test() zur¨ uckgegriffen werden. Diesmal wird unter der Einstellung method person angegeben. > cor.test(Lifeboats$crew, Lifeboats$men, method="pearson") > # Kurzform, verwendet die Standardeinstellung > cor.test(Lifeboats$women, Lifeboats$men) Pearson's product-moment correlation data: Lifeboats$women and Lifeboats$men t = -1.4153, df = 16, p-value = 0.1761 alternative hypothesis: true correlation is not equal to 0 95 percent confidence interval: -0.6925797 0.1578924 sample estimates: cor -0.3335666

Mike K¨ uhne

8

R-Kurs

1 BIVARIATE STATISTIK

Praxis 1 1. Lesen Sie den SPSS-Datensatz allison_2.sav ein. Beachten Sie dabei, wohin das Arbeitsverzeichnis von R verweist. mit getwd() erhalten Sie dar¨ uber Auskunft und mit setwd() k¨onnen Sie es setzen. Achten Sie außerdem auf die Verwendung der Backslashs. ¨ 2. Verschaffen Sie sich einen Uberblick u ¨ber den Datensatz. 3. Wie hoch ist das durchschnittliche Einkommen? Wie groß ist der Median des Alters? 4. Analysieren Sie den Zusammenhang von Einkommen und Alter. 5. Analysieren Sie den Zusammenhang zwischen Geschlecht und Kinderzahl (CHILDREN ). Gehen sie dabei davon aus, dass die Variable CHILDREN ordinal skaliert ist (0 = keine Kinder,1 = wenig Kinder, 3 = viele Kinder). 6. Analysieren Sie den Zusammenhang zwischen Kinderzahl und gew¨ unschter Kinderzahl (CHILDR A) 7. Validieren Sie Ihre Ergebnisse, indem Sie die Ergebnisse in SPSS u ¨berpr¨ ufen.

Mike K¨ uhne

9

R-Kurs

2 PARAMETRISCHE HYPOTHESENTESTS

2

Parametrische Hypothesentests

Die Daten sollten aus einer Zufallsstichprobe stammen. Voraussetzungen der betrachteten Variablen: Intervallskala mindestens intervallskaliert, Normalverteilung insbesondere wenn n < 30, Es existiert f¨ ur den 2-Stichproben-Fall eine weitere Voraussetzung: Varianzhomogenit¨ at Ansonsten m¨ ussten die Freiheitsgrade korrigiert werden. Die Standardeinstellung im t-Test geht von ungleichen Varianzen aus.

2.1

t-Test fu ¨ r eine Stichprobe

In diesem Test wird u uft, ob der Mittelwert der Stichprobe einen in der ¨berpr¨ Grundgesamtheit vorgegebenen Wert u ¨ber- oder unterschreitet. In diesem Beispiel: 10.000 > t.test (allison2$INCOME, mu=10000)

2.2

t-Test fu angige Stichproben ¨ r zwei unabh¨

Die abh¨angige Variable wird durch eine Tilde von der Unabh¨angigen getrennt. Die Standardeinstellung geht von ungleichen Varianzen aus. > t.test(INCOME~SEX, data=allison2) Welch Two Sample t-test data: INCOME by SEX t = -6.1827, df = 17.167, p-value = 9.598e-06 alternative hypothesis: true difference in means is not equal to 0 95 percent confidence interval: -40051.03 -19682.30 sample estimates: mean in group 0 mean in group 1 12400.00 42266.67

Mike K¨ uhne

10

R-Kurs

2 PARAMETRISCHE HYPOTHESENTESTS Kann man von gleichen Varianzen ausgehen, muss man das in den Argumenten der Funktion vermerken: > t.test(INCOME~SEX, data=allison2, var.equal=TRUE)

Two Sample t-test data: INCOME by SEX t = -6.8986, df = 33, p-value = 7.036e-08 alternative hypothesis: true difference in means is not equal to 0 95 percent confidence interval: -38674.85 -21058.48 sample estimates: mean in group 0 mean in group 1 12400.00 42266.67

Einen einseitigen Hypothesentest kann man mit dem Argument alternative ¨andern. In diesem Falle kleiner als. >

t.test(INCOME~SEX, data=allison2, var.equal=TRUE, alternative="less") Two Sample t-test

data: INCOME by SEX t = -6.8986, df = 33, p-value = 3.518e-08 alternative hypothesis: true difference in means is less than 0 95 percent confidence interval: -Inf -22539.8 sample estimates: mean in group 0 mean in group 1 12400.00 42266.67

Mike K¨ uhne

11

R-Kurs

2 PARAMETRISCHE HYPOTHESENTESTS

2.3

t-Test fu angige Stichproben ¨ r zwei abh¨

Es wurden Abschlussklausuren von zwei verschiedenen Professoren korrigiert. Die Frage ist, ob sich die Benotung zwischen den Professoren unterscheidet. > Klausurnoten.prof.1 Klausurnoten.prof.2 t.test(Klausurnoten.prof.1,Klausurnoten.prof.2,paired=TRUE) Paired t-test data: Klausurnoten.prof.1 and Klausurnoten.prof.2 t = 4, df = 9, p-value = 0.003110 alternative hypothesis: true difference in means is not equal to 0 95 percent confidence interval: 0.3475686 1.2524314 sample estimates: mean of the differences 0.8

Mike K¨ uhne

12

R-Kurs

2 PARAMETRISCHE HYPOTHESENTESTS

Praxis 2 1. Wenn man davon ausgeht, dass das durchschnittliche Alter in der Grundgesamtheit 25 ist, weicht dann der Mittelwert unserer Stichprobe davon signifikant ab? 2. Unterscheidet sich das Alter zwischen M¨annern und Frauen? 3. Haben M¨anner eine h¨ohere Bildung? 4. Validieren Sie Ihre Ergebnisse u ¨ber den Vergleich mit den Ausgaben bei SPSS.

Mike K¨ uhne

13

R-Kurs