Analyse von Querschnittsdaten Arten von Variablen und Strategien der Datenanalyse
Gliederung 1. Arten von Variablen 2. Analyse einzelner Variablen (univariate Verteilungen) 3. Analyse der Zusammenhänge zweier Variablen (bivariate Verteilungen) 4. Ausblick: Statistische Analyseverfahren und statistische Modelle
Gliederung 1. Arten von Variablen 2. Analyse einzelner Variablen (univariate Verteilungen) 3. Analyse der Zusammenhänge zweier Variablen (bivariate Verteilungen) 4. Ausblick: Statistische Analyseverfahren und statistische Modelle
Definition Messniveau Niveau Identität Ränge Abstände Nullpunkt Nominal
ja
nein
nein
nein
Ordinal
ja
ja
nein
nein
Intervall
ja
ja
ja
nein
Ratio
ja
ja
ja
ja
Beispiele aus dem GSS Niveau
Beispiele
Identität
Ränge
Abstände
Nullpunkt
Nominal
Geschlecht Familienstand Nationalität
ja
nein
nein
nein
ja
ja
nein
nein
ja
ja
ja
nein
ja
ja
ja
ja
Kirchgang Ordinal Schulabschluss Liberalismus Liberalismus Intervall Berufsprestige Einkommen Ratio Ausbildungsdauer Kinderzahl
Wenige oder viele Ausprägungen? • Kategoriale Variablen sind Merkmale, die eine begrenzte Anzahl von Ausprägungen (Kategorien) haben. • Variablen mit sehr vielen Ausprägungen zählen nicht zu den kategorialen Variablen. Liegt diesen Messungen eine kontinuierliche Eigenschaft zugrunde, wollen wir sie als kontinuierliche Variablen bezeichnen.
Beispiele aus dem GSS Niveau
kategorial
kontinuierlich
Nominal
Geschlecht (2) Familienstand (5)
Nationalität (38)
Ordinal
Kirchgang (9) Schulabschluss (5) Liberalismus (7)
Intervall
Liberalismus (7)
Ratio
Berufsprestige (>50)
Einkommensklasse (21) Einkommen (>1000) Kinderzahl (9) Ausbildungsdauer (19)
Strategien der Datenanalyse • kategoriale Variablen – analysiere das Auftreten einzelner Ausprägungen – Beispiel: Wie groß ist die Wahrscheinlichkeit, verheiratet zu sein?
• kontinuierliche Variablen – analysiere bestimmte Eigenschaften (Zentrum, Streuung) der Verteilung aller Ausprägungen – Beispiel: Wie hoch ist das Durchschnittseinkommen?
Gliederung 1. Arten von Variablen 2. Analyse einzelner Variablen (univariate Verteilungen) 3. Analyse der Zusammenhänge zweier Variablen (bivariate Verteilungen) 4. Ausblick: Statistische Analyseverfahren und statistische Modelle
Relative Häufigkeiten • Eine relative Häufigkeit betrachtet die absolute Häufigkeit einer Ausprägung einer Variablen entweder (a) in Relation zur Gesamtzahl aller Untersuchungseinheiten oder (b) in Relation zur Häufigkeit einer anderen Ausprägung der Variablen. a. Beispiel: 53% aller Befragten sind verheiratet. Diesen Quotienten bezeichnet man als (prozentualen) Anteilswert. b. Beispiel: Das Größenverhältnis von Verheirateten und Unverheirateten beträgt ca. 5 zu 2. Diesen Quotienten bezeichnet man als Größenverhältnis oder Odds (engl.: Wetten).
Mittelwerte und Perzentile • Arithmetisches Mittel – Das durchschnittliche Jahreseinkommen beträgt 30.745,42 Dollar.
• Median (50. Perzentil) – Die Hälfte der Personen hat ein Jahreseinkommen von maximal 25.510 Dollar.
• Perzentil – Das obere Zehntel der Befragten hat ein Jahreseinkommen von mindestens 65.533 Dollar.
Definition Dummy-Variable • Für einige statistische Auswertungen ist es hilfreich zu wissen, ob eine Untersuchungseinheit eine bestimmte Ausprägung einer kategorialen Variablen aufweist oder nicht. • Zu diesem Zweck bildet man eine sogenannte Stellvertreter-Variable (engl.: dummy variable) mit den Ausprägungen 1 und 0: • 1 = Ausprägung liegt vor • 0 = Ausprägung liegt nicht vor
• Bei insgesamt k Ausprägungen einer kategorialen Variablen sind im Prinzip k Dummies denkbar. Praktisch sind aber lediglich (k-1) Dummies nötig, um die k Ausprägungen vollständig abzubilden: • die (ausgelassene) k-te Ausprägung erkennt man daran, dass alle Dummies den Wert 0 aufweisen.
0
total family income in dollars 20,000 40,000 60,000 80,000
100000
Box-Plot
75. Perzentil: drittes Quartil
50. Perzentil: Median 25. Perzentil: erstes Quartil
Univariate Verteilungen kategorial
kontinuierlich
Beispiel
Familienstand
Einkommen
Tabelle
problemlos
Variable vorher klassifizieren
Graphik
Säulendiagramm
Histogram Box-Plot
Statistik
absolut: Häufigkeiten relativ: Anteile, Odds (Mittelwerte) (Streuungsmaße)
(absolut: Häufigkeiten) (relativ: Anteile, Odds) Mittelwerte Streuungsmaße
Gliederung 1. Arten von Variablen 2. Analyse einzelner Variablen (univariate Verteilungen) 3. Analyse der Zusammenhänge zweier Variablen (bivariate Verteilungen) 4. Ausblick: Statistische Analyseverfahren und statistische Modelle
Analyse mehrerer Variablen (1) • definiere eine Variable als abhängige Variable y. • unbedingte / bedingte Verteilung: – unbedingt: Verteilung von y für alle Untersuchungseinheiten – bedingt: Verteilung von y für den Teil der Untersuchungseinheiten mit x=k
• zur Beschreibung des Zusammenhangs zwischen x und y vergleiche die bedingten Verteilungen von y für verschiedene x-Werte
Analyse mehrerer Variablen (2) Grundprinzip der statistischen Modelle • kategoriale Variablen – Was ist die Wahrscheinlichkeit, dass die abhängige Variable y eine bestimmte Ausprägung k aufweist, für verschiedene Werte der unabhängigen Variablen x. – Pr(y=k | x)
• kontinuierliche Variablen – Welchen Wert der abhängigen Variablen y kann man im Durchschnitt für verschiedene Werte der unabhängigen Variablen x erwarten. – E(y | x)
Vergleiche konditionale Anteilswerte Status married widowed divorced separated never married Total
m 371 22 60 12 171 636
f 433 146 115 33 154 881
⎛ 371 433 ⎞ ∆p % = 100 ⋅ ⎜ − ⎟ ≈ 9,1 ⎝ 636 881 ⎠
• 58,3% aller Männer sind verheiratet, dagegen nur 49,2% aller Frauen. • Der Anteil der Verheirateten ist bei den Männern 9,1 Prozentpunkte größer (∆p%: Prozentsatzdifferenz).
Vergleiche konditionale Odds Status married widowed divorced separated never married Total
m 371 22 60 12 171 636
f 433 146 115 33 154 881
433 154 2,81 OR = ≈ ≈ 1,3 371 171 2,17
• Bei den Männern kommen 2,17 verheiratete auf einen unverheirateten Mann. Bei den Frauen beträgt das Verhältnis 2,81 zu 1. • Das Verhältnis von Verheirateten zu Unverheirateten ist bei den Frauen 1,3 mal größer als bei den Männern (OR: Odds Ratio).
Bivariate Verteilungen (1) y: kategorial x: kategorial
y: kontinuierlich x: kategorial
Beispiel
y: Familienstand x: Geschlecht
y: Einkommen x: Schulabschluss
Tabelle
problemlos (Kreuztabelle)
y vorher klassifizieren
Graphik
gestapeltes Säulendiagramm
konditionales Histogram konditionaler Box-Plot
Statistik
konditionale Anteile konditionale Odds
konditionale Mittelwerte konditionale Mediane
Bivariate Verteilungen (2) y: kategorial x: kontinuierlich
y: kontinuierlich x: kontinuierlich
Beispiel
y: verheiratet x: Einkommen
y: Einkommen x: Berufsprestige
Tabelle
x vorher klassifizieren
x und y vorher klassifizieren
Graphik
(Streudiagramm) (Säulen wenn x klassifiziert)
Streudiagramm
Statistik
(konditionale Anteile / Odds wenn x klassifiziert)
Korrelationskoeffizient Regressionskoeffeizient
Gliederung 1. Arten von Variablen 2. Analyse einzelner Variablen (univariate Verteilungen) 3. Analyse der Zusammenhänge zweier Variablen (bivariate Verteilungen) 4. Ausblick: Statistische Analyseverfahren und statistische Modelle
Multivariate Analyseverfahren unabhängige Variable x
abhängige Variable y kategorial
kontinuierlich
kategorial
Tabellenanalyse
Varianzanalyse
kontinuierlich
logistische Regression
lineare Regression
0
20000
40000
60000
mean of incgen 20,000 40,000
80000
60,000
100000
Statistische Modelle
1
2 rs highest degree
3
4 0
0
total family income in dollars
x kontinuierlich y = β 0 + β1 x + u
Fitted values
lt high school
high school
junior college
bachelor
graduate
x kategorial y = β 0 + β1d hs + β 2 d jc + β 3 d ba + β 4 d gr + u
Zum Schluss
Weiterführende Literatur • H.J. Andreß (2001): Glossar zur Datenerhebung und statistischen Analyse – über ESWF-Homepage >> Links >> Methoden • www.wiso.uni-koeln.de/ASPSamp/eswf/html/glossar/stichwor.htm
– Schlagworte zu Messniveau, kategoriale / kontinuierliche Variable, Dummy-Variable, Anteilswert, Odds, graphischen Darstellungen, Tabellenanalyse usw.
• Einführungen in Stata – Kohler, Ulrich/Kreuter, Frauke (2001): Datenanalyse mit Stata. München: Oldenbourg – Hamilton, Lawrence C. (2004): Statistics with Stata updated for version 8. Belmont: Duxbury/Thomson Learning – siehe auch ESWF-Homepage >> Lehre >> Stata
Zusammenfassung Messniveau
• beschreibt zulässige mathematische Operationen
Datenanalyse
• wenige oder viele Ausprägungen • Verfahren für kategoriale oder kontinuierliche Daten
univariate Analyse
• relative Häufigkeiten (Anteile, Odds) • Mittelwerte • Histogramm, Box Plot
bivariate Analyse
• vergleiche bedingte Verteilungen • konditionale Anteile, Odds, Mittelwerte • konditionale Box Plots und Histogramme • Streudiagramm
Stata-Befehle zum Einstieg (1) set mem 100000
Speicherplatz für Daten schaffen
use gss1991.dta
Daten laden
describe
Beschreibung des Datensatzes im Speicher
clear
Datenspeicher löschen
summarize y
Mittelwert, Standardabweichung, Min, Max
tabulate y
Häufigkeitsverteilung
tab y, gen(dummy)
ditto mit Generierung von Dummies
histogram y
Histogramm y kontinuierlich
histogram y, discrete Histogramm y kategorial graph box y graph hbox y
Box-Plot (vertikal) Box-Plot (horizontal)
Stata-Befehle zum Einstieg (2) tabulate x y
Kreuztabelle mit x in Zeile und y in Spalte
tabulate x y, row
ditto mit Zeilenprozenten
tabulate x y, col
ditto mit Spaltenprozenten
graph box y, over(x)
konditionaler Box-Plot
histogram y, by(x)
konditionales Histogramm
graph dot y, over(x)
konditionales Dot Diagramm
graph twoway scatter y x
Streudiagramm
Wichtige Fachausdrücke Deutsch
Englisch
Deutsch
Englisch
Messniveau
measurement scale
bedingte Verteilung
conditional distribution
kategorial kontinuierlich
categorical continuous
Box Plot
box plot
arithmetischer Mittelwert
mean
Histogramm
histogram
Median
median
Streudiagramm
scattergram
Wichtige Fachausdrücke Deutsch
Englisch
Größenverhältnis (Odds)
odds
odds ratio
odds ratio
Dummy Variable
dummy variable
Deutsch
Englisch