Analyse von Querschnittsdaten. Arten von Variablen und Strategien der Datenanalyse

Analyse von Querschnittsdaten Arten von Variablen und Strategien der Datenanalyse Gliederung 1. Arten von Variablen 2. Analyse einzelner Variablen (...

Author: Sophia Weiß

1 downloads 0 Views 147KB Size

Report

Download PDF

Recommend Documents

Analyse von Querschnittsdaten. Drittvariablenkontrolle

Analyse von Querschnittsdaten. Bivariate Regression

Analyse von Instandhaltungsstrategien und Optimierung der Instandhaltungskosten

23. DIFFERENTIALRECHNUNG VON FUNKTIONEN VON MEHREREN VARIABLEN

Eine Sammlung von Konstanten, Datentypen und Variablen

Berechnung und Analyse von Hammerbrechern

Analyse und Modellierung von Informationssystemen

Analyse von BBodSchG und BBodSchV

Analyse und Design von Prozessketten

2.3 Zielgruppenplanung Einsatz und Arten von Typologien

Analyse und Modellierung von Informationssystemen

Arten von Klassen-Beziehungen

1. Arten von Sprachlernberatung

Strategien bei der Entwicklung von Poker-Agenten

Zwei Arten von Unglauben von I.I

Studienarbeit. Implementation und Validierung von Templateupdate-Strategien in der Bildsequenzanalyse

Bakterienscreening von Thrombozytenkonzentraten: alte und neue Strategien

16. FUNKTIONEN VON MEHREREN VARIABLEN

Analyse von Antriebsprozessen, deren Steuerung sowie von Prozessen der Energiewandlung

Analyse der Beziehung von vorbeugendem und chemischem Pflanzenschutz in Weizen und Raps anhand von Praxis-Daten

Analyse der Belastungen und Beanspruchungen von Erziehern in Kindertageseinrichtungen

Analyse der Finanzlage von Land und Kommunen in Sachsen-Anhalt

Analyse von Querschnittsdaten Arten von Variablen und Strategien der Datenanalyse

Gliederung 1. Arten von Variablen 2. Analyse einzelner Variablen (univariate Verteilungen) 3. Analyse der Zusammenhänge zweier Variablen (bivariate Verteilungen) 4. Ausblick: Statistische Analyseverfahren und statistische Modelle

Gliederung 1. Arten von Variablen 2. Analyse einzelner Variablen (univariate Verteilungen) 3. Analyse der Zusammenhänge zweier Variablen (bivariate Verteilungen) 4. Ausblick: Statistische Analyseverfahren und statistische Modelle

Definition Messniveau Niveau Identität Ränge Abstände Nullpunkt Nominal

ja

nein

nein

nein

Ordinal

ja

ja

nein

nein

Intervall

ja

ja

ja

nein

Ratio

ja

ja

ja

ja

Beispiele aus dem GSS Niveau

Beispiele

Identität

Ränge

Abstände

Nullpunkt

Nominal

Geschlecht Familienstand Nationalität

ja

nein

nein

nein

ja

ja

nein

nein

ja

ja

ja

nein

ja

ja

ja

ja

Kirchgang Ordinal Schulabschluss Liberalismus Liberalismus Intervall Berufsprestige Einkommen Ratio Ausbildungsdauer Kinderzahl

Wenige oder viele Ausprägungen? • Kategoriale Variablen sind Merkmale, die eine begrenzte Anzahl von Ausprägungen (Kategorien) haben. • Variablen mit sehr vielen Ausprägungen zählen nicht zu den kategorialen Variablen. Liegt diesen Messungen eine kontinuierliche Eigenschaft zugrunde, wollen wir sie als kontinuierliche Variablen bezeichnen.

Beispiele aus dem GSS Niveau

kategorial

kontinuierlich

Nominal

Geschlecht (2) Familienstand (5)

Nationalität (38)

Ordinal

Kirchgang (9) Schulabschluss (5) Liberalismus (7)

Intervall

Liberalismus (7)

Ratio

Berufsprestige (>50)

Einkommensklasse (21) Einkommen (>1000) Kinderzahl (9) Ausbildungsdauer (19)

Strategien der Datenanalyse • kategoriale Variablen – analysiere das Auftreten einzelner Ausprägungen – Beispiel: Wie groß ist die Wahrscheinlichkeit, verheiratet zu sein?

• kontinuierliche Variablen – analysiere bestimmte Eigenschaften (Zentrum, Streuung) der Verteilung aller Ausprägungen – Beispiel: Wie hoch ist das Durchschnittseinkommen?

Gliederung 1. Arten von Variablen 2. Analyse einzelner Variablen (univariate Verteilungen) 3. Analyse der Zusammenhänge zweier Variablen (bivariate Verteilungen) 4. Ausblick: Statistische Analyseverfahren und statistische Modelle

Relative Häufigkeiten • Eine relative Häufigkeit betrachtet die absolute Häufigkeit einer Ausprägung einer Variablen entweder (a) in Relation zur Gesamtzahl aller Untersuchungseinheiten oder (b) in Relation zur Häufigkeit einer anderen Ausprägung der Variablen. a. Beispiel: 53% aller Befragten sind verheiratet. Diesen Quotienten bezeichnet man als (prozentualen) Anteilswert. b. Beispiel: Das Größenverhältnis von Verheirateten und Unverheirateten beträgt ca. 5 zu 2. Diesen Quotienten bezeichnet man als Größenverhältnis oder Odds (engl.: Wetten).

Mittelwerte und Perzentile • Arithmetisches Mittel – Das durchschnittliche Jahreseinkommen beträgt 30.745,42 Dollar.

• Median (50. Perzentil) – Die Hälfte der Personen hat ein Jahreseinkommen von maximal 25.510 Dollar.

• Perzentil – Das obere Zehntel der Befragten hat ein Jahreseinkommen von mindestens 65.533 Dollar.

Definition Dummy-Variable • Für einige statistische Auswertungen ist es hilfreich zu wissen, ob eine Untersuchungseinheit eine bestimmte Ausprägung einer kategorialen Variablen aufweist oder nicht. • Zu diesem Zweck bildet man eine sogenannte Stellvertreter-Variable (engl.: dummy variable) mit den Ausprägungen 1 und 0: • 1 = Ausprägung liegt vor • 0 = Ausprägung liegt nicht vor

• Bei insgesamt k Ausprägungen einer kategorialen Variablen sind im Prinzip k Dummies denkbar. Praktisch sind aber lediglich (k-1) Dummies nötig, um die k Ausprägungen vollständig abzubilden: • die (ausgelassene) k-te Ausprägung erkennt man daran, dass alle Dummies den Wert 0 aufweisen.

0

total family income in dollars 20,000 40,000 60,000 80,000

100000

Box-Plot

75. Perzentil: drittes Quartil

50. Perzentil: Median 25. Perzentil: erstes Quartil

Univariate Verteilungen kategorial

kontinuierlich

Beispiel

Familienstand

Einkommen

Tabelle

problemlos

Variable vorher klassifizieren

Graphik

Säulendiagramm

Histogram Box-Plot

Statistik

absolut: Häufigkeiten relativ: Anteile, Odds (Mittelwerte) (Streuungsmaße)

(absolut: Häufigkeiten) (relativ: Anteile, Odds) Mittelwerte Streuungsmaße

Gliederung 1. Arten von Variablen 2. Analyse einzelner Variablen (univariate Verteilungen) 3. Analyse der Zusammenhänge zweier Variablen (bivariate Verteilungen) 4. Ausblick: Statistische Analyseverfahren und statistische Modelle

Analyse mehrerer Variablen (1) • definiere eine Variable als abhängige Variable y. • unbedingte / bedingte Verteilung: – unbedingt: Verteilung von y für alle Untersuchungseinheiten – bedingt: Verteilung von y für den Teil der Untersuchungseinheiten mit x=k

• zur Beschreibung des Zusammenhangs zwischen x und y vergleiche die bedingten Verteilungen von y für verschiedene x-Werte

Analyse mehrerer Variablen (2) Grundprinzip der statistischen Modelle • kategoriale Variablen – Was ist die Wahrscheinlichkeit, dass die abhängige Variable y eine bestimmte Ausprägung k aufweist, für verschiedene Werte der unabhängigen Variablen x. – Pr(y=k | x)

• kontinuierliche Variablen – Welchen Wert der abhängigen Variablen y kann man im Durchschnitt für verschiedene Werte der unabhängigen Variablen x erwarten. – E(y | x)

Vergleiche konditionale Anteilswerte Status married widowed divorced separated never married Total

m 371 22 60 12 171 636

f 433 146 115 33 154 881

⎛ 371 433 ⎞ ∆p % = 100 ⋅ ⎜ − ⎟ ≈ 9,1 ⎝ 636 881 ⎠

• 58,3% aller Männer sind verheiratet, dagegen nur 49,2% aller Frauen. • Der Anteil der Verheirateten ist bei den Männern 9,1 Prozentpunkte größer (∆p%: Prozentsatzdifferenz).

Vergleiche konditionale Odds Status married widowed divorced separated never married Total

m 371 22 60 12 171 636

f 433 146 115 33 154 881

433 154 2,81 OR = ≈ ≈ 1,3 371 171 2,17

• Bei den Männern kommen 2,17 verheiratete auf einen unverheirateten Mann. Bei den Frauen beträgt das Verhältnis 2,81 zu 1. • Das Verhältnis von Verheirateten zu Unverheirateten ist bei den Frauen 1,3 mal größer als bei den Männern (OR: Odds Ratio).

Bivariate Verteilungen (1) y: kategorial x: kategorial

y: kontinuierlich x: kategorial

Beispiel

y: Familienstand x: Geschlecht

y: Einkommen x: Schulabschluss

Tabelle

problemlos (Kreuztabelle)

y vorher klassifizieren

Graphik

gestapeltes Säulendiagramm

konditionales Histogram konditionaler Box-Plot

Statistik

konditionale Anteile konditionale Odds

konditionale Mittelwerte konditionale Mediane

Bivariate Verteilungen (2) y: kategorial x: kontinuierlich

y: kontinuierlich x: kontinuierlich

Beispiel

y: verheiratet x: Einkommen

y: Einkommen x: Berufsprestige

Tabelle

x vorher klassifizieren

x und y vorher klassifizieren

Graphik

(Streudiagramm) (Säulen wenn x klassifiziert)

Streudiagramm

Statistik

(konditionale Anteile / Odds wenn x klassifiziert)

Korrelationskoeffizient Regressionskoeffeizient

Gliederung 1. Arten von Variablen 2. Analyse einzelner Variablen (univariate Verteilungen) 3. Analyse der Zusammenhänge zweier Variablen (bivariate Verteilungen) 4. Ausblick: Statistische Analyseverfahren und statistische Modelle

Multivariate Analyseverfahren unabhängige Variable x

abhängige Variable y kategorial

kontinuierlich

kategorial

Tabellenanalyse

Varianzanalyse

kontinuierlich

logistische Regression

lineare Regression

0

20000

40000

60000

mean of incgen 20,000 40,000

80000

60,000

100000

Statistische Modelle

1

2 rs highest degree

3

4 0

0

total family income in dollars

x kontinuierlich y = β 0 + β1 x + u

Fitted values

lt high school

high school

junior college

bachelor

graduate

x kategorial y = β 0 + β1d hs + β 2 d jc + β 3 d ba + β 4 d gr + u

Zum Schluss

Weiterführende Literatur • H.J. Andreß (2001): Glossar zur Datenerhebung und statistischen Analyse – über ESWF-Homepage >> Links >> Methoden • www.wiso.uni-koeln.de/ASPSamp/eswf/html/glossar/stichwor.htm

– Schlagworte zu Messniveau, kategoriale / kontinuierliche Variable, Dummy-Variable, Anteilswert, Odds, graphischen Darstellungen, Tabellenanalyse usw.

• Einführungen in Stata – Kohler, Ulrich/Kreuter, Frauke (2001): Datenanalyse mit Stata. München: Oldenbourg – Hamilton, Lawrence C. (2004): Statistics with Stata updated for version 8. Belmont: Duxbury/Thomson Learning – siehe auch ESWF-Homepage >> Lehre >> Stata

Zusammenfassung Messniveau

• beschreibt zulässige mathematische Operationen

Datenanalyse

• wenige oder viele Ausprägungen • Verfahren für kategoriale oder kontinuierliche Daten

univariate Analyse

• relative Häufigkeiten (Anteile, Odds) • Mittelwerte • Histogramm, Box Plot

bivariate Analyse

• vergleiche bedingte Verteilungen • konditionale Anteile, Odds, Mittelwerte • konditionale Box Plots und Histogramme • Streudiagramm

Stata-Befehle zum Einstieg (1) set mem 100000

Speicherplatz für Daten schaffen

use gss1991.dta

Daten laden

describe

Beschreibung des Datensatzes im Speicher

clear

Datenspeicher löschen

summarize y

Mittelwert, Standardabweichung, Min, Max

tabulate y

Häufigkeitsverteilung

tab y, gen(dummy)

ditto mit Generierung von Dummies

histogram y

Histogramm y kontinuierlich

histogram y, discrete Histogramm y kategorial graph box y graph hbox y

Box-Plot (vertikal) Box-Plot (horizontal)

Stata-Befehle zum Einstieg (2) tabulate x y

Kreuztabelle mit x in Zeile und y in Spalte

tabulate x y, row

ditto mit Zeilenprozenten

tabulate x y, col

ditto mit Spaltenprozenten

graph box y, over(x)

konditionaler Box-Plot

histogram y, by(x)

konditionales Histogramm

graph dot y, over(x)

konditionales Dot Diagramm

graph twoway scatter y x

Streudiagramm

Wichtige Fachausdrücke Deutsch

Englisch

Deutsch

Englisch

Messniveau

measurement scale

bedingte Verteilung

conditional distribution

kategorial kontinuierlich

categorical continuous

Box Plot

box plot

arithmetischer Mittelwert

mean

Histogramm

histogram

Median

median

Streudiagramm

scattergram

Wichtige Fachausdrücke Deutsch

Englisch

Größenverhältnis (Odds)

odds

odds ratio

odds ratio

Dummy Variable

dummy variable

Deutsch

Englisch