Statistische Modellierung latenter Strukturen in den Lebens-, Sozial- und Wirtschaftswissenschaften

Statistische Modellierung latenter Strukturen in den Lebens-, Sozial- und Wirtschaftswissenschaften ¨ ¨ Daten Uberlick uber ¨ Modelle fur ¨ defizitare...
Author: Britta Brodbeck
9 downloads 1 Views 298KB Size
Statistische Modellierung latenter Strukturen in den Lebens-, Sozial- und Wirtschaftswissenschaften ¨ ¨ Daten Uberlick uber ¨ Modelle fur ¨ defizitare

Seminarleiter: Prof. Dr. Thomas Augustin Betreuerin: Julia Plass Referentin: Maria Schmelewa Institut fur ¨ Statistik LMU

18.01.2014

Aufbau

1

¨ ¨ Daten Ubersicht: Defizitare

2

Runden

3

Heaping

4

Zensierung

5

Fehlende Werte

Runden Heaping Zensierung Fehlende Werte

¨ Ubersicht ¨ Coarsening (”Die Vergroberung“) ¨ ¨ Uberbegriff fur Daten ¨ unvollstandige ¨ Es gibt verschiedene Arten defizitarer Daten, welche alle unter den Begriff Coarse ¨ Data fallen. Die bekanntesten und sehr haufig vorkommenden sind hierbei

¨ Heitjan und Rubin haben 1991 zu dem Begriff Coarse Data eine pragnante Definition niedergeschrieben.

Coarse Data: ”[It is the kind of] data [that] are neither entirely missing nor perfectly present. Instead, we observe only a subset of the complete-data samle space in which the true, unobservable data lie.”(Heitjan and Rubin, 1991) 3 / 17

Runden Heaping Zensierung Fehlende Werte

Coarsening Vor Betrachtung der einzelnen Arten werden allgemeine Likelihood Funktionen fur ¨ die zwei Arten, dem stochastischen und nicht-stochastischen Coarsening aufgestellt. f (y ; θ) stellt hierbei die Dichtefunktion der wahren Werte dar. Likelihood beim stochastischen Coarsening: L(θ, γ; x ) =

R x

f (y ; θ)k (x ; y , γ)dy

(1)

Der Unterschied zwischen den beiden Likelihood Funktionen ist, dass bei (2) die ¨ des Coarsenings k (x ; y , γ) nicht mit berucksichtigt Stochastizitat wird. ¨ Likelihood beim nicht-stochastischen Coarsening: L(θ; x ) =

R x

f (y ; θ)dy

(2)

Voraussetzung fur ¨ die Verwendung von (2) ist Distinktheit der Parameter und Coarsening at Random bei den Beobachtungen der interessierenden Variable. Nur ¨ dann ist der Coarsening- Mechanismus ignorierbar und kann bei der Schatzung weggelassen werden. Distinktheit: Keine funktionale Beziehung zwischen θ und γ . CAR: P (yobs |ytrue , γ) gleich fur ¨ alle yobs . ¨ ¨ seine gunstigen Ignorierbarkeit: Der Schatzer behalt Eigenschaften, auch wenn ¨ ¨ Coarsening-Mechanismus bei der Schatzung nicht berucksichtigt wird. ¨

4 / 17

Runden Heaping Zensierung Fehlende Werte

Runden Definition: Das Runden von Werten mit gleichem Rundungsintervall, ¨ ublicherweise auf die nachste ganze Zahl oder Dezimalstelle. ¨ → Diskretisierung von stetigen Variablen ¨ Auswirkungen: Verzerrung der geschatzten Momente und Regressionskoeffizienten. Die beobachteten Werte Xi∗ werden wie folgt modelliert. round ( Xhi ) stellt dabei die Funktion des Rundens dar. Der Rundungsfehler wird als δi definiert. h beschreibt hierbei den Abstand zwischen zwei Punkten, in welchen der wahre Wert Xi liegt.

Modellierung: Xi∗ = h round Xhi

&

δi = Xi∗ − Xi

¨ angenommen wird, lautet die Likelihood Fkt.: Likelihood: Da Nicht-stochastizitat ∗

h

Q xi R+ 2

f (y ; θ)dy

i x∗− h i 2

f (y ; θ) beschreibt dabei die Dichtefunktion der wahren Werte.

¨ Mogliche Verfahren: Sheppard Korrektur 5 / 17

Runden Heaping Zensierung Fehlende Werte

Heaping ¨ Beispiel: Dauer der Arbeitslosigkeit von 14-29 jahrigen aus dem italienischen LSF fur ¨ die Lombardei

Abbildung : N. Torelli und U.Trivellato, 1993 ¨ Bei dieser Grafik erkennt man große Peaks bzw. abnormale Haufungen bei den Monaten 6, 12, 18, 24 etc. 6 / 17

Runden Heaping Zensierung Fehlende Werte

Heaping Einen allgemeineren Fall als das Runden stellt Heaping dar.

¨ Definition: Digit preference“ - Abnormale Haufung bzw. Konzentration von ” Beobachtungen an bestimmten Werten. Daten enthalten sowohl exakte als auch unter unterschiedlichem Genauigkeitsgrad gerundete Werte. Eine große Schwierigkeit besteht somit unter anderem darin zu Unterscheiden, welche Beobachtungen geaheapt und welche die wahren Werte sind.

¨ Ubliche Werte bei Zeitangaben: Vielfaches von 4 (bei Wochen), vielfaches von 6 oder 12 (bei Monaten), vielfaches von 10(bei Jahren). Entstehung: Retrospektiv erhobene Verweildauern, retrospektive Befragung zu Alter, Mengenangabe etc. ¨ ¨ Auswirkungen: Uberbzw. Unterschatzung von Parametern, Bias in den ¨ geschatzten Regressionskoeffizienten. 7 / 17

Runden Heaping Zensierung Fehlende Werte

Heaping Da es meist um Zeitangaben geht, werden die wahren Werte als ti bezeichnet. Die beobachteten Werte H ti stehen mit den wahren Werten wie folgt im Zusammenhang. ¨ pi sind Werte von Bernoulli-verteilten Zufallsvariablen Pi , welche die Auspragung 1 mit der Wahrscheinlichkeit G(ti ; γ) annehmen. G(ti ; γ) gibt dabei die Wahrscheinlichkeit fur ¨ Heaping an und wird als Heaping Funktion“ bezeichnet. ” Modellierung: h(m) sind die geheapten Werte in aufsteigender Reihenfolge. H ti

= ti + di pi mit di = h(m) − ti

Likelihood: Da der Heaping Prozess stochastisch ist, lautet die Likelihood Fkt.: I Q

[f (ti ; θ)(1 − G(ti ; γ))]

i =1

u tj J R Q

f (y ; θ)G(y ; γ)dy

j =1 l tj

¨ die wahren Werte ti , der zweite Teil die geheapten, fur Der erste Teil schatzt ¨ welche gilt: H ti 6= ti . Die Intervallgrenzen, in welchen die geheapten Werte liegen, werden mit l tj und u tj angegeben. ¨ Mogliche Verfahren: ¨ Maximum-Likelihood-Schatzung ¨ Glattung mit penalisierter Likelihood

8 / 17

Runden Heaping Zensierung Fehlende Werte

Zensierung Definition: Wenn nur ein Teil der Daten, d.h. nicht alle Werte einer statistischen Variable bekannt sind.

Abbildung : http://www.indianpediatrics.net/sep2010/sep-743-748.htm

Entstehung: Bei Analyse von Lebensdauern Soziologie: Dauer bis Scheidung. ¨ Medizin: Uberlebensdauer von Krebspatienten. ¨ Technik: Ausfall von technischen Geraten.

9 / 17

Runden Heaping Zensierung Fehlende Werte

Zensierung Arten: Da es sich hier wieder um Zeitangaben handelt, werden die wahren Werte als ti und die beobachteten als ti∗ bezeichnet.

Rechtszensierte Daten: Ereignis bis zum Ende nicht beobachtet. - Typ1: Feste, vorher festgelegte Beobachtungsdauer. - Typ2: Untersuchung beendet, wenn vorher festgelegte Zahl von Lebensdauern unzensiert beobachtet. ¨ - Random Censoring: Zensierungszeiten unabhangig von Ti . Linkszensierte Daten: Ereignis bereits vor Beginn eingetreten. Intervallzensierte Daten: Ereignis zwischen ZP a und b eingetreten. Trunkierung: - Rechtstrunkierung: Nur Personen, die das interessierende Ereignis erlebt haben, gelangen in Studie. - Linkstrunkierung: Verursacht durch weiteres Ereignis. Falls dieses zum ZP T ≥ Y eintritt, gelangt Individuum nicht in Studie. 10 / 17

Runden Heaping Zensierung Fehlende Werte

Zensierung Da zumeist Rechtszensierung von Interesse ist, wird diese im Folgenden betrachtet. ¨ Beobachtete Werte werden uber das Minimum aus den latenten Großen Ti und Ci ¨ modelliert. δi ist dabei eine Indikatorfunktion bezuglich der Zensierung. ¨ ¨ Modellierung: Zwei latente Großen iid

1

Wahre Lebensdauer Ti ∼ F

2

Maximale Beobachtungsdauer Ci (Zensierungszeit ) ∼ G

iid

Ti∗ = min(Ti , Ci ) & δi = I {Ti ≤ Ci } δi = 1, wenn nicht zensiert, δi = 0, sonst ¨ Ziel: Schatzung von Hazardraten und Survivorfunktionen ¨ Es gibt drei verschiedene Arten die Harzardraten und Survivorfunktionen zu schatzen, ¨ ausgegangen wird, unter anderem parametrisch. Da auch hier von Stochastizitat besteht die Likelihood aus zwei Teilen, dem fur ¨ unzensierte und fur ¨ zensierte Daten. Parametrisch → basierend auf Verteilungsannahme G(ti ) Survivorfkt. von Ci , Likelihood:

n Q

[f (ti ; θ)δi S (ti ; θ)1−δi ][g (ti ; γ)1−δi G(ti ; γ)δi ] S (ti ) von Ti .

i =1

¨ Semiparametrisch → Spline Schatzung, Likelihood-basiert Nichtparametrisch → Ohne Verteilungsannahme, rein Datenbasiert z.B. ¨ ¨ Kaplan-Meier-Schatzer, Nelson-Aalen-Schatzer 11 / 17

Runden Heaping Zensierung Fehlende Werte

Fehlende Werte Definition: ”Werte werden dann als fehlend bezeichnet, wenn als existierend angenommene und als Reaktion auf einen Reiz hervorrufbare Werte, deren Beobachtung intendiert ist, als Reaktion auf die Reizvorgabe nicht beobachtet werden und auch nicht ohne Unsicherheit aus anderen Informationen ableitbar sind.”(M. Spieß, 2008) Es gibt folgende drei Arten von fehlenden Werten: Item-Nonresponse: Einzelne Werte fur ¨ beobachtete Einheiten fehlen. Unit-Nonresponse: Ganze Einheiten nicht beobachtet. Panelattrition: Ausscheiden im Verlauf bei Panelstudien. Entstehung: Fehler bei Messung, falsch eingetragene oder unlesbare ¨ Werte, Ubersehen einer Frage, Verweigerung einer Angabe etc.

12 / 17

Runden Heaping Zensierung Fehlende Werte

Fehlende Werte Fur ¨ die weitere Betrachtung und Analyse von Daten mit fehlenden Werten ist es wichtig zwischen drei Missingmechanismen zu unterscheiden. Falsche Annahmen bezuglich des Missingmechanismus kann zu verzerrten Ergebnissen fuhren. Hierbei ¨ ¨ ¨ ist anzumerken, dass die ersten beiden Mechanismen fur zumeist ¨ die Schatzung ignorierbar sind.

Missingmechanismen: xobs und xmis sind Vektoren mit den jeweils beobachteten und nicht beobachteten ¨ Werten. r ist ein Response-Indikator“ Vektor mit Auspragung 1, wenn xobs und 0, ” wenn xmis . g (.) beschreibt hierbei die unbekannte Wahrscheinlichkeitsfunktion von r und γ einen unbekannten Parameter, welcher den Missingmechanismus steuert.

MCAR ( Missing completely at random“): ” g (r |xobs , xmis ; γ) = g (r ; γ) (generell ignorierbar) MAR( Missing at random“): ” g (r |xobs , xmis ; γ) = g (r |xobs ; γ) (meistens ebenfalls ignorierbar) NMAR( Not missing at random“): ” ¨ g (r |xobs , xmis ; γ) keine Vereinfachung moglich (nicht ignorierbar externe Informationen notwenig) 13 / 17

Runden Heaping Zensierung Fehlende Werte

Fehlende Werte Auch bei dieser Art von Coarse Data wird die Likelihood aufgezeigt, welche die ¨ Maximum-Likelihood-Schatzung verwendet wird. Auch fur ¨ die meisten anderen ¨ Schatzmethoden ist MAR eine Grundvoraussetzung.

Likelihood Der erste Teil der Likelihood stellt die Dichte fur ¨ die beobachteten Werte der interessierenden Variable dar. Der zweite Teil beschreibt die Wahrscheinlichkeitsfunktion von r .

Q

f (xi

obs

; θ) · g (r |xi

obs

; γ)

i

Methoden: Voraussetzung wenigstens MAR ¨ Maximum-Likelihood-Schatzung EM Algorithmus Multiple Imputation Auswirkungen: Kann je nach Missingmechanismus zu verzerrten Ergebnissen ¨ ¨ (Unter- oder Ubersch atzung von Mittelwerten) und Fehlinterpretation fuhren. ¨ 14 / 17

Runden Heaping Zensierung Fehlende Werte

Zusammenfassung

¨ Viele verschiedene Arten von defizitaren Daten, welche ¨ von Coarsening darstellen. Spezialfalle ¨ Haufigste: Runden, Heaping, Zensierung, fehlende Werte. Bei Ignorierbarkeit zumeist nicht problematisch. Falls Coarsening Mechanismus nicht ignorierbar, Verzerrung von ¨ geschatzten Parametern, Regressionskoeffizienten und ¨ Fehlinterpretation moglich.

15 / 17

Runden Heaping Zensierung Fehlende Werte

Literatur Heitjan, D. F. und Rubin, D. B. (1991). Ignorability and Coarse Data. The annals of Statistics, 19(4):2244-2253. Plaß, J. (2013). Coarse categorical data under epistemic and ontologic uncertainty: Comparison and extension of some approaches. Institut fur ¨ Statistik: Master Thesis. Schneeweiss, H., Komlos, J. und Ahmad, A.S. (2006).Symmetric and Asymmetric Rounding. Insitut fur ¨ Statistik: Sonderforschungsbereich 386, Paper 479. Torelli, N. und Trivellato, U. (1993). Modelling inaccuracies in job-search duration data. Journal of Econometrics, 59:187-211. Indrayan, A, Basal A.K. (2010). The Methods of Survival Analysis for Clinicians. Indian Pediatr, 47: 743-748. Spieß, M. (2008). Missing-data-Techniken: Analyse von Daten mit fehlenden Werten. Lit Verlag. 16 / 17

Vielen Dank fur ¨ Ihre Aufmerksamkeit!

Suggest Documents