Small Area Estimation auf Grundlage der Zensusergebnisse!?!

Motivation Related Literature Method Small Area Estimation auf Grundlage der Zensusergebnisse!?! Dr. Tim Hoppe Fr¨ uhjahrstagung Verband Deutscher...
Author: Hilko Schmid
0 downloads 1 Views 3MB Size
Motivation

Related Literature

Method

Small Area Estimation auf Grundlage der Zensusergebnisse!?! Dr. Tim Hoppe

Fr¨ uhjahrstagung Verband Deutscher St¨adtestatistiker Passau, 27.03.2012

Dr. Tim Hoppe

Small Area Estimation

Conclusion

Motivation

Related Literature

Method

Conclusion

Warum Small Area Estimation? Standard: Sch¨atzungen aufgrund einer Stichprobe auf die Grundgesamtheit, Bsp.: Sch¨atzung amtlicher Bev¨olkerungszahlen mit Hilfe von Zensusergebnissen Stichprobenerhebungen sind meist so ausgelegt, dass valide Ergebnisse f¨ ur die Grundgesamtheit resultieren. Doch was machen, wenn man f¨ ur kleinere Gliederungen Sch¨atzungen durchf¨ uhren m¨ ochte? → Small Area Estimation Nach Rao (2003) stellen Small Areas inhaltliche oder geografisch abgegrenzte Subpupolationen. Inhaltlich: Alter, Geschlecht oder Nationalit¨at; Geografisch: Gemeinden, Stadtteile oder statistische Bezirke

Dr. Tim Hoppe

Small Area Estimation

Motivation

Related Literature

Method

Conclusion

Das Problem Umf¨ange der Stichproben f¨ ur die Subpopulationen sind dagegen gering und weisen eine hohe Varianz auf → Es resultieren hohe Standardfehler. Mittelwert des K¨orpergewichts Magdeburger Einwohner soll ermittelt werden. Hierf¨ ur wird eine geeignete Stichprobe f¨ ur die gesamte Stadt Magdeburg gezogen. Soll nun zus¨atzlich der Mittelwert des K¨ orpergewichts f¨ ur einzelne Stadtteile Magdeburg errechnet werden, so weist die Stichprobe f¨ ur einige Stadtteile zu wenig Beobachtungen auf. Die Ergebnisse dieser Sch¨atzungen sind nicht aussagekr¨aftig, da der Standardfehler der Sch¨atzer zu hoch ausfallen wird.

Dr. Tim Hoppe

Small Area Estimation

Motivation

Related Literature

Method

Conclusion

Das Problem - Zensus F¨ ur den registergest¨ utzten Zensus wurden ebenfalls Stichproben gezogen. Hauptziel: Die amtliche Bev¨ olkerungszahl mit Hilfe einer Regression zu sch¨atzen. Stichproben sind aber auf die Grundgesamtheit (Gemeinden ab 10.000 Einwohner) ausgerichtet, m¨ ogliche Sch¨atzungen hinsichtlich inhaltlicher bzw. geografischer Small Areas sind dagegen ohne weitere nicht machbar. Was also machen, wenn wir Ergebnisse f¨ ur kleinere Gemeinden oder spezifischen Unterteilungen, wie die Religion ben¨otigen → Small Area Estimation

Dr. Tim Hoppe

Small Area Estimation

Motivation

Related Literature

Method

Das Problem - Zensus Abbildung: Beispiel - Lineare Regression Zensus (Stadtebene)

Dr. Tim Hoppe

Small Area Estimation

Conclusion

Motivation

Related Literature

Method

Das Problem - Zensus Abbildung: Beispiel - Lineare Regression Zensus (Stadtteil I)

Dr. Tim Hoppe

Small Area Estimation

Conclusion

Motivation

Related Literature

Method

Das Problem - Zensus Abbildung: Beispiel - Lineare Regression Zensus (Stadtteil II)

Dr. Tim Hoppe

Small Area Estimation

Conclusion

Motivation

Related Literature

Method

Conclusion

Related Literature I Brackstone (1987) weist auf die Existenz von sogenannten Small domain-Statistiken im 11. Jahrhundert in England und im 17. Jahrhundert in Kanada hin. Ghosh und Rao (1994) untersuchten erstmalig empirisch Small Area Estimation Modelle hinsichtlich ihrer G¨ ute f¨ ur einen k¨ unstlich erzeugten Datensatz. Magg et al. (2005) befassen sich erstmalig mit der Relevanz der Small Area Estimation f¨ ur den Zensus 2011. Damalige Einsch¨atzung → Erfahrungen anderer L¨ander (z. B. USA) aufgreifen. M¨ unnich et al. (2009) f¨ uhrten eine Monte-Carlo Simulation durch, um einen Vergleich der Performance unterschiedlicher Small Area Estimation Modelle herzustellen. Dr. Tim Hoppe

Small Area Estimation

Motivation

Related Literature

Method

Conclusion

Related Literature II Davies et al. (2009) nutzten Small Area Estimations zur Untersuchung der Erwerbst¨atigkeit f¨ ur Gebiete in Australien mit einer zu kleinen Stichprobe aus dem Zensus. Vogt (2009) untersuchte zwei spezifische Sch¨atzer der Small Area Estimation am Beispiel der K¨ orpergr¨ oße von Berliner ¨ Einwohner sowie der Ubertragung der gewonnenen Erkenntnisse auf den Zensus 2011. Till et al. (2010) f¨ uhrten Sch¨atzungen zur Armutsgef¨ahrdung f¨ ur die ¨osterreichischen Bundesl¨ander durch. Dieterle (2011) wendet die Small Area Estimation Methode an, um zuverl¨assliche Kreisdaten f¨ ur Schweinebest¨ande zu errechnen. Dr. Tim Hoppe

Small Area Estimation

Motivation

Related Literature

Method

Conclusion

Die Methodik Small Area Sch¨atzverfahren werden unterteilt in direkte und indirekte Sch¨atzer. Direkte Sch¨atzer beruhen ausschließlich auf die Small Area bezogenen Stichprobendaten. Bei indirekten Sch¨atzern werden dagegen Informationen aus u ¨bergeordneten Populationen, ¨ahnlichen Regionen oder Auspr¨agungen vergangener Perioden sowie Hilfsvariablen, die mit dem betrachteten Merkmal korrelieren, verwendet (Bsp. Der Bodymaßindex ist positiv korreliert zum Gewicht).

Weitere Klassifizierung nach der Sch¨atzmethodik: designbasierter, modellunterst¨ utzter und modellbasierter Sch¨atzer

Dr. Tim Hoppe

Small Area Estimation

Motivation

Related Literature

Method

Conclusion

Die Methodik

Indirekte Sch¨atzer k¨ onnen in zwei Gruppen aufgeteilt werden. Dies h¨angt davon ab, ob sie auf impliziten oder expliziten Modellen aufbauen. Zu den impliziten Sch¨atzern geh¨ oren u. a. die synthetischen Sch¨atzer sowie die zusammengesetzten Sch¨atzer. Synthetische Sch¨atzer: nutzen meist die Informationen aus einer u ¨bergeordneten Population. Zusammengesetzte Sch¨atzer: kombinieren die Information eines direkten Sch¨atzers und eines synthetischen Sch¨atzers.

Dr. Tim Hoppe

Small Area Estimation

Motivation

Related Literature

Method

Conclusion

Die Methodik Explizite Sch¨atzmethoden basieren dagegen auf Regressionsmodellen. Ebene der Erhebungseinheit → unit level model Ebene der Subpopulation → area level model

Zus¨atzlich beinhaltet das Regressionsmodell eine weitere exogene Variable, die einen Fehlerterm f¨ ur zuf¨allige Unterschiede zwischen den Subpopulationen beinhaltet (random effects). Die Entscheidung f¨ ur eine Small Area Estimation-Methode h¨angt in erster Linie von verf¨ ugbaren Hilfsvariablen ab. Des Weiteren sind die Zielgruppe und die Verwendung der Daten von Relevanz bei der Wahl des Sch¨atzverfahrens.

Dr. Tim Hoppe

Small Area Estimation

Motivation

Related Literature

Method

Conclusion

Impliziten Sch¨atzer Dieterle (2011) untersuchte den relativen Standardfehler f¨ ur den direkten Sch¨atzer, synthetischen Sch¨atzer und den zusammengesetzten Sch¨atzer des Schweinebestandes auf Kreisebene f¨ ur das Jahr 2007. Grundlage hierf¨ ur ist der direkte Sch¨atzer, der wie folgt definiert ist: bd X k2007 =

H X Nh X h=1

nh

Xhi

(1)

i∈k

Mit k=Landkreise, h=Schichten, Nh =Schichtenumfang der Schicht h, nh =Stichprobenumfang der Schicht h, xhi =Schweinebestand der Stichprobeneinheit i in Schicht h. Dr. Tim Hoppe

Small Area Estimation

Motivation

Related Literature

Method

Conclusion

Impliziten Sch¨atzer F¨ ur den synthetischen Sch¨atzer wird dann ein Hilfsmittel genutzt. Im Fall von Dieterle (2011) wurde der Anteil der Schweine in den Kreisen aus der Totalerhebung im Jahr 2003 verwendet. Der synthetische Sch¨atzer ergibt sich somit als: bd bs X X k2007 = α | k2003 {z } k2007

(2)

Hilfsmittel

XKreis2003 (3) XLand2003 Ergebnisse von Dieterle (2011) zeigen, dass in einigen F¨allen der synthetische Sch¨atzer besser performt als der direkte und umgekehrt. Insbesondere wenn der direkte Sch¨atzer hohe rel. Standardfehler aufweist ist der synthetische Sch¨atzer im Vorteil. αk2003 =

Dr. Tim Hoppe

Small Area Estimation

Motivation

Related Literature

Method

Conclusion

Impliziten Sch¨atzer Der zusammengesetzte Sch¨atzer stellt eine Kombination aus direkten und synthetischen Sch¨atzer dar. Wobei der Anteil des direkten Sch¨atzers mit wk bzw. f¨ ur den synthetischen Sch¨atzer mit (1 − wk ): bs bd bz X k2007 = wk Xk2007 + (1 − wk )Xk2007

(4)

Dieterle (2011) findet heraus, dass der zusammengesetzte Sch¨atzer f¨ ur eine Sch¨atzung des Schweinebestandes die gr¨oßten Vorteile bringt. Ein Setzen der Gewichtung des direkten Sch¨atzers nahe der Grenzen 0 und 1 f¨ uhrt allerdings nicht zur signifikanten Verbesserung der Ergebnisse. Es stellt sich die Frage, wie wk gesetzt werden sollte. Dr. Tim Hoppe

Small Area Estimation

Motivation

Related Literature

Method

Conclusion

Impliziten Sch¨atzer Abbildung: Relative Wurzel aus dem mittleren quadratischen Fehler1

1 Bei einem unverzerrten Sch¨ atzer sind der RRMSE und der relative Standardfehler identisch. Dr. Tim Hoppe

Small Area Estimation

Motivation

Related Literature

Method

Conclusion

Explizite Sch¨atzer Der Sch¨atzer von Fay-Herriot und der Sch¨atzer von Battese-Harter-Fuller nutzen klassiche Sch¨atzmethoden als Vorraussetzung (siehe Vogt (2009)). Das Fay-Herriot Sch¨atzer ist ein gewichtetes Mittel aus Horvitz-Thompson Sch¨atzer und einem synthetischen Teil: bi Xi βb bi ) Yi +B θbFH,i = (1 − B |{z} |{z} HTS

(5)

syn.Teil

Battese-Harter-Fuller Sch¨atzer ist ein gewichtetes Mittel aus Generalized Regression Sch¨atzer und einem synthetischen Teil: bi ) (y¯i + (¯ b +B bi x¯N,i βb θbBHF ,i = (1 − B xn,i − x¯i )β) | {z } | {z } GREG

Dr. Tim Hoppe

Small Area Estimation

syn.Teil

(6)

Motivation

Related Literature

Method

Conclusion

Explizite Sch¨atzer Vogt (2009) analysierte die Performance der beiden Sch¨atzer mit Hilfe einer Simulation. K¨ unstliche Grundgesamtheit von N = 30000, 30 Areas (z. B. statistische Bezirke), jeweils 6 Areas mit der Gr¨oße 500, 750, 1000, 1250, 1500. Ziel war es, den Area Mittelwert jedes stat. Bezirks zu sch¨atzen. Vogt (2009) tat dies f¨ ur die K¨ orpergr¨oße. Denkbar w¨are aber f¨ ur das Zensusbeispiel die mittlere Haushaltsgr¨oße. Ergebnis: Mittlere quadratische Abweichung der Small Area-Sch¨atzer ist bei einer Stichprobe von n = 2000 relativ niedrig. Ist die Stichprobe sehr gering, funktionieren auch hier die Sch¨atzer nicht mehr zuverl¨assig. Dr. Tim Hoppe

Small Area Estimation

Motivation

Related Literature

Method

Explizite Sch¨atzer Abbildung: MSE Stichprobe n = 2000

Dr. Tim Hoppe

Small Area Estimation

Conclusion

Motivation

Related Literature

Method

Explizite Sch¨atzer Abbildung: MSE Stichprobe n = 60

Dr. Tim Hoppe

Small Area Estimation

Conclusion

Motivation

Related Literature

Method

Conclusion

Umsetzung mit Stata Beispieldatensatz erstellt auf Grundlage des Zensus. Beinhaltet Variablen wie die angetroffene Personen an der Anschrift, gemeldete Personen an der Anschrift, Religon, STT und STB. Sch¨atzen der mittleren angetroffenen Personen hinsichtlich der Religon und Regression zur Hochrechnung der Bev¨olkerung auf Stadtteilebene. Abbildung: Datensatz

Dr. Tim Hoppe

Small Area Estimation

Motivation

Related Literature

Method

Umsetzung mit Stata Standard Stata-Befehle: Mittelwertsch¨atzung - mean var1, Regression - reg var1 var2. Abbildung: Ergebnisse ohne SAE Ber¨ ucksichtigung

Dr. Tim Hoppe

Small Area Estimation

Conclusion

Motivation

Related Literature

Method

Umsetzung mit Stata Problem: Diese Analyse ber¨ ucksichtigt nicht, dass wir eine Stichprobe haben → Gewichte und Schichten. Abbildung: Stata SAE-Anpassungen

Dr. Tim Hoppe

Small Area Estimation

Conclusion

Motivation

Related Literature

Method

Umsetzung mit Stata Small Area-Analyse mit Stata verringert den Standardfehler und in der Regression das Bestimmtheitsmaß. Abbildung: Ergebnisse mit SAE-Ber¨ ucksichtigung

Dr. Tim Hoppe

Small Area Estimation

Conclusion

Motivation

Related Literature

Method

Conclusion

Conclusion Was spricht f¨ ur Small Area Estimation Wenn kleinr¨aumige Analysen durchgef¨ uhrt werden sollen, dann muss zwangsl¨aufig auf die Small Area Estimation-Methode zur¨ uckgegriffen werden, da die Standardmethoden nicht zu aussagekr¨aftigen Ergebnissen f¨ uhren. Zensusdatengrundlage beinhaltet ein enormes Potential f¨ ur kleinr¨aumige Analysen mit SAE. Was spricht gegen Small Area Estimation Die angewandte Methodik der Small Area Estimation steckt in Deutschland noch in den Kinderschuhen. Small Area Estimation → Advanced Statistics. Hat die kommunale Verwaltung die entsprechenden Ressourcen?!?! Dr. Tim Hoppe

Small Area Estimation

Suggest Documents