7. Die SIKURS-Tools. 7.1 Eingabedaten - Berechnen

7. Die SIKURS-Tools Mit den SIKURS-Tools stehen dem Anwender Instrumente zur Aufbereitung der Eingabedaten (Berechnen, Dynamisieren, Glätten), Visuali...
Author: Petra Berg
0 downloads 2 Views 423KB Size
7. Die SIKURS-Tools Mit den SIKURS-Tools stehen dem Anwender Instrumente zur Aufbereitung der Eingabedaten (Berechnen, Dynamisieren, Glätten), Visualisierung (Zeitreihe, Pyramiden, Indikatoren) und zur Nachbereitung der Ergebnisse (Zeitreihen) zur Verfügung. Unter „?“ und mit der F1-Taste können die jeweiligen Programmbeschreibungen angefordert werden. 7.1 „Eingabedaten - Berechnen“ • • • •

Raten/Quoten

Berechnung von Raten und Quoten für die SIKURS Eingabedateien Umrechnung von amtlichen Raten in SIKURS konforme Raten (Fruc und Strb) Ermittlung von Sterberaten nach Vorgabe einer Lebenserwartung Ermittlung von Gebietstypen durch Clusteranalyse

„Berechnen – Start - Berechne SIKURS-Eingabedaten“ Bei der Berechnung der Raten oder Quoten werden Bewegungs- und Bestandsdaten miteinander in Verbindung gebracht.

Menüpunkte:

Type der AusgabeAuswahl der gewünschten Ausgabedatei. datei Raten/Quoten Erste Altersgruppe extern: Baby- oder Geburtendatei

Geschlechterproportion

Um SIKURS konforme Raten zu erhalten muss der Bestand vor der Berechnung der Raten altern. Für die Besetzung der Altergruppe 0 gibt es je nach verfügbaren Daten folgende Alternativen: Falls der Button „erste Altersgruppe extern“ aktiviert wird, muss eine “Babydatei“ ausgewählt werden, mit den Geborenen des Berichtsjahres, differenziert nach Geschlecht, Bevölkerungsgruppe und Gebiet; liegt eine solche Datei nicht vor, kann eine Geburtendatei differenziert nach der Altersgruppe der Mutter und Gebiet für die Berechnung verwendet werden. In diesem Fall enthält die Datei keine Angaben zum Geschlecht der Geborenen. Die Verteilung der Geschlechter kann hier mit einem Faktor erfolgen , der unter „Geschlechterproportion“ festgelegt wird.

1

Typenbildung: Referenzdatei

Wird dieser Button nicht aktiviert, gilt die vereinfachte Annahme, dass die 0-jährigen gleich der Anzahl der (gealterten) Altersklasse 1 sind – d.h. die Altersklasse 1 wird in die Altersklasse 0 kopiert. Sollen die Gebiete in Typen umgeschlüsselt werden, muss eine Referenzdatei erstellt und der Button „Typen bilden“ aktiviert werden (Aufbau der Datei: 2 Spalten : Gebiet, Typ)

Ausgabe Nullwerte Soll eine Datei mit kompletter demographischer Ausprägung erzeugt werden, muss der Button „Ausgabe Nullwerte“ aktiviert werden, ansonsten wird eine Datei erzeugt, die nur die errechneten Werte erhält. Vorgehensweise:

Sind im Menü die gewünschten Felder aktiviert und OK angeklickt, fragt das Programm die benötigten Eingabedateien ab, in der Titelzeile der Menüs erscheint die geforderte Datei. Das Menü „TKRate“ weißt den Anwender darauf hin, die Kopfzeilen der Menüs zu beachten :

Sind zum Beispiel Raten für den Bevölkerungsgruppenwechsel mit Typenbildung gewünscht, erscheinen sie in folgender Reihenfolge:

1.Festlegen der Referenzdatei

2. Festlegen der Bewegungsdatei

Bestands- und Bewegungsdateien können über ein oder mehrere Jahre festgelegt werden (Taste „Strg“); falls mehrere Jahre ausgewählt werden, rechnet das Programm den Durchschnitt. Die Sortierung der Eingabedateien ist beliebig. Eine Eingabedatei kann alle gewünschten Jahre enthalten (z.B. Geburten der Jahre 2001 bis 2007); es kann aber auch pro Jahr eine Datei verwendet werden (z.B. Geburten2001.csv, bis Geburten2007.csv). Im Auswahlmenü können entsprechend eine oder mehrere Dateien ausgewählt werden Die Bewegungs- und Bestandsdateien werden jeweils über die Jahre aggregiert, die sowohl in den Bewegungs- als auch den Bestandsdaten vorkommen. Die durchschnittlichen Raten ergeben sich als Quotient von aggregierter Bewegung und aggregiertem Bestand. Ist eine Bewegungsdatei geöffnet und sollen die Geburten extern vorgegeben werden, 2

wird im nächsten Schritt die Babydatei, bzw. die Datei mit den Geborenen des entsprechenden Jahres abgefragt. 3. Festlegen der „Babydatei“ oder der Datei mit den Geburten 4. Festlegen der Bestandsdatei

5. Festlegen der Ausgabedatei

Geschlechterproportion

Wird für die Besetzung der Altergruppe 0 die Bewegungsdatei Geburten (ohne Angabe Geschlecht) ausgewählt, geschieht die Verteilung der Geschlechter mit einem Faktor, der unter Geschlechterproportion angegeben wird.

Vorbereitende Arbeiten

Vor einer Raten/Quotenberechnung müssen die Eingabedateien geprüft werden. Mit den SIKURS-Tools Visualisierung, Glätten, Pyramiden können die Eingabedateien auf unbesetzte oder mit Null besetzter Felder und unplausibler Ausreißer kontrolliert werden. Eine Glättung der Eingabedateien sollte vor der Berechnung nicht durchgeführt werden.

Umrechnen Amtlicher Raten

„ Start - Geburten/Sterberaten aus amtlichen Geburten/Sterberaten“ Diese Umrechnung ist notwendig, weil Geburten bzw. Sterberaten aus der amtlichen Statistik, anders ermittelt werden als für SIKURS verlangt: die SIKURS-Raten werden zu einem Stichtag (31.12.) verrechnet , die amtlichen Raten beziehen sich auf das ganze Untersuchungsjahr. Eingabedatei sind die amtlichen Fruchtbarkeitsziffern, bzw. die amtlichen Sterberaten. Der Aufbau der Dateien und das Schema der Umrechnung wird unter „?“ erklärt. Durch „öffnen“ der amtlichen Raten-Datei wird die Berechnung aktiviert und eine Datei erzeugt wie für SIKURS verlangt.

Sterberaten nach Lebenserwartung

„Start – Datenaufbereitung – Sterberaten nach Lebenserwartung“ Folgende Dateien müssen im gleichen Verzeichnis bereitgestellt werden:

Benötigte Dateien

• •

Ausgangsdatei mit Sterberaten (STRB0000.CSV) Zielwertdatei ECKLE.CSV mit den Werten für die Folgejahre, mit z.B. folgendem Aufbau:

3

Jahr

Vorgehensweise

TYP

BG

GG

Ziel Lebenserwartung

2007 2007 2007 2007 .....

1 1 1 1 ....

1 1 2 2 ......

1 2 1 2 ....

75 78 76 79 .....

2020

1

2

2

80

Mit „Öffnen“ werden die Sterberaten aus der Lebenserwartung der bereitgestellten Jahre linear erzeugt :

Das Programm gibt die Dateien strb2001.csv bis strb2020.csv aus. Gewichtung bestimmter Altersindices bei der Ermittlung der Sterberaten nach Lebenserwartung

Ist keine lineare Ausgabe gewünscht, muss eine Datei weight.csv mit den altersspezifischen Gewichten bereit gestellt werden: #AG;Gewicht 00;0,8 01;0,9 98;1,2 99;1,1 Nicht definierte Altersgruppen haben das Gewicht 1.

Gebietstypen durch Clusteranalyse

„ Start – Clusteranalyse ...“ Die Clusteranalyse soll den Anwender bei der Ermittlung von Gebietstypen unterstützen. Das Programm bietet die Verdichtung einer gem-Datei mit der Verdichtung der Merkmale Altersstruktur, Verteilung der Geschlechter- und Bevölkerungsgruppen. Alternativ kann der Nutzer mit Hilfe eigener Programme beliebige Merkmale zu Eingabevektoren verarbeiten. (Attraktivität, Arbeitsplatzentwicklung, Abiturientenanteil, etc.)

4

Menü Clusteranalyse

„gem“ Eingabedateien

Im Menü stehen verschiedene Funktionen zur Verfügung: gem: Aggregierung einer Gem-Datei mit mehreren Gebieten entsprechend den gewählten Vorgaben. Hclust,, k-means, k-medoids, SOMs, summary sind Verfahren zur Analyse der Cluster

1. gem-Datei (demographisch gegliederte Gebietseinheiten) 2. refag-Datei ( Abbildung von 100 Altersgruppen in eine wählbare Anzahl Altersgruppen: Bsp.: 00; 1 01; 1 ... 74; 3 Bevölkerungs- und Geschlechtsgruppen können auch aggregiert werden, es sei denn, der Ausländeranteil und der z.B. Frauenüberschuss soll für die Clusterung verwendet werden. Durch Aktivieren der Option „Normieren auf Anteil Altersgruppe am Gebiet“ werden die Aggregierungen relativ auf die Gebiete verteilt. Abfrage der Eingabedateien:

„Clusteranalyse – Start“

1.gem-Datei

2.refag-Datei 3. Abspeichern der Ergebnisdatei

Nach Öffnen der beiden Dateien wird das Abspeichern der Vector-Datei vorgeschlagen: z.B. vector.csv. 5

Protokoll der Clusterung

Nach der Abspeicherung erscheint das Protokoll der Clusterung, mit den verarbeiteten Eingabedaten und der erzeugten Vectordatei;

Beispiel: hClust

Für die Analyse der gebildeten Cluster kann stehen verschiedenen Verfahren zur Verfügung: Hierarchische Clusteranalyse, k-means Clusteranalyse, k-medoids Clusteranalyse, Self-organizuing Maps (SOMs)

hClust Eingabemaske

Plot-Ausgabe

Die meisten Parameter sind selbsterklärend, für die anderen mögen diese Hinweise nützlich sein: •

Plot 0: nein, 1:gif, 2:gnuplot Bei mehr als 3 Merkmalen macht der Plot kaum Sinn, hier kann 0=1 gewählt werden. Bei 1=gif wird der Plot als gif-Datei, die man in Dokumente einbinden kann, ausgegeben. Bei 2:gnuplot wird die Graphik im interaktiven Fenster von Gnuplot ausgegeben; bei 3 ausgewählten Merkmalen kann man das 3-D-Bild mit der Maus drehen.

6

Punktgröße



Legende

GIF-Datei

Ergebnisse von hClust

Punktgröße 0-5; bei Punktgröße 0 werden nur farbige Punkte ausgegeben, Punktgröße 0.1 ist der kleinste sinnvolle Wert bei vielen Gebietseinheiten, Punktgröße größer 1, kann bei wenigen Gebietseinheiten sinnvoll sein. 1:GKZ; 2:Cluster; 3:GKZ +Cluster; bei sehr vielen GKZ empfiehlt sich 2, weil sonst die vielen GKZ das Bild schwärzen.



Wenn unter Plot-Ausgabe eine 1 gewählt wurde (GIF) kann hier Schriftgröße und Plotgröße angegeben werden.

Ergebnis einer Hierarchischen Clusteranalyse:

Die hierarchische Clusteranalyse erzeugt verschiedene Ausgabedateien mit dem Ergebnis der Analyse. ( Beschreibung siehe Online-Hilfe „?“) Im Dendogramm werden die hierarchischen Clusterbildungsstufen veranschaulicht. In diesem Beispiel sieht man, dass Gebiet 8,7,5,6,9, einem gebildetem Cluster zugeordnet werden. Dem Dendogramm kann entnommen werden, dass die Distanz (Unähnlichkeit) zwischen z.B. Gebiet 8 und 9 /6 relativ groß ist .

Dendogramm

Plots veranschaulichen bei 1-3 Merkmalen die Clusterbildung sehr gut, bei 3 Merkmalen kann man im GNU-Plot Fenster das 3-D-Bild drehen, um einen Eindruck von der räumlichen Verteilung der Punkte zu bekommen. (Bei mehr als 3 Merkmalen sieht man eine Projektion auf 3-Dimensionen, d.h. die Aussagekraft wird geringer

7

Cluster-Plot

7. 2. Eingabedaten - Glätten . Unter "Optionen" kann die Art der Glättung festgelegt werden. „Optionen“

1-D / 2-Dgleitendes Mittel „Datei öffnen“

Im Hinblick auf die Glättung ist für den Anwender in erster Linie die Option „1-Dgleitendes Mittel“ interessant. „2-D- gleitendes Mittel“ behandelt Dateien über mehrere Jahre hinweg und dient in erster Linie der Visualisierung, falls Raten erstellt werden sollen und Eingabedaten über mehrere Jahre untersucht werden sollen. Zunächst öffnet man die zu glättende Datei ( „Datei - öffnen“ ), es kann eine beliebige Datei sein , dann können die Glättungskriterien festgelegt werden.

8

Festlegen der Glättungskriterien

Fehlende Werte

Breite Gleitfenster/ Pyramidengröße/ Legende

LokaleSkalierung Spalte Geschlecht

Altersbereich

Ausgabe GraphikFormat

Ausgabe Linienpyramide

Speichern des Glättungsergebnisses

„Fehlende Werte“ werden je nach Option nicht berücksichtigt, als sehr kleiner Wert (z.B. 0,1) angenommen oder durch lineare Interpolation aus Nachbarwerten ermittelt. Bei fehlenden Randwerten wird der letzte besetzte Wert verwendet. Mit „Breite Gleitfenster“ kann eingestellt werden, wie viele Werte zum Glätten verwendet werden sollen ( im Beispiel die 3er-Glättung). Die Größe der Grafik-Fenster kann unter "Pyramidengröße" festgelegt werden. Anklicken von „Legende” führt zur Einblendung der Legende “Männlich” und “Weiblich” in die Pyramide. Aktivierung von “Lokale Skalierung” bewirkt, dass jede Pyramide gleich breit skaliert wird, andernfalls wird eine Skalierung über alle Pyramiden vorgenommen, wodurch „dicke“ und „schlanke“ Pyramiden entstehen. In „Spalte Geschlecht“ muss angegeben werden, ob die Datei eine Geschlechtsspalte enthält (z.B. wichtig bei Glättung der Geburtenraten, da die Datei fruc keinen Geschlechtsindex enthält). Unter Altersbereich : • muss die Zahl der vorhandenen Altersjahre unbedingt eingegeben werden, damit das Glättungsprogramm fehlende Werte korrekt behandelt. Die beiden Geschlechtsgruppen werden stets links und rechts abgetragen. • kann ein bestimmter Altersbereich zur Glättung ausgewählt werden. Bei Aktivierung von „Ausgabe Bildschirm“ wird die Visualisierung automatisch nach Beendigung des Programmlaufes angezeigt. Als Ausgabeformat stehen widget, png, gif, svg, und canvas zur Verfügung. Welches Format sich für welchen Zweck ambesten eignet, kann der Anwenderhilfe („?“) entnommen werden. Für die graphische Ausgabe können verschiedene Ausgaben angefordert werden: • „geglättete Datei“ – Ausgabe von zwei Pyramiden: von der Eingabedatei und der geglätteten Datei als Linienpyramide. • „von Datei“ – es können mehrere (ungeglättete) Dateien ausgewählt und werden; (dient dem Vergleich) • „gespiegelt“ an der X- Achse gespiegelte Pyramide (ungeglättete Datei) Nach Anklicken von „OK“ fragt das Programm, ob die geglättete Datei abgespeichert werden soll.

9

7.3.Eingabedaten – Dynamisieren Unter „Optionen“ kann eingestellt werden, welche Art der Interpolation (spline oder linear) gewünscht wird.

„Optionen“

„Datei“

Im Menü „ Datei“ müssen zunächst zwei oder mehrere Dateien aus einem Verzeichnis (Startdatei, eventuelle Stützstellen, Enddatei) bestimmt werden („Strg“Taste). Die Dateinamen müssen den SIKURS-Konventionen entsprechen, d.h. es müssen CSV-Dateien sein, deren Dateiname bis auf die 4-stellige Jahreszahl am Ende übereinstimmen, strb2005.csv und strb2020.csv. Die Zwischenjahre werden vom Tool durch Anklicken von „Öffnen“ automatisch erzeugt.

.

10

7.4.Visualisieren - Zeitreihen Das Tool „Visualisierung - Zeitreihen“ kann SIKURS-Dateien, mit „Jahr“ in der ersten Spalte und „Wert“ in der letzten Spalte graphisch darstellen. „Datei öffnen“

Beschreibung der gewählten Datei

Merkmale aus Zuvol.csv

Festlegen der gewünschten Datei (im Beispiel zuvol.csv) Spalten können mit den Nummern 1, 2, 3, ... für die erste, zweite, dritte, ... Spalte, oder mit den Zahlen -1, -2, -3 ... für die letzte, vorletzte, drittletzte, ... Spalte ausgewählt werden. Für das Jahr muss genau eine Spalte angegeben werden, meist 1. Für die Indices können mehrere Spalten angegeben werden, z.B. 1 2 3. Wenn weniger Indexspalten angegeben werden, als die Eingabedatei enthält, wird über die fehlenden Indices aggregiert. Für Wertespalten wird meist nur eine Spalte ausgewählt z.B. -1 als letzte Spalte. Bei Dateien mit mehreren Wertespalten wie z.B. bewgem können die gewünschten Wertespalten ausgewählt werden z.B. "5 6" für Geburten und Sterbefälle.

Legende

Plot

Das Layout des Plots kann mit Angabe von Titel, Achsenbeschriftungen und Plotart beeinflusst werden. Bei der Plotart „Linienplot Absolutwerte“ wird jeder Wert als Linienplot über die Jahre dargestellt. Bei „Flächenplot je Wert“ stellt jeder farbige Balken den Wert eines Merkmals dar, die oberste Linie im Plot zeigt die Aggregation über alle Merkmale. 11

Ergebnis Linienplot

Visualisierung des Zuzugsvolumens für 5 Gebiete und 2 Bevölkerungsgruppen von 1992 bis 2005:

7.5. Visualisierung - Indikatoren

Benötigte Dateien : Versionsdatei z.B. v.ini, Fruchtbarkeitsraten (frucxxxx.csv), Sterberaten (strbxxxx.csv) und Bevölkerungsbestand gemxxxx.csv. Durch Öffnen der gewünschten Gem-Datei erhalten Sie das Protokoll der Indikatorenberechnung mit folgenden Ergebnissen: • • • • • • •

Zusammengefasste Geburtenziffer: Anzahl Kinder, die eine Frau im gebärfähigen Alter nach den altersspezifischen Geburtenraten bekommen müsste. Bruttoreproduktionsrate: Anzahl Mädchen, die eine Frau im gebärfähigen Alter nach den altersspezifischen Geburtenraten bekommen müsste. Nettoreproduktionsrate: wie Bruttoreproduktionsrate, bei der die altersspezifischen Geburtenraten mit der Wahrscheinlichkeit multipliziert wird, dass die Frau das Gebäralter erreicht. Rohe Geburtenrate: Anzahl der Lebendgeborenen im Jahr/Anzahl der Bevölkerung Allgemeine Geburtenrate : Anzahl der Lebendgeborenen im Jahr/Anzahl der Frauen im gebärfähigen Alter Rohe Sterberate : Anzahl der Sterbefälle im Jahr/Anzahl der Bevölkerung Lebenserwartung und altersspezifische Lebenserwartung

12

7.5. Visualisierung - Pyramiden

„StartGIZEH Schnittstelle“

Mit „Visualisierung – Pyramiden - Start - GIZEH Schnittstelle“ und „Datei - Öffnen“ kann eine SIKURS-gem-Datei oder die Ergebnisdatei eines Zeitreihenprogrammes (zr_gem.csv ) in eine DUVA kompatible Datei konvertiert werden. (z.B. eine Eingabedatei für GIZEH)

Vor der Konvertierung kann die Eingabedatei gerundet werden.

„StartEinfache Pyramidenkontrollgrafik“

„Visualisierung - Pyramiden – einfache Pyramidenkontrollgrafik“ dient der Plausibilisierung von SIKURS Ein- und Ausgabedateien. Es können Dateien grafisch dargestellt werden, die Alterspyramiden, aber auch Blätter mit Matrizen und Vektoren enthalten. Die Dateien können nur visualisiert werden, eine Abspeicherung ist nicht möglich. Das Menü bietet folgende Möglichkeiten:

Eingabemaske

Es können Angaben zur Größe der erzeugten Graphik gemacht werden, ob bei der Darstellung nach Inländer und Ausländer differenziert werden Soll ( farbliche Unterscheidung) und ob die Skalierung der erzeugten Graphik absolut oder prozentual ausgewiesen werden soll.

Beispiel für eine Pyramidendarstellung

13

7.7. Ergebnisse - Zeitreihe

Das Tool „Zeitreihe“ aggregiert SIKURS-Dateien .

„Optionen“

Expertenmodus oder Standardlösungen

Das Tool stellt „Standardlösungen“ für Aggregierungen zur Verfügung. Sollen detailliertere Auswertungen vorgenommen werden, muss die „Option - Expertenmodus“ aktiviert werden. Im folgenden werden zunächst die Standardlösungen behandelt.

Eingabedatei-Typ

Weiter wird unter „Optionen“ angegeben, welcher Dateien Typ angefordert werden soll und ob eine „manuelle Dateienauswahl“ gewünscht ist (Markierung der Dateien mit gedrückter „Strg“ -Taste ); ist dies nicht der Fall, werden alle entsprechenden Dateien des zuletzt aktivierten ini-Verzeichnisses aggregiert.

Manuelle Dateienauswahl

Wenn die Option „manuelle Dateiauswahl“gewählt wird, kann der Benutzer mit einer Dateiauswahlmaske eine oder mehrere Eingabedateien wählen. Aggregation

Zeitreihe benötigt für die Aggregationsmaske Informationen über die Struktur der Eingabedateien. Bei Manueller Dateiauswahl muss der Benutzer diese dem Programm in folgender Maske mitteilen.

14

Mit dem nächsten Menü werden die Aggregierungen festgelegt:

„Keine“ bewirkt eine identische Abbildung der Werte, „alle Ausprägungen“ bildet alle Ausprägungen des Merkmals auf einen Wert ab; mit „entferne Merkmal“ wird die Zeitreihe ohne dieses Merkmal gebildet, sollen die Zeitreihen in einer bestimmten Weise aggregiert werden, kann das über eine Referenzdatei gesteuert werden. Beispiel für eine Aggregierung von Gebieten: Referenzdatei z.B. refgkz

15

Aggregatsfunktion/ Runden/Ausgabe

Mit diesem Menü können verschiedene Aggregatsfunktionen, Rundungsroutinen und Aufbau und Format der Ausgabedatei festgelegt werden.

Expertenmodus

Beim Arbeiten im Expertenmodus können differenziertere Aggregierungen angefordert werden:

„?“

Unter „?“ findet man eine Programmbeschreibung, die unter anderem auch die Möglichkeiten der Aggregierungen zeigt: Wird kein Eintrag vorgenommen, wird das Merkmal in der Ergebnisdatei entfernt.

i

keine Aggregation (identische Abbildung)

$i/5

Abbildung (z.B. AG) [0,1,2,3,4] -> [0], [5,6,7,8,9] -> [1], ...

($i+1)/2

Abbildung (z.B. GG) [1,2] -> [1]

($i==2002)?$i:-1

Auswahl eines einzigen Wertes (2002)

1

Abbildung aller Werte auf 1

substr($i,2,3)

Ergebnisdatei

Abbildung (z.B. GKZ) auf Teilstring der Länge 2 ab Position 3. Beispiel: 100234 -> 23 ... usw. Das Ergebnis der Aggregation wird als zr_gem.csv, zr_fruc.csv, zr_zudq.csv, usw. in das Ergebnisverzeichnis der Prognose gestellt

16