10. Statistische Verteilungen Übung „Röntgenpraxis XVI“ Die Patienten der Röntgenpraxis unterscheiden sich durch unterschiedliche Fitness. Daher benötigen die MTRA unterschiedliche Zeiten, um die Patienten auf den jeweiligen Wegen durch die Praxis zu begleiten. Die Begleitzeiten durch die MTRA sind gemäß folgender Abbildung zu implementieren.
N(3,1) N(2,1) N(10,3)
N(3,1) N(5,3)
N(2,1)
N(3,3)
171
Gliederung 1. Grundkenntnisse zur Simulation 2. Einführung in ProModel 3. Grundbausteine von ProModel 4. Path Networks 5. Variablen und Counter 6. User Distributions 7. Attribute 8. Uhrzeitabhängiges Routing und Schichtkalender 9. Statistische Auswertung der Simulationsdaten 10. Statistische Verteilungen 11. Aufbereitung empirischer Daten 12. Arbeiten mit ProActive X, Kosten 13. Fallstudie
172
11. Aufbereitung empirischer Daten Prozess einer Verteilungsanpassung Datenaufbereitung
Mögliche Verteilung auswählen
Parameterschätzung
Goodness-of-Fit Test
173
11. Aufbereitung empirischer Daten Prozess einer Verteilungsanpassung Datenaufbereitung
Mögliche Verteilung auswählen
Datenaufbereitung • Repräsentativen Zeitraum der zu analysierenden Daten auswählen
Parameterschätzung
Goodness-of-Fit Test
• Entsprechende Daten vergangenheitsbezogen aus vorhandenen IT-Systemen ermitteln
174
11. Aufbereitung empirischer Daten Prozess einer Verteilungsanpassung Datenaufbereitung
Mögliche Verteilung auswählen
Mögliche Verteilung auswählen • Beurteilung der Ist-Daten mittels Histogramm und Hintergrundinformationen
Parameterschätzung
Goodness-of-Fit Test
• Auswahl möglicher Verteilungen (siehe Kapitel 10)
175
11. Aufbereitung empirischer Daten Prozess einer Verteilungsanpassung Datenaufbereitung
Mögliche Verteilung auswählen
Parameterschätzung
Parameterschätzung • Schätzwert soll Erwartungstreu sein, d.h. die Schätzfunktion entspricht zumindest im Mittel dem richtigen Wert ˆ ( X ,..., X )] = Θ , X1,…,Xn sind beobachtete Zufallsvariablen E[Θ 1 n
Goodness-of-Fit Test
• Daneben soll die Schätzfunktion konsistent sein. Dies ist der Fall, wenn sie mit steigender Zahl an Beobachtungen eine immer kleiner werdende Abweichung von der realen Funktion zeigt. ˆ − Θ > ε ) P( Θ → 0 für jedes ε > 0 n n →∞
176
11. Aufbereitung empirischer Daten Prozess einer Verteilungsanpassung Datenaufbereitung
Mögliche Verteilung auswählen
Parameterschätzung
Goodness-of-Fit Test
Parameterschätzung • Untersuchung der Güte des geschätzten Parameters mittels der Methode „Mittlerer quadratischer Fehler“ (MSE = mean squared error) ˆ − Θ) 2 = E ( Θ ˆ 2 ) − 2ΘE (Θ ˆ ) + Θ2 MSE = E (Θ ˆ 2 ) − [ E (Θ ˆ )]2 + [ E (Θ ˆ )]2 − 2ΘE (Θ ˆ ) + Θ2 = E (Θ ˆ ) + [ E (Θ ˆ ) − Θ] 2 = Var (Θ
• Beispiel für eine Methode zur Ermittlung solcher Parameter ist die Maximum-Liklihood Methode
177
11. Aufbereitung empirischer Daten Prozess einer Verteilungsanpassung Datenaufbereitung
Mögliche Verteilung auswählen
Parameterschätzung
Goodness-of-Fit Test
Goodness-of-Fit Test • Definition der Nullhypothese H0 und der Alternativhypothese H1. Bei Bestätigung der Hypothese H0 wird die Behauptung als wahr angesehen. • Festlegung des Signifikanzniveaus α, das die Wahrscheinlichkeit der fälschlichen Ablehnung von H0 angibt. • Bestimmung einer Stichproben- bzw. Testfunktion V • Definition eines Verwerfungsbereiches B sowie die Beachtung der Entscheidungsregel, die besagt, dass H0 genau dann abgelehnt wird, wenn der Wert der Testfunktion V im Verwerfungsbereich B liegt
178
11. Aufbereitung empirischer Daten Prozess einer Verteilungsanpassung Datenaufbereitung
Mögliche Verteilung auswählen
Parameterschätzung
Goodness-of-Fit Test - Chi-Quadrat-Test • Festlegung H0 und H1 H0: Die, durch die Grundgesamtheit beschriebene Verteilung entspricht der vermuteten Verteilung H1: Die, durch die Grundgesamtheit beschriebene Verteilung entspricht nicht der vermuteten Verteilung
• Festlegung des Signifikanzniveaus α Goodness-of-Fit Test
Je kleiner α gewählt wird, umso kleiner ist die Wahrscheinlichkeit, dass die Hypothese H0 abgelehnt wird, obwohl diese stimmt. Problematisch ist jedoch, dass mit einer immer kleineren Wahl von α auch eine Ablehnung von H0 immer unwahrscheinlicher wird, obwohl diese Behauptung falsch ist. Häufig wird α als 10%, 5% oder 1% gewählt.
• Intervall der Grundgesamtheit in k Klassen unterteilen und die Anzahl der beobachteten Werte (beobachtete Häufigkeit) Oi mit i=1,…k je Klasse feststellen. Mit dieser Zahl wird jeweils die Anzahl an Werten verglichen Ei mit i=1,…k, die erwartet werden, wenn die Grundgesamtheit der speziellen Verteilung folgt.
179
11. Aufbereitung empirischer Daten Prozess einer Verteilungsanpassung Datenaufbereitung
Mögliche Verteilung auswählen
Parameterschätzung
Goodness-of-Fit Test - Chi-Quadrat-Test • Betrachtung folgender Prüfgröße (Oi − Ei ) 2 V =∑ Ei i =1 k
Unter der Annahme, dass die Anzahl der beobachteten Werte Oi ausreichend groß ist, kann diese Prüfgröße als annähernd Chi-Quadrat-verteilt mit k-1 Freiheitsgraden angenommen werden.
Goodness-of-Fit Test
• Verwerfungsbereich B festlegen Die linke Grenze dieses Intervalls wird bestimmt durch den Quantilswert der oben genannten Chi-Quadrat-Verteilung. Das Intervall lautet:
B = ( χ12−α ; ∞)
• Auswertung der Testfunktion Sobald für die Testfunktion gilt: ist der Funktionswert Element von B und es wird die Nullhypothese H0 abgelehnt. Die V > χ k2−1;1−α Funktionswerte der Chi-Quadrat-Verteilung sind in Tabellen dokumentiert und können daher in Abhängigkeit des gewählten a und k direkt abgelesen werden.
180
11. Aufbereitung empirischer Daten Ergebnis einer Datenerhebung
? Wie bringe ich meine gemessenen Daten in eine Simulation?
...
181
11. Aufbereitung empirischer Daten Statistische Verteilungsfunktionen schätzen: Datenaufbereitung Per Hand sehr aufwändig Mögliche Verteilung auswählen Berechnungen mit Hilfe des
Statistikprogramms „R“. Parameterschätzung
Goodness-of-Fit Test
182
11. Aufbereitung empirischer Daten Vorgehen: 1. Daten zur Berechnung aufbereiten •
Daten zeilenweise getrennt in ein Dokument schreiben (z.B.: .txt , .xls , …)
•
Dokument, sofern möglich und kein Schreibschutz, in den R-Ordner unter C:\Programme\R\R-2.4.0 speichern (Ansonsten beim Aufruf des Dokuments in R Angabe des kompletten Pfades beim Einlesen der Daten nötig, bspw. „F:\Untersuchungsdauer.txt"
•
Programm R öffnen
183
11. Aufbereitung empirischer Daten Workspace:
184
11. Aufbereitung empirischer Daten
2. Vorauswahl möglicher Familien von Verteilungsfunktionen treffen (sichte Histogramme, Wertebereiche, …) •
für anzupassendem Datensatz Variablennamen bereithalten (hier: y)
•
anzupassende Daten einlesen und Variablennamen zuweisen: > y hist(y)
185
11. Aufbereitung empirischer Daten 3. Parameterschätzung, Anpassung an mögliche Verteilungsfunktionen •
Package „MASS“ aufrufen (umfasst u.a. die Maximum-Likelihood Methode zur Anpassung univariater Verteilungen) > library(MASS)
•
Datensatz an erste vermutete Verteilungsfunktion anpassen (Parameterschätzung), bspw. „Gamma“ > fitdistr(y,“gamma“)
•
R gibt die geschätzten Parameter zurück: shape rate 4.33999743 0.63093527 (0.35876018) (0.05529361)
186
11. Aufbereitung empirischer Daten 4. Goodness-of-Fit Test (Güte der Anpassung evaluieren) •
Kolmororov-Smirnov-Test (ks-Test) > ks.test(y,"pgamma",shape=4.33999743,rate=0.63093527)
•
R gibt Güte zurück: One-sample Kolmogorov-Smirnov test data: y D = 0.0925, p-value = 0.01896 alternative hypothesis: two-sided
•
p-Wert sollte - je nach Festlegung - über α = 0.05 (5%) oder 0.01 (1%) liegen (übliche Signifikanz-Level in der Statistik-Literatur)
Hier:
1%-Signifikanz-Level: Wir akzeptieren die Nullhypothese dass die Daten einer Gammaverteilung folgen. 5%-Signifikanz-Level: Nullhypothese wird verworfen andere Verteilung suchen
187
11. Aufbereitung empirischer Daten Graphische Darstellung der Dichtefunktionen •
Unseres Datensatzes: > plot(density(y))
•
Vergleichend die angepasste GammaFunktion darüberlegen: > gamma lines(density(gamma),col=2)
„plot“ erstellt die Graphik neu „lines“ schreibt in geöffnete Graphik hinzu
188
11. Aufbereitung empirischer Daten Implementierung der Verteilungsfunktion in ProModel gemäß Folie 155
Befehle für weitere Verteilungsfunktionen:
Anmerkung: Bei der Implementierung in ProModel von in R ermittelten Parametern für Gammafunktionen kann es vorkommen, daß vom „rate“Parameter der Kehrwert eingesetzt werden muß, um die Generierung korrekter Zufallswerte zu gewährleisten ( stets prüfen!!!)
189
10. Statistische Verteilungen Aufgabe Lassen Sie die Simulation „Schreinerei XVI“ laufen. Die Bearbeitungszeiten auf Mill und Maschine 2 werden in einem externen File ausgelesen. Bereiten Sie diese Daten auf und ermitteln Sie mit Hilfe des Statistik-Programms „R“ die entsprechende Verteilungsfunktion. Welchen Schluß ziehen Sie beim Vergleich der implementierten Funktion in ProModel und der mit R ermittelten Funktion?
190
10. Statistische Verteilungen Aufgabe Suchen Sie passende Verteilungsfunktionen zu den im Excel-Dokument angegebenen Meßwerten. Probieren Sie dabei möglichst viele Funktionen aus. Wählen Sie die mit dem höchsten p-Wert.
191