10. Statistische Verteilungen Übung „Röntgenpraxis XVI“ Die Patienten der Röntgenpraxis unterscheiden sich durch unterschiedliche Fitness. Daher benötigen die MTRA unterschiedliche Zeiten, um die Patienten auf den jeweiligen Wegen durch die Praxis zu begleiten. Die Begleitzeiten durch die MTRA sind gemäß folgender Abbildung zu implementieren.

N(3,1) N(2,1) N(10,3)

N(3,1) N(5,3)

N(2,1)

N(3,3)

171

Gliederung 1. Grundkenntnisse zur Simulation 2. Einführung in ProModel 3. Grundbausteine von ProModel 4. Path Networks 5. Variablen und Counter 6. User Distributions 7. Attribute 8. Uhrzeitabhängiges Routing und Schichtkalender 9. Statistische Auswertung der Simulationsdaten 10. Statistische Verteilungen 11. Aufbereitung empirischer Daten 12. Arbeiten mit ProActive X, Kosten 13. Fallstudie

172

11. Aufbereitung empirischer Daten Prozess einer Verteilungsanpassung Datenaufbereitung

Mögliche Verteilung auswählen

Parameterschätzung

Goodness-of-Fit Test

173

11. Aufbereitung empirischer Daten Prozess einer Verteilungsanpassung Datenaufbereitung

Mögliche Verteilung auswählen

Datenaufbereitung • Repräsentativen Zeitraum der zu analysierenden Daten auswählen

Parameterschätzung

Goodness-of-Fit Test

• Entsprechende Daten vergangenheitsbezogen aus vorhandenen IT-Systemen ermitteln

174

11. Aufbereitung empirischer Daten Prozess einer Verteilungsanpassung Datenaufbereitung

Mögliche Verteilung auswählen

Mögliche Verteilung auswählen • Beurteilung der Ist-Daten mittels Histogramm und Hintergrundinformationen

Parameterschätzung

Goodness-of-Fit Test

• Auswahl möglicher Verteilungen (siehe Kapitel 10)

175

11. Aufbereitung empirischer Daten Prozess einer Verteilungsanpassung Datenaufbereitung

Mögliche Verteilung auswählen

Parameterschätzung

Parameterschätzung • Schätzwert soll Erwartungstreu sein, d.h. die Schätzfunktion entspricht zumindest im Mittel dem richtigen Wert ˆ ( X ,..., X )] = Θ , X1,…,Xn sind beobachtete Zufallsvariablen E[Θ 1 n

Goodness-of-Fit Test

• Daneben soll die Schätzfunktion konsistent sein. Dies ist der Fall, wenn sie mit steigender Zahl an Beobachtungen eine immer kleiner werdende Abweichung von der realen Funktion zeigt. ˆ − Θ > ε )  P( Θ → 0 für jedes ε > 0 n n →∞

176

11. Aufbereitung empirischer Daten Prozess einer Verteilungsanpassung Datenaufbereitung

Mögliche Verteilung auswählen

Parameterschätzung

Goodness-of-Fit Test

Parameterschätzung • Untersuchung der Güte des geschätzten Parameters mittels der Methode „Mittlerer quadratischer Fehler“ (MSE = mean squared error) ˆ − Θ) 2 = E ( Θ ˆ 2 ) − 2ΘE (Θ ˆ ) + Θ2 MSE = E (Θ ˆ 2 ) − [ E (Θ ˆ )]2 + [ E (Θ ˆ )]2 − 2ΘE (Θ ˆ ) + Θ2 = E (Θ ˆ ) + [ E (Θ ˆ ) − Θ] 2 = Var (Θ

• Beispiel für eine Methode zur Ermittlung solcher Parameter ist die Maximum-Liklihood Methode

177

11. Aufbereitung empirischer Daten Prozess einer Verteilungsanpassung Datenaufbereitung

Mögliche Verteilung auswählen

Parameterschätzung

Goodness-of-Fit Test

Goodness-of-Fit Test • Definition der Nullhypothese H0 und der Alternativhypothese H1. Bei Bestätigung der Hypothese H0 wird die Behauptung als wahr angesehen. • Festlegung des Signifikanzniveaus α, das die Wahrscheinlichkeit der fälschlichen Ablehnung von H0 angibt. • Bestimmung einer Stichproben- bzw. Testfunktion V • Definition eines Verwerfungsbereiches B sowie die Beachtung der Entscheidungsregel, die besagt, dass H0 genau dann abgelehnt wird, wenn der Wert der Testfunktion V im Verwerfungsbereich B liegt

178

11. Aufbereitung empirischer Daten Prozess einer Verteilungsanpassung Datenaufbereitung

Mögliche Verteilung auswählen

Parameterschätzung

Goodness-of-Fit Test - Chi-Quadrat-Test • Festlegung H0 und H1 H0: Die, durch die Grundgesamtheit beschriebene Verteilung entspricht der vermuteten Verteilung H1: Die, durch die Grundgesamtheit beschriebene Verteilung entspricht nicht der vermuteten Verteilung

• Festlegung des Signifikanzniveaus α Goodness-of-Fit Test

Je kleiner α gewählt wird, umso kleiner ist die Wahrscheinlichkeit, dass die Hypothese H0 abgelehnt wird, obwohl diese stimmt. Problematisch ist jedoch, dass mit einer immer kleineren Wahl von α auch eine Ablehnung von H0 immer unwahrscheinlicher wird, obwohl diese Behauptung falsch ist. Häufig wird α als 10%, 5% oder 1% gewählt.

• Intervall der Grundgesamtheit in k Klassen unterteilen und die Anzahl der beobachteten Werte (beobachtete Häufigkeit) Oi mit i=1,…k je Klasse feststellen. Mit dieser Zahl wird jeweils die Anzahl an Werten verglichen Ei mit i=1,…k, die erwartet werden, wenn die Grundgesamtheit der speziellen Verteilung folgt.

179

11. Aufbereitung empirischer Daten Prozess einer Verteilungsanpassung Datenaufbereitung

Mögliche Verteilung auswählen

Parameterschätzung

Goodness-of-Fit Test - Chi-Quadrat-Test • Betrachtung folgender Prüfgröße (Oi − Ei ) 2 V =∑ Ei i =1 k

Unter der Annahme, dass die Anzahl der beobachteten Werte Oi ausreichend groß ist, kann diese Prüfgröße als annähernd Chi-Quadrat-verteilt mit k-1 Freiheitsgraden angenommen werden.

Goodness-of-Fit Test

• Verwerfungsbereich B festlegen Die linke Grenze dieses Intervalls wird bestimmt durch den Quantilswert der oben genannten Chi-Quadrat-Verteilung. Das Intervall lautet:

B = ( χ12−α ; ∞)

• Auswertung der Testfunktion Sobald für die Testfunktion gilt: ist der Funktionswert Element von B und es wird die Nullhypothese H0 abgelehnt. Die V > χ k2−1;1−α Funktionswerte der Chi-Quadrat-Verteilung sind in Tabellen dokumentiert und können daher in Abhängigkeit des gewählten a und k direkt abgelesen werden.

180

11. Aufbereitung empirischer Daten Ergebnis einer Datenerhebung

? Wie bringe ich meine gemessenen Daten in eine Simulation?

...

181

11. Aufbereitung empirischer Daten Statistische Verteilungsfunktionen schätzen: Datenaufbereitung Per Hand sehr aufwändig Mögliche Verteilung auswählen Berechnungen mit Hilfe des

Statistikprogramms „R“. Parameterschätzung

Goodness-of-Fit Test

182

11. Aufbereitung empirischer Daten Vorgehen: 1. Daten zur Berechnung aufbereiten •

Daten zeilenweise getrennt in ein Dokument schreiben (z.B.: .txt , .xls , …)



Dokument, sofern möglich und kein Schreibschutz, in den R-Ordner unter C:\Programme\R\R-2.4.0 speichern (Ansonsten beim Aufruf des Dokuments in R Angabe des kompletten Pfades beim Einlesen der Daten nötig, bspw. „F:\Untersuchungsdauer.txt"



Programm R öffnen 

183

11. Aufbereitung empirischer Daten Workspace:

184

11. Aufbereitung empirischer Daten

2. Vorauswahl möglicher Familien von Verteilungsfunktionen treffen (sichte Histogramme, Wertebereiche, …) •

für anzupassendem Datensatz Variablennamen bereithalten (hier: y)



anzupassende Daten einlesen und Variablennamen zuweisen: > y hist(y)

185

11. Aufbereitung empirischer Daten 3. Parameterschätzung, Anpassung an mögliche Verteilungsfunktionen •

Package „MASS“ aufrufen (umfasst u.a. die Maximum-Likelihood Methode zur Anpassung univariater Verteilungen) > library(MASS)



Datensatz an erste vermutete Verteilungsfunktion anpassen (Parameterschätzung), bspw. „Gamma“ > fitdistr(y,“gamma“)



R gibt die geschätzten Parameter zurück: shape rate 4.33999743 0.63093527 (0.35876018) (0.05529361)

186

11. Aufbereitung empirischer Daten 4. Goodness-of-Fit Test (Güte der Anpassung evaluieren) •

Kolmororov-Smirnov-Test (ks-Test) > ks.test(y,"pgamma",shape=4.33999743,rate=0.63093527)



R gibt Güte zurück: One-sample Kolmogorov-Smirnov test data: y D = 0.0925, p-value = 0.01896 alternative hypothesis: two-sided



p-Wert sollte - je nach Festlegung - über α = 0.05 (5%) oder 0.01 (1%) liegen (übliche Signifikanz-Level in der Statistik-Literatur)

Hier:

1%-Signifikanz-Level: Wir akzeptieren die Nullhypothese dass die Daten einer Gammaverteilung folgen. 5%-Signifikanz-Level: Nullhypothese wird verworfen  andere Verteilung suchen

187

11. Aufbereitung empirischer Daten Graphische Darstellung der Dichtefunktionen •

Unseres Datensatzes: > plot(density(y))



Vergleichend die angepasste GammaFunktion darüberlegen: > gamma lines(density(gamma),col=2)

„plot“ erstellt die Graphik neu „lines“ schreibt in geöffnete Graphik hinzu

188

11. Aufbereitung empirischer Daten Implementierung der Verteilungsfunktion in ProModel gemäß Folie 155

Befehle für weitere Verteilungsfunktionen:

Anmerkung: Bei der Implementierung in ProModel von in R ermittelten Parametern für Gammafunktionen kann es vorkommen, daß vom „rate“Parameter der Kehrwert eingesetzt werden muß, um die Generierung korrekter Zufallswerte zu gewährleisten ( stets prüfen!!!)

189

10. Statistische Verteilungen Aufgabe Lassen Sie die Simulation „Schreinerei XVI“ laufen. Die Bearbeitungszeiten auf Mill und Maschine 2 werden in einem externen File ausgelesen. Bereiten Sie diese Daten auf und ermitteln Sie mit Hilfe des Statistik-Programms „R“ die entsprechende Verteilungsfunktion. Welchen Schluß ziehen Sie beim Vergleich der implementierten Funktion in ProModel und der mit R ermittelten Funktion?

190

10. Statistische Verteilungen Aufgabe Suchen Sie passende Verteilungsfunktionen zu den im Excel-Dokument angegebenen Meßwerten. Probieren Sie dabei möglichst viele Funktionen aus. Wählen Sie die mit dem höchsten p-Wert.

191