Statistik - Regression

Blockkurs „Geowissenschaftliches Modellieren“ SS09 - Aufgabenstellung - Statistik – Regression (STATGRAPHICS) Blockkurs „Geowissenschaftliches Model...
Author: Damian Baum
7 downloads 0 Views 97KB Size
Blockkurs „Geowissenschaftliches Modellieren“ SS09 - Aufgabenstellung -

Statistik – Regression (STATGRAPHICS)

Blockkurs „Geowissenschaftliches Modellieren“ (01.04.09 - 03.04.09)

Statistik - Regression - Aufgabenstellung Im Rahmen dieser Übung sollen einfache stochastisch-statistische Modelle betrachtet werden, um ein Grundverständnis für deren Anwendung zur Bewertung von geochemischen Analysen zu entwickeln. Hintergrund: Nach der Erfassung und Speicherung hydrogeochemischer Daten erfolgt ein Datencheck. Dabei müssen bei hydrochemischen Daten Bestimmungs- und Nachweisgrenzen festgelegt werden. Außerdem ist es für viele geostatistische Verfahren unumgänglich, Werte kleiner der Nachweisgrenze zu ersetzen und fehlende Messwerte zu berücksichtigen. Fehlende Messwerte können beispielsweise durch (lineare) Regression ermittelt werden. Allerdings macht das nur Sinn, wenn die Parameter oder Variablen mit einander korrelieren. Sehr häufig wird die Regression für die Kalibrierung analytischer Verfahren und der anschließenden Berechnung gemessener Konzentrationen eingesetzt. Gerade bei der Kalibrierung kann die Anpassung mit verschiedenen Regressionsmodellen zu sehr unterschiedlichen Ergebnissen führen. Das Auftreten von so genannten „Ausreißern“ in Datensätzen ist neben der Wahl des Regressionsmodells auch ein Kriterium, was es bei der Analyse der Daten zu beachten gilt. Aus diesem Grund muss der Datensatz auf Ausreißer geprüft werden und diese ggf. bei einer Regressionsanalyse nicht mit berücksichtig werden.

Aufgabe 1: Multiple lineare Regression Mit Hilfe der multiplen linearen Regression wird der Zusammenhang zwischen einer Messgröße Y und mehreren Messgrößen X1, X2 ... Xn untersucht: Die so genannten Residuen sind die Abweichungen zwischen dem berechneten Y und dem tatsächlich beobachteten Y. Neben dem Korrelationskoeffizienten und dem zugehörigen Signifikanzniveau (p-value) ist eine Analyse der Residuen ein wichtiges Kriterium für die Güte der multiplen linearen Regression. Gegeben ist ein Datensatz bestehend aus 21 Wasseranalysen, der alle Hauptinhaltsstoffe und die spezifische elektrische Leitfähigkeit enthält (Wasseranalyse.xls). Weiterhin ist der gleiche Datensatz mit produzierten Fehlstellen gegeben - einige Werte wurden gelöscht und mit -999 („missing values“) ersetzt. Mit Hilfe multipler linearer Regression (STATGRAPHICS) sollen die „missing values“ für Natrium berechnet werden. Vorher müssen aber die Parameter ermittelt werden, die signifikant miteinander korrelieren. Für diese Parameter soll die multiple Regression durchgeführt werden und anschließend die Residuen betrachtet werden. Ergeben sich Unterschiede zu einer multiplen Regression in der alle Parameter einbezogen wurden bzw. nur die Parameter Chlor und Sulfat eingegangen sind?

Blockkurs „Geowissenschaftliches Modellieren“ SS09 - Aufgabenstellung -

Statistik – Regression (STATGRAPHICS)

Daten-File öffnen (Statgraphics):  File/Open/Open StatFolio: Wasseranalyse.spg.  für den Import eines *.csv-Files  File/Open/Open Data Source/External Data File oder Statgraphics Data File *.sf6  für *.csv-Import Trennung per ; aktivieren (File type/delimited by ;), Spaltenüberschrift = Variablen Namen und „missing values“ definieren durch -999 Für die Korrelation gehen Sie wie folgt vor:

 Analyze/Variable Data/Multivariate Methods/Multiple-Variable-Analysis  Daten (außer Probennummer) in das Data-Feld eingeben  Tables (2. Button im Multiple-Variable-Analysis-Fenster)  Correlation (normalverteilte Proben, unabhängig)/Rank correlation (nicht normalverteilt) aktivieren  Speichern: File/Save StatFolio (Aufgabe 1–Korrelation.spg)/Save Datafile (Aufgabe1.sf6) Außerdem kann die Analyse im StatReporter als Textdokument gespeichert werden: rechte Maustaste  „Copy Analysis to StatReporter“. Anschließend den StatReporter speichern: File/Save/Save StatReporter. Aus den beiden Korrelationen können die Parameter ermittelt werden, die signifikant korrelieren (p-value < 0.05). Je nach dem, ob die Daten im Datensatz normalverteilt und unabhängig sind oder nicht, greift man auf die „Product Moment“ oder „Rank Correlation“ zurück.  Mit welchen Parametern korreliert Natrium? Um zu überprüfen in wieweit die Daten einer Normalverteilung entsprechen kann man z.B. n-pPlots (Normal Probability Plot), Histogramme oder Tests (Shapiro-Wilk Test) heranziehen. In STATGRAPHICS werden verschiedene Plots unter  SnapStats!!/One Sample Analysis ausgegeben.  Sind die Daten für Na und Cl normalverteilt? Führen Sie nun mit den für Natrium ermittelten Korrelationspartnern eine multiple Regression durch, um die Fehlstellen für Natrium berechnen zu können. Da häufig natürliche Werte in Datensätzen nicht normal verteilt sind, greifen wir in dieser Übung auf die Parameter nach der Rangkorrelation zurück. Multiple Regression:

 Improve/Regression Analysis/Multiple Factors/Multiple Regression  Na (dependent Variable), restliche Parameter (independent Variables) Im Ergebnisfenster finden Sie alle Eingabeparameter, p-values für die einzelnen Parameter (ggf. sollten dann Parameter mit p > 0.05 aus der Regression ausgeschlossen werden, um ein besseres Ergebnis zu produzieren). Die ANOVA Tabelle (Analysis of Variance) gibt die statistische Signifikanz des Gesamtmodels an, darunter folgen die Korrelationskoeffizienten. Im StatAdvisor werden die Ergebnisse nach Signifikanzniveau bewertet und die Regressionsgleichung angeführt.

Blockkurs „Geowissenschaftliches Modellieren“ SS09 - Aufgabenstellung -

Statistik – Regression (STATGRAPHICS)

 Ermitteln Sie die Korrelationskoeffizienten, p-value (ANOVA) und die Regressionsgleichung für die Regressionen unter Einbezug der Korrelationspartner (1), aller Parameter (2) und der Parameter Cl- und SO42- (3). Übernehmen Sie die Regressionsparameter und die Residuenplots in das Excel-File Wasseranalyse.xls und in Ihren Bericht.  Berechnen Sie danach die Konzentrationen für Natrium. Wie können die Ergebnisse bewertet werden?  Welche Unterschiede ergeben sich und wie stehen die berechneten Werte im Vergleich zu den Originalwerten?  Welches Model würden Sie bevorzugen und warum?

Aufgabe 2: In Bergbauwässern sollen die Arsengehalte mittels AAS (Atomabsorptionsspektroskopie) bestimmt werden. Es wurde eine Kalibrierung durchgeführt, um aus den, mittels AAS ermittelten Peakflächen, die Konzentrationen in den Wässern zu bestimmen. Gegeben ist der Datensatz mit den Kalibrierwerten, d.h. Standardkonzentration und den dazugehörigen Peakflächen (Kalibrierung-AAS.xls / Kalibrierung-AAS.spg). Wie erwartet ist ein signifikanter Zusammenhang zwischen Peakfläche und der Standardkonzentration gegeben (p-value Rank- und Produkt moment correlation < 0.001). Ziel der Übung ist die Durchführung von linearer und nicht linearer Anpassung (exponentiell und logarithmisch) in STATGRAPHICS, um damit für eine Liste von Messwerte die Konzentration zu berechnen. Außerdem sollen die Residuen für die verschiedenen Anpassungen betrachtet werden.  Welche Unterschiede ergeben sich bei den einzelnen Anpassungen (Einschätzung der Regression nach dem p-value (Signifikanzniveau 95 %, d.h. p < 0.05!!!) und dem Korrelationskoeffizient?  Wie sieht die Verteilung der Residuen aus (Graphik dem Protokoll beifügen)?  Berechnen Sie die Arsenkonzentrationen für die im File Kalibrierung-AAS.xls angegebenen Messwerte (Arbeitsblatt Sample_List).  Wie wirken sich die Anpassungen auf die Ergebnisse aus? Welche Variante würden Sie für die Berechnung Ihrer Messwerte bevorzugen und warum? Vorgehen in STATGRAPHICS: Datei öffnen: File/Open Data Source/Kalibrierung-As.spg Regressionsanalyse: Improve/Regression Analysis/One Factor/Simple Regression Area_X (Peakfläche)  x Concentration_Y (Konzentration)  y Regressionsmodell : Analysis options (rechte Maustaste oder Icon)…linear/exponential/ logarithmic_X

Blockkurs „Geowissenschaftliches Modellieren“ SS09 - Aufgabenstellung -

Statistik – Regression (STATGRAPHICS)

Plots:

Plot of Fitted Model / Button Graphs (3. Button über dem Analyse Fenster)  umso kleiner die Residuen (Verteilung um Null), desto besser ist die Anpassung durch das Regressionsmodell sind die Residuen normal verteilt, dann besteht wahrscheinlich ein quadratischer Zusammenhang

Ausgabeoptionen:

Save Results  Residuals Plots kopieren (Plot rechte Maustaste\Copy) oder Save Graph im Fenster Simple Regression  Koeffizienten, Regressionsgleichung, pvalue, durch „Copy Analysis to StatReporter“ als Text-File abspeicherbar

Weitere Berechnungen: Übertragen Sie die Regressionsgleichungen, den p-value und die Korrelationskoeffizienten in das Excel-File (Arbeitsblatt Regressionsgleichungen_Modelle) und berechnen Sie die Konzentrationen der Proben nach den verschiedenen Modellen (Sample_List). Für eine lineare Regression wird der generelle Zusammenhang als Geradengleichung dargestellt: m … Anstieg, B … Achsenabschnitt Y = mX + B Je nach dem, ob man eine Variable A als unabhängig (X) oder abhängig (Y) definiert, unterscheiden sich die Parameter m und B der Regressionsgleichung. Durch Vertauschen der Variablen wird keine einfache Umkehrung der Regressionsberechnung erreicht. Deshalb können sich durch einfaches Umstellen der ermittelten Gleichung und der Berechnung der gewünschten Werte (z.B. Konzentration) erhebliche Fehler ergeben (mit Ausnahme, dass alle Punkte auf genau einer Geraden liegen). Für die gegebene Arsen-Kalibrierung wurde bereits eine lineare Regression mit Konzentration auf der x-Achse und der Peakfläche auf der y-Achse durchgeführt und folgende Parameter ermittelt: Fit

Regressionsgleichung

p-Wert

linear Area = 0.0755346 + 0.00355526*Conc 0.0009

Korrelationskoeffizient 0.99

 Berechnen Sie mit der gegebenen Gleichung die Proben- und Standardkonzentrationen (Gleichung umstellen, da aus der Peakfläche die Probenkonzentrationen ermittelt werden sollen.)  Was fällt Ihnen auf (Berechnung dem Arbeitsblatt Sample_List anfügen)? Für den gegebenen Datensatz wurde aus den Blindwertkonzentrationen die Nachweisgrenze für die Bestimmung von Arsen mittels AAS von 0.95 µg/L (3-Sigma-Kriterium: NWG = 3*SD) ermittelt (Arbeitsblatt Kalibrierung_AAS).  Prüfen Sie für Ihr gewähltes Modell mit der besten Anpassung die aus der Regression ermittelten Konzentrationen kritisch (Vergleich mit NWG, wie passen die Werte zu den Standardkonzentrationen) und passen Sie den Datensatz ggf. an. Werte kleiner der Nachweisgrenze können u.a. durch den Wert 0.5*NWG, 0.33*NWG oder Zufallszahl (0…1)*NWG ersetzt werden.

Blockkurs „Geowissenschaftliches Modellieren“ SS09 - Aufgabenstellung -

Statistik – Regression (STATGRAPHICS)

Aufgabe 3: Ausreißer Ausreißer können den Zusammenhang einer Regression verfälschen. Allerdings bedeutet Ausreißer nicht, dass es sich um falsche oder fehlerhafte Werte handelt (beispielsweise wurden niedrige Ozon Werte in der Stratosphäre über ein Jahrzehnt von der NASA nicht erkannt, da geglaubt wurde, dass es sich hierbei um Ausreißer im Sinne fehlerhafter Werte handelt). Im Gegenteil häufig sind Ausreißer sogar besondere oder außergewöhnliche Werte, die man mit Hilfe von Ausreißertests bestimmen kann. Ausreißertests werden allerdings unter der Annahme gemacht, dass die Daten normalverteilt sind, was aber bei Naturdaten eher selten der Fall ist. In STATGRAPHICS kann man unter: Analyze/Variable Data/Outliner Identification auf Ausreißer testen. Im File Ausreißer.spg wurde als Beispiel bereits ein solcher Ausreißer-Test für den modifizierten Datensatz Ausreiser.xls (mit x=18, y=90) dargestellt, wonach das Wertpaar (18, 90) als Ausreißer identifiziert wurde. In dieser Aufgabe soll die Wirkung von „Ausreißern“ auf die mittels Regression ermittelten Zusammenhänge näher betrachtet werden. Gegeben ist eine Messreihe (Ausreisser.xls) mit zwei Variablen X und Y, für die ein linearer Zusammenhang aus dem Scatterplot angenommen wird.  In Excel soll die Ausgleichsgerade (Geradengleichung Y = mX + B, R²) für den gegebenen Datensatz bestimmt und dargestellt werden. Neben dem Korrelationskoeffizienten R² ist vor allem der p-value entscheidend, ob der lineare Zusammenhang signifikant ist. Für die Datensätze wurde die Regressionsanlyse bereits in STATGRAPHICS durchgeführt, wonach die linearen Zusammenhänge für alle 3 Varianten signifikant (d.h. p-value < 0.05) sind.  Wie verändert sich der Zusammenhang, wenn Sie den Y-Wert bei X=18 durch 90 bzw. durch 25 ersetzen?

Blockkurs „Geowissenschaftliches Modellieren“ SS08 - Abgabe des Berichtes und Literatur -

Statistik – Regression (STATGRAPHICS)

Anfertigen des Berichts und Abgabe: Die Abgabe des Protokolls zum Modul “Statistik“ soll in Berichtform bis zum 10.04.2009 per E-Mail an: [email protected] erfolgen. Im Protokoll einen kurzen Abriss der Aufgabenstellung und des prinzipiellen Vorgehens geben. Die Ergebnisse können zusammen mit der Diskussion dargestellt werden. Geben Sie dabei aber alle Berechnungen bzw. Beispiele an und begründen Sie Ihre Aussagen. Bitte hängen Sie auch alle Datenfiles an Ihren Bericht an. Sobald Sie Angaben aus fremder Literatur verwenden, dann vergessen Sie nicht diese zu kennzeichnen und im Literaturverzeichnis anzugeben. Die erfolgreiche Teilnahme für diesen Kurs wird nur nach erfolgter Anwesenheit sowie Anerkennung des Protokolls für jedes Modul ausgestellt. Literatur: Merkel, B., Planer-Freidrich, B. (2002): Integrierte Datenauswertung Hydrogeologie, Freiberg Online Geology – FOG, Vol.7, TU Bergakademie Freiberg, Freiberg, 61 p. URL: http://www.geo.tu-freiberg.de/fog/FOG_Vol_7.pdf (04/2008) (mit weiteren relevanten Literaturangaben!) Schatten, A. (1999): Statistik für Chemiker – Ein „Kochbuch“, unpublished data, 103 p. URL: http://www.schatten.info/info/statistik/statistik_fuer_chemiker.pdf (04/2008) Stoyan, D., Stoyan, H., Jansen, U. (1997): Umweltstatistik, B.G. Teubner Verlagsgesellschaft Stuttgart – Leipzig, 348 p.

Blockkurs „Geowissenschaftliches Modellieren“ SS08 - Abgabe des Berichte und Literatur -

Hydrogeochemische Modellierung mit PhreeqC