Statistische Methoden

Statistische Methoden Henning Gast Grundpraktikum Physik, März 2016 Henning Gast Statistik 1 Inhalt 1 Wahrscheinlichkeit Grundbegriffe der Wahr...
Author: Bernd Egger
28 downloads 2 Views 2MB Size
Statistische Methoden Henning Gast

Grundpraktikum Physik, März 2016

Henning Gast

Statistik

1

Inhalt 1

Wahrscheinlichkeit Grundbegriffe der Wahrscheinlichkeitsrechnung Wichtige Wahrscheinlichkeitsdichten Mehrere Zufallsgrößen

2

Statistische Messunsicherheiten Parameterschätzung Definition der statistischen Messunsicherheit Fehlerfortpflanzung

3

Modellanpassung Methode der kleinsten Quadrate Lineare Regression

4

Systematische Unsicherheiten Definition und Abschätzung

Henning Gast

Statistik

2

Literatur

G. Cowan, Statistical Data Analysis, Oxford University Press, ISBN 0-19-850155-2 R. Barlow, Statistics, Wiley, ISBN 0-471-92295-1 V. Blobel und E. Lohrmann, Statistische und numerische Methoden der Datenanalyse, eBuch: http://www.desy.de/∼blobel/ebuch.html

Henning Gast

Statistik

3

Messunsicherheiten Im Praktikum sollen alle Messergebnisse zusammen mit ihrer Unsicherheit angegeben werden, z.B.: R = 99.82 Ω ± 0.10 Ω Die Unsicherheit gibt dabei an, mit welcher Genauigkeit eine Größe im Praktikum mit den zur Verfügung stehenden Mitteln bestimmt werden konnte. Sie spiegelt die Qualität und die Präzision einer Messung wider, vorausgesetzt dass sie korrekt bestimmt wurde. Wichtig ist die Unterscheidung zwischen statistischen und systematischen Unsicherheiten, dazu später mehr. Bei der Angabe des Messergebnisses sollen nur die im Rahmen der Genauigkeit signifikanten Stellen angegeben werden. (Am besten, 2 signifikante Stellen angeben, um Rundungsfehler klein zu halten.)

Henning Gast

Statistik

4

Inhalt 1

Wahrscheinlichkeit Grundbegriffe der Wahrscheinlichkeitsrechnung Wichtige Wahrscheinlichkeitsdichten Mehrere Zufallsgrößen

2

Statistische Messunsicherheiten Parameterschätzung Definition der statistischen Messunsicherheit Fehlerfortpflanzung

3

Modellanpassung Methode der kleinsten Quadrate Lineare Regression

4

Systematische Unsicherheiten Definition und Abschätzung

Henning Gast

Statistik

5

Wahrscheinlichkeit Wir betrachten eine Menge S und nennen sie den Parameterraum. Jeder Untermenge A von S weisen wir eine reelle Zahl P(A) zu, die wir Wahrscheinlichkeit nennen. Kolmogorov Axiome (1933) 1

Für jede Untermenge A in S: P(A) ≥ 0.

2

Für alle disjunkten Untermengen A and B: P(A ∪ B) = P(A) + P(B).

3

P(S) = 1.

Wir möchten mit reellen Zahlen statt mit Elementen von Mengen rechnen, deshalb definieren wir: Definition Eine Abbildung X : S → Rn heißt Zufallsgröße.

Henning Gast

Statistik

6

Bedingte Wahrscheinlichkeit Definition Für zwei Untermengen A und B des Parameterraums ist die bedingte Wahrscheinlichkeit P(A|B) definiert durch P(A|B) =

P(A ∩ B) P(B)

Die zwei Untermengen heißen unabhängig, wenn P(A ∩ B) = P(A) P(B). Wegen A ∩ B = B ∩ A, P(B ∩ A) = P(A|B)P(B) = P(B|A)P(A), und so kommen wir zu dem Theorem (Satz von Bayes) P(A|B) =

Henning Gast

P(B|A)P(A) P(B)

Statistik

7

Interpretation von Wahrscheinlichkeiten

Frequentistische Interpretation P(A) = lim

n→∞

Anzahl der Vorkommnisse von Ausgang A in n Messungen n

Zugrunde liegende Annahme: Das Zufallsexperiment kann prinzipiell beliebig oft wiederholt werden. Beispiel: Messung der Kapazität eines Kondensators. Problematischer: Aussagen über Zufallsexperimente, die nur ein einziges Mal durchgeführt werden können, z.B.: “Morgen wird es regnen.”

Henning Gast

Statistik

8

Wahrscheinlichkeitsdichte

Betrachten wir einen Parameterraum S und eine Zufallsgröße X : S → R. Definition Die Wahrscheinlichkeitsdichte von X ist definiert als f (x) dx = P(X ergibt Wert in [x, x + dx]) f (x) ist normiert, so dass Z f (x) dx = 1 S

Die Definition gilt genauso für kontinuierliche wie für diskrete Zufallsgrößen.

Henning Gast

Statistik

9

Histogramme

Henning Gast

Statistik

10

Kumulative Verteilung

Definition Die kumulative Verteilung F (x) zu einer Wahrscheinlichkeitsdichte f (x) ist definiert durch Z x F (x) = f (x 0 ) dx 0 −∞

Henning Gast

Statistik

11

Erwartungswert und Varianz Wir betrachten eine 1-D Zufallsgröße X . Um Mittelwert und Streuung von X zu charakterisieren, definieren wir: Definition Der Erwartungswert oder Mittelwert von X ist gegeben durch Z ∞ E[X ] = xf (x) dx = µ −∞

Die Varianz von X ist gegeben durch Z ∞ V [X ] = (x − µ)2 f (x) dx = σ 2 −∞

p Die Standardabweichung von X ist gegeben durch σ = V [X ]. Diese Größe ist sinnvoll, weil sie dieselben Einheiten hat wie x. Beachte, dass V [X ] = (E[X 2 ]) − µ2 .

Henning Gast

Statistik

12

Inhalt 1

Wahrscheinlichkeit Grundbegriffe der Wahrscheinlichkeitsrechnung Wichtige Wahrscheinlichkeitsdichten Mehrere Zufallsgrößen

2

Statistische Messunsicherheiten Parameterschätzung Definition der statistischen Messunsicherheit Fehlerfortpflanzung

3

Modellanpassung Methode der kleinsten Quadrate Lineare Regression

4

Systematische Unsicherheiten Definition und Abschätzung

Henning Gast

Statistik

13

Gauß-Verteilung Definition f (x; µ, σ) = √

  (x − µ)2 exp − 2σ 2 2πσ 2 1

E[X ] = µ V [X ] = σ 2 Die Wichtigkeit der Gauß-Verteilung liegt im zentralen Grenzwertsatz begründet: Die Summe von n unabhängigen kontinuierlichen Zufallsgrößen mit Mittelwerten µi und endlichen Varianzen σi2 nähert sich im Grenzfall n → ∞ einer Gauß-Verteilung mit P Mittelwert µ = µ und Varianz i i P σ 2 = i σi2 . Henning Gast

Statistik

14

Binomial-Verteilung Betrachte eine Serie von N unabhängigen Versuchen oder Beobachtungen, von denen jede zwei Mögliche Ausgänge hat (’1’ oder ’0’), mit fester Wahrscheinlichkeit p für ’1’ (Bernoulli-Experiment). Die Wahrscheinlichkeit, k -mal ’1’ in N Versuchen zu messen, ist Definition   N k f (k ; N, p) = p (1 − p)N−k k

  N N! with = k k !(N − k )!

E[X ] = Np V [X ] = Np(1 − p)

Henning Gast

Statistik

15

Poisson-Verteilung Betrachte die Binomial-Verteilung im Grenzfall, dass N sehr groß wird, p sehr klein wird, aber das Produkt np konstant gleich einem endlichen Wert ν bleibt. Dann nähert sich die Binomial-Verteilung einer Poisson-Verteilung an: Definition f (k ; ν) =

ν k −ν e k!

E[X ] = ν V [X ] = ν Beispiel: Zählexperiment. Für große ν nähert sich die Poisson-Verteilung einer Gauß-Verteilung mit Mittelwert ν und Varianz ν an.

Henning Gast

Statistik

16

Gleichverteilung

Definition Die Gleichverteilung ist gegeben durch  1 α≤x ≤β β−α f (x; α, β) = 0 sonst E[X ] = 12 (α + β) V [X ] =

1 12 (β

− α)2

Beispiele: Digitalisierung im Analog-Digital-Wandler (ADC) Maßband (Intervall zwischen zwei Skalenstrichen)

Henning Gast

Statistik

17

Inhalt 1

Wahrscheinlichkeit Grundbegriffe der Wahrscheinlichkeitsrechnung Wichtige Wahrscheinlichkeitsdichten Mehrere Zufallsgrößen

2

Statistische Messunsicherheiten Parameterschätzung Definition der statistischen Messunsicherheit Fehlerfortpflanzung

3

Modellanpassung Methode der kleinsten Quadrate Lineare Regression

4

Systematische Unsicherheiten Definition und Abschätzung

Henning Gast

Statistik

18

Gemeinsame Wahrscheinlichkeitsdichte und Kovarianz Definition Seien X und Y zwei Zufallsgrößen. Die gemeinsame Wahrscheinlichkeitsdichte f (x, y ) ist definiert als P(X (ω) ∈ [x, x + dx] ∧ Y (ω) ∈ [y , y + dy ]) = f (x, y ) dx dy für alle ω ∈ S. Definition Die Kovarianz von zwei Zufallsgrößen X and Y ist definiert als Vxy = E[(x − µx )(y − µy )] = E[xy ] − µx µy Z ∞Z ∞ = xy f (x, y ) dx dy − µx µy −∞

−∞

Henning Gast

Statistik

19

Korrelationskoeffizient

Ein dimensionsloses Maß für die Korrelation zwischen zwei Zufallsgrößen ist gegeben durch den Korrelationskoeffizienten ρxy =

Vxy σx σy

Man kann zeigen, dass −1 ≤ ρxy ≤ 1. Per Konstruktion ist die Kovarianzmatrix Vab symmetrisch in a und b, und die Diagonalelemente Vaa = σa2 (d.h. die Varianzen) sind positiv.

Henning Gast

Statistik

20

Streudiagramme

Henning Gast

Statistik

21

Rechnen mit Erwartungswerten Aus der Definition des Erwartungswert folgt: Für die Multiplikation einer Zufallsgröße mit einer Konstanten a: E[aX ] = aE[X ] V [aX ] = a2 V [X ] Für die Summe zweier Zufallsgrößen X und Y : E[X + Y ] = E[X ] + E[Y ] V [X + Y ] = V [X ] + V [Y ] wobei die letzte Beziehung nur gilt, wenn X and Y unabhängig sind, d.h. die gemeinsame Wahrscheinlichkeitsdichte faktorisiert: f (x, y ) dx dy = fx (x)fy (y ) dx dy .

Henning Gast

Statistik

22

Inhalt 1

Wahrscheinlichkeit Grundbegriffe der Wahrscheinlichkeitsrechnung Wichtige Wahrscheinlichkeitsdichten Mehrere Zufallsgrößen

2

Statistische Messunsicherheiten Parameterschätzung Definition der statistischen Messunsicherheit Fehlerfortpflanzung

3

Modellanpassung Methode der kleinsten Quadrate Lineare Regression

4

Systematische Unsicherheiten Definition und Abschätzung

Henning Gast

Statistik

23

Einführung in die Parameterschätzung Die Parameter einer Wahrscheinlichkeitsdichte sind Konstanten, die ihre Form beschreiben, z.B. θ in f (x; θ) =

1 −x/θ e θ

Um den unbekannten Parameter θ zu bestimmen, benutzen wir eine Stichprobe von Beobachtungswerten x = (x1 , . . . , xn ), die entsprechend der Wahrscheinlichkeitsdichte verteilt sind. Die Aufgabe besteht nun darin, eine Funktion der Daten zu finden, um den gesuchten Parameter zu schätzen: ˆ θ(x) ˆ θ(x) wird Schätzgröße für den unbekannten Parameter θ genannt. Im Allgemeinen heißt eine Funktion, die Beobachtungsdaten (x1 , . . . , xn ) eine Zahl zuordnet, eine Testgröße.

Henning Gast

Statistik

24

Beispiel: Schätzgrößen für Mittelwert und Varianz Wir wollen eine Schätzgröße für den Mittelwert µ einer Wahrscheinlichkeitsdichte mit völlig unbekannter Form angeben, basierend auf der Stichprobe (x1 , . . . , xn ). Wir benutzen das arithmetische Mittel n 1X ¯ x= xi n i=1

Der Erwartungswert von x¯ ergibt sich zu " # n n n 1X 1X 1X xi = E[xi ] = µ=µ E[x¯ ] = E n n n i=1

i=1

i=1

was bedeutet, dass x¯ in der Tat eine erwartungstreue Schätzgröße für µ ist. Man kann zeigen, dass die empirische Varianz n

s2 =

1 X (xi − x¯ )2 n−1 i=1

eine erwartungstreue Schätzgröße für die unbekannte Varianz ist: E[s2 ] = σ 2 . Henning Gast

Statistik

25

Schätzgröße für die Kovarianz

Ähnlich kann gezeigt werden, dass die Größe n

ˆxy = V

1 X n (xi − x¯ )(yi − y¯ ) = (xy − x¯ y¯ ) n−1 n−1 i=1

eine erwartungstreue Schätzgröße für die Kovarianz Vxy zweier Zufallsgrößen X und Y mit unbekanntem Mittelwert ist.

Henning Gast

Statistik

26

Varianz des arithmetischen Mittels Für die Varianz des arithmetischen Mittels finden wir   ! n n X X 1 1 V [x¯ ] = E[x¯ 2 ] − (E[x¯ ])2 = E  xi  xj  − µ2 n n i=1

j=1

n 1 X E[xi xj ] − µ2 = 2 n i,j=1

=

1 σ2 [(n2 − n)µ2 + n(µ2 + σ 2 )] − µ2 = 2 n n

wo wir benutzt haben, dass E[xi xj ] = µ2 für i 6= j und E[xi xj ] = µ2 + σ 2 für i = j. Dieses Ergebnis bedeutet, dass die Unsicherheit des Mittelwerts bei n Messungen√von x gleich der Standardabweichung von f (x) ist, geteilt durch n.

Henning Gast

Statistik

27

Inhalt 1

Wahrscheinlichkeit Grundbegriffe der Wahrscheinlichkeitsrechnung Wichtige Wahrscheinlichkeitsdichten Mehrere Zufallsgrößen

2

Statistische Messunsicherheiten Parameterschätzung Definition der statistischen Messunsicherheit Fehlerfortpflanzung

3

Modellanpassung Methode der kleinsten Quadrate Lineare Regression

4

Systematische Unsicherheiten Definition und Abschätzung

Henning Gast

Statistik

28

Statistische Messunsicherheit Wir betrachten zwei experimentelle Gegebenheiten: Ein bestimmter Parameter soll aus einer Menge von n wiederholten Messungen bestimmt werden. Wie stark streuen die Messungen? (→ Standardfehler) Der unbekannte wahre Parameter einer Wahrscheinlichkeitsdichte soll aus einem einzelnen Experiment bestimmt werden. Mit welcher Genauigkeit kann der Parameter bestimmt werden? (→ Konfidenzintervall) In beiden Fällen sind wir daran interessiert, ein Intervall zu finden, das den wahren Wert der zu messenden Größe mit einer Wahrscheinlichkeit von 68 % enthält. Motivation: Bei der Gauß-Verteilung gilt:   Z µ+σ (x − µ)2 1 √ exp − dx ≈ 0.68 2σ 2 2πσ µ−σ Semantik: Was verstehen wir unter den folgenden Begriffen? Fehler Unsicherheit Henning Gast

Statistik

29

Standardabweichung als statistischer Fehler

Wenn wir die Messung eines (wahren aber unbekannten) Parameters θt mehrfach wiederholen und dabei MesswerteP(t1 , . . . , tn ) erhalten, können wir das arithmetische Mittel θ = (1/n) ti und die empirische Standardabweichung σθ berechnen. Für n Wiederholungen wird die Unsicherheit auf das√arithmetische Mittel, das aus allen Messungen berechnet wird, σθ / n betragen. Wir können dann √ θ ± σθ / n als Ergebnis der Messung angeben. Aber: Welcher Anteil wird im Mittel einen Wert im √ der Messungen √ Intervall [θ − σθ / n, θ + σθ / n] ergeben? Es stellt sich heraus, dass dieses simple Verfahren streng nur für Gauß-verteilte Messgrößen gilt.

Henning Gast

Statistik

30

Konfidenzintervalle Problemstellung: Wir möchten auf einen Parameter µ schließen, dessen wahrer Wert µt unbekannt ist. Dazu führen wir eine einzelne Messung einer Observablen x durch. Die Wahrscheinlichkeitsdichte dafür, x in Abhängigkeit des unbekannten Parameters µ zu erhalten, nehmen wir als bekannt an und nennen diese Wahrscheinlichkeitsdichte P(x|µ). Unsere Messung ergebe nun den Wert x0 . Ein Konfidenzintervall [µ1 , µ2 ] ist ein Element einer Menge, die durch die Eigenschaft P(µ ∈ [µ1 , µ2 ]) = α definiert ist. α heißt Konfidenzniveau.

Henning Gast

Statistik

31

Inhalt 1

Wahrscheinlichkeit Grundbegriffe der Wahrscheinlichkeitsrechnung Wichtige Wahrscheinlichkeitsdichten Mehrere Zufallsgrößen

2

Statistische Messunsicherheiten Parameterschätzung Definition der statistischen Messunsicherheit Fehlerfortpflanzung

3

Modellanpassung Methode der kleinsten Quadrate Lineare Regression

4

Systematische Unsicherheiten Definition und Abschätzung

Henning Gast

Statistik

32

Fehlerfortpflanzung Wir betrachten eine Menge von n Zufallsgrößen x = (x1 , . . . , xn ), die gemäß einer gewissen gemeinsamen Wahrscheinlichkeitsdichte f (x) verteit seien. Die Wahrscheinlichkeitsdichte selbst ist unbekannt, aber die Mittelwerte der xi , µ = (µ1 , . . . , µn ) sowie die Kovarianzmatrix Vij seien bekannt oder abgeschätzt. Unser Ziel ist die Bestimmung der Varianz V [y ] einer Funktion y (x) der n Variablen. (Beispiel: Bestimmung eines Ohmschen Widerstands aus Messung von Strom und Spannung über R = U/I.) Dazu entwickeln wir y (x) bis zur ersten Ordnung um die Mittelwerte der xi :  n  X ∂y (xi − µi ) y (x) ≈ y (µ) + ∂xi x=µ i=1

Wegen E[xi − µi ] = 0, ist der Erwartungswert von y E[y (x)] ≈ y (µ)

Henning Gast

Statistik

33

Fehlerfortpflanzung Der Erwartungswert von y 2 ist E[y 2 (x)] ≈ y 2 (µ) + 2y (µ) ·

 n  X ∂y i=1

 +E

∂xi

E[xi − µi ]

x=µ

 ! n  X ∂y  (xi − µi )  (xj − µj ) ∂xi x=µ ∂xj x=µ

 n  X ∂y i=1

= y 2 (µ) +

j=1

n X i,j=1



∂y ∂y ∂xi ∂xj

 Vij x=µ

so dass die Varianz σy2 = E[y 2 ] − (E[y ])2 gegeben ist durch Gauß’sche Fehlerfortpflanzung σy2 ≈

 n  X ∂y ∂y Vij ∂xi ∂xj x=µ

i,j=1

Henning Gast

Statistik

34

Häufige Spezialfälle Für den Fall, dass die xi nicht korreliert sind, d.h. Vii = σi2 und Vij = 0 für i 6= j, erhalten wir die wohlbekannte Formel σy2 ≈

2 n  X ∂y i=1

∂xi

σi2

x=µ

Wir betrachten zwei Spezialfälle: Wenn y = x1 + x2 , ergibt sich die Varianz von y zu σy2 = σ12 + σ22 + 2V12 Für das Produkt y = x1 x2 erhalten wir σy2 σ2 σ2 V12 = 12 + 22 + 2 2 y x1 x2 x1 x2

Henning Gast

Statistik

35

Inhalt 1

Wahrscheinlichkeit Grundbegriffe der Wahrscheinlichkeitsrechnung Wichtige Wahrscheinlichkeitsdichten Mehrere Zufallsgrößen

2

Statistische Messunsicherheiten Parameterschätzung Definition der statistischen Messunsicherheit Fehlerfortpflanzung

3

Modellanpassung Methode der kleinsten Quadrate Lineare Regression

4

Systematische Unsicherheiten Definition und Abschätzung

Henning Gast

Statistik

36

Die Methode der kleinsten Quadrate Angenommen, wir haben eine Menge von N unabhängigen Gauß’schen Zufallsgrößen yi , an verschiedenen Orten xi . Jeder Wert yi hat einen anderen Mittelwert λi , der durch eine Funktion λ = λ(x; θ) gegeben ist, aber eine bekannte Varianz σi2 . λ hängt von m Parametern (θ1 , . . . , θm ) ab, welche wir bestimmen wollen.

Die Parameter, die die Größe χ2 (θ) =

N X (yi − λ(xi ; θ))2 σi2 i=1

minimieren, heißen χ2 -Schätzgrößen (LS, least-squares) für die θ. Henning Gast

Statistik

37

Varianz der χ2 -Schätzgrößen

Man kann zeigen, dass für den Fall eines freien Parameters die Unsicherheit auf die best-fit Parameter θ0 durch diejenigen Werte gegeben ist, bei denen χ2 (θ) = χ2min + 1 wird.

Henning Gast

Statistik

38

Güte der Anpassung (goodness of fit) Der Wert von χ2min ist ein Maß für die Übereinstimmung zwischen den Daten und der angepassten Modellkurve: χ2min =

N X ˆ 2 (yi − λ(xi ; θ)) 2 σi i=1

Er kann deshalb als so genannte goodness-of-fit Testgröße benutzt werden, um die Hypothese der funktionalen Form λ(x; θ) zu testen. Man kann zeigen, dass wenn die Hypothese korrekt ist, die Testgröße t = χ2min einer χ2 -Verteilung folgt: f (t; ndf ) =

1 2ndf /2 Γ(ndf /2)

t ndf /2−1 e−t/2

wobei ndf die Anzahl der Freiheitsgrade ist: ndf = Anzahl der Datenpunkte − Anzahl der freien Parameter

Henning Gast

Statistik

39

Güte der Anpassung Man erwartet χ2min /ndf ≈ 1. Für den Fall, dass... χ2 /ndf  1: Sind die angenommenen Messunsicherheiten zu klein? Ist die funktionale Form der Hypothese λ(x; θ) korrekt? Den Mangel an Übereinstimmung kann man durch den p-value quantifizieren: Z ∞

p= χ2min

f (t; ndf ) dt

also die Wahrscheinlichkeit für den Fall einer korrekten Hypothese, einen Wert von χ2min zu erhalten, der so groß wie oder größer ist als derjenige, den wir tatsächlich gefunden haben. χ2 /ndf  1: Sind die angenommenen Messunsicherheiten zu groß? Folgen die Datenpunkte wirklich unabhängigen Zufallsgrößen? χ2 /ndf ≈ 1: Sind die angenommenen Messunsicherheiten wirklich korrekt? Wie sieht der Residuenplot aus? Henning Gast

Statistik

40

Residuenplots

Henning Gast

Statistik

41

Zusammenfassen von Messungen Es sei eine unbekannte Größe λ in N verschiedenen Experimenten gemessen worden, die unabhängige Messwerte yi mit abgeschätzten ˆ für λ kann Unsicherheiten σi geliefert haben. Die χ2 -Schätzgröße λ dadurch abgeleitet werden, dass wir χ2 (λ) =

N X (yi − λ)2 σi2 i=1

minimieren. Gleichsetzen von ∂χ2 (λ)/∂λ = 0 liefert PN 2 ˆ = Pi=1 yi /σi λ N 2 i=1 1/σi also die wohlbekannte Formel für das gewichtete Mittel. Die zweite ˆ (hier ohne Beweis): Ableitung von χ2 liefert die Varianz von λ ˆ =P 1 V [λ] N 2 i=1 1/σi (Eine analoge Methode wird im Praktikum zur nummerischen Bestimmung der Maxima einer Kurve eingesetzt (Peakfinding).) Henning Gast

Statistik

42

Inhalt 1

Wahrscheinlichkeit Grundbegriffe der Wahrscheinlichkeitsrechnung Wichtige Wahrscheinlichkeitsdichten Mehrere Zufallsgrößen

2

Statistische Messunsicherheiten Parameterschätzung Definition der statistischen Messunsicherheit Fehlerfortpflanzung

3

Modellanpassung Methode der kleinsten Quadrate Lineare Regression

4

Systematische Unsicherheiten Definition und Abschätzung

Henning Gast

Statistik

43

Lineare Regression Eine häufige Anwendung der Methode der kleinsten Quadrate besteht in der Bestimmung von Steigung m und Achsenabschnitt c einer Geraden y = mx + c an n Paare von Messpunkten (x1 , y1 ), . . . , (xn , yn ) mit Messunsicherheiten σi auf die yi , während die xi als genau bekannt angenommen werden. Beispiel: Messung der Schallgeschwindigkeit aus Resonanzlängen einer stehenden Welle gemäß Ln = (v /2f ) n. Zu minimieren ist 2 X 2 n  n  X yi − mxi − c yi − y (xi ) = χ2 = σi σi i=1

i=1

Henning Gast

Statistik

44

Lineare Regression

χ2 =

2 n  X yi − mxi − c σi i=1

2

X yi − mx X xi X 1 ˆ i − cˆ X yi ∂χ ˆ = −2 = −m − cˆ =0 2 2 2 ∂c σi σi σi σi2 P yi P xi ⇒P

σi2 1 σi2

ˆP −m

σi2 1 σi2

− cˆ = 0

oder ˆ x¯ − cˆ = 0 y¯ − m wo wir z.B. definieren: x¯ =

X xi X 1 / σi2 σi2

Henning Gast

Statistik

45

Lineare Regression

χ2 =

2 n  X yi − mxi − c σi i=1

X yi − mx X xi yi X x2 X xi ˆ i − cˆ ∂χ i ˆ = −2 xi = −m − cˆ =0 2 2 2 ∂m σi σi σi σi2 2

ˆ 2 − cˆx¯ = 0 ⇒ xy − mx Als Lösung des Gleichungssystems ergibt sich schließlich: ˆ = m

xy − x¯ y¯ x 2 − x¯ 2

Henning Gast

ˆ x¯ und cˆ = y¯ − m

Statistik

46

Lineare Regression ˆ schreiben wir Zur Bestimmung der Unsicherheit σmˆ auf m ˆ = m

X

xi − x¯ yi N(x 2 − x¯ 2 )

wobei N =

X 1 σi2

und mit dem Gesetz über die Fehlerfortpflanzung folgt dann v !2 u uX xi − x¯ t σmˆ = σi2 N(x 2 − x¯ 2 ) Analog ergibt sich

σcˆ =

v u uX t

Henning Gast

x 2 − x¯ xi N(x 2 − x¯ 2 )

Statistik

!2 σi2

47

Korrelation zwischen m und c

Vorsicht: Im Allgemeinen gibt es eine Korrelation zwischen Steigung m und Achsenabschnitt c bei der linearen Regression, die z.B. für den Fall σi = σ gegeben ist durch x¯ ρm, ˆ cˆ = − p x2 Dadurch erhöht sich die Unsicherheit auf m und c! Die Korrelation verschwindet offenbar für den Fall x¯ = 0. Diesen Fall können wir erreichen, indem wir die Geradengleichung wie folgt modifizieren: y = m(x − x0 ) + c mit x0 = x¯ . Der Parameter x0 muss im Fit festgehalten werden!

Henning Gast

Statistik

48

Lineare Regression mit Unsicherheiten in beiden Messgrößen

Im Allgemeinen sind die x-Koordinaten der Datenpunkte nicht beliebig genau bekannt, sondern weisen Messunsicherheiten σxi auf. In erster Näherung kann man diese Unsicherheiten berücksichtigen, indem man die folgende Größe minimiert: χ2 =

X i

(yi − f (xi ))2 σyi2 + (f 0 (xi )σxi )2

Diese Methode heißt Methode der effektiven Varianz.

Henning Gast

Statistik

49

Inhalt 1

Wahrscheinlichkeit Grundbegriffe der Wahrscheinlichkeitsrechnung Wichtige Wahrscheinlichkeitsdichten Mehrere Zufallsgrößen

2

Statistische Messunsicherheiten Parameterschätzung Definition der statistischen Messunsicherheit Fehlerfortpflanzung

3

Modellanpassung Methode der kleinsten Quadrate Lineare Regression

4

Systematische Unsicherheiten Definition und Abschätzung

Henning Gast

Statistik

50

Definitionen Betrachten wir die folgenden zwei Situationen: Mit einem Metall-Lineal werden Längenmessungen durchgeführt. Das Lineal wurde bei einer Temperatur von 15 ◦ C kalibriert, aber die Messungen werden in einem wärmeren Labor durchgeführt und der Experimentator versäumt es, für die thermische Expansion zu korrigieren. Zur Bestimmung der Schallgeschwindigkeit wird die Wellenlänge einer stehenden Schallwelle ausgemessen. Dazu wird ein Wegaufnehmer verwendet, der zuvor nur mit einer endlichen Präzision kalibriert werden konnte. Frei übersetzt nach R. Barlow Es ist essentiell, systematische Effekte von systematischen Fehlern zu unterscheiden, die die Unsicherheiten in der Größe dieser Effekte sind, und von handwerklichen Fehlern, die aus dem Übersehen solcher Effekte herrühren. In diesem Sinne ist der Ausdruck systematische Unsicherheit sprachlich präziser als der Ausdruck “systematischer Fehler”. Henning Gast

Statistik

51

Abschätzung systematischer Messunsicherheiten Es existieren viele Methoden, um systematische Messunsicherheiten abzuschätzen. Wir nehmen an, dass das Ergebnis von einer Menge von N unbekannten Parametern φ abhängt und dass wir zumindest grobe Kenntnis ihrer Wahrscheinlichkeitsdichten haben. Im Praktikum benutzen wir vor allem die Verschiebemethode: Für N unbekannte Parameter φ = (φ1 , . . . , φn ) mit unkorrelierten Gauß’schen Unsicherheiten σi , und einer Schätzgröße f (φ1 , . . . , φn ) für die uns interessierende physikalische Größe, liefert die lineare Näherung: σf2

2 N  X ∂f σi2 ≈ ∂φi i=1

Die partiellen Ableitungen können als finite Differenzen angenähert werden: ∂f f (φ1 , . . . , φi + σi , . . . , φN ) − f (φ1 , . . . , φi , . . . , φN ) ∆i ≈ = ∂φi σi σi und so erhalten wir σf2 ≈

PN

i=1

∆2i .

Henning Gast

Statistik

52

Beispiel für die Verschiebemethode

Beispiel: Ein Ohmscher Widerstand R soll aus einer linearen Regression an Messpunkte (Ui , Ii ) aus Spannungs- und Strommessungen bestimmt werden. Der Hersteller des Messgeräts gibt die folgenden systematischen Unsicherheiten auf Spannungsund Strommessungen an: √ σU,sys = (0.01Ui + 0.005UBereichsendwert )/ 3 √ σI,sys = (0.02Ii + 0.005IBereichsendwert )/ 3 Man studiert dann die Verschiebungen, die man jeweils für R erhält, wenn man die Spannungsmessungen bzw. die Strommessungen um die systematischen Unsicherheiten verschiebt. Die systematische Unsicherheit auf R erhält man schließlich durch quadratische Addition der Verschiebungen.

Henning Gast

Statistik

53

Vergleich Statistische Fehler geben eine nicht zu vermeidende, zufällige Fluktuation der Messwerte wieder, können aus der Wiederholung von Messungen unter identischen √ Bedungungen bestimmt werden und fallen dabei wie ∝ 1/ n. Systematische Fehler basieren auf Effekten, die stets zu derselben, unbekannten Abweichung von Messwerten führen, können durch Wiederholung der Messung weder abgeschätzt noch reduziert werden, dürfen daher auch nicht als Gewicht beim gewichteten Mittel eingesetzt werden. Die statistischen und systematischen Unsicherheiten sollten getrennt ausgwiesen werden, z.B.: R = 99.8 Ω ± 0.1 Ω (stat.) ± 0.5 Ω (syst.)

Henning Gast

Statistik

54

Zusammenfassung der wichtigsten Konzepte Empirisches Mittel, Standardabweichung, Fehler des Mittelwerts: v u N N u 1 X σx 1 X xi σx = t (xi − x¯ )2 σx¯ = √ x¯ = N N −1 N i=1

i=1

Gewichtetes Mittel Wichtige Wahrscheinlichkeitsdichten: Gauß-Verteilung, Binomial-Verteilung, Poisson-Verteilung, Gleichverteilung Gauß’sche Fehlerfortpflanzung, z.B.: y = Am B n

 ⇒

σy y

2

 σ 2  σ 2 A B ≈ m + n A B

Regressionsrechnung, χ2 , Residuenplots Statistische und systematische Unsicherheiten

Henning Gast

Statistik

55

Tutorium: Datenauswertung während des Praktikums

Ziele 

Gewinnung der relevanten physikalischen Größen und ihrer Messunsicherheiten aus den (z.B. mit CASSY) aufgezeichneten Daten Für Protokoll und Vortrag benötigt:



Darstellung der Rohdaten: Tabelle  Histogramm  Graph 



Analyse der Daten: Kurvenanpassung  Fourier-Transformation  Fehlerrechnung: Fehlerfortpflanzung, Statistik  ... 



Präsentation der Ergebnisse Lösung einiger dieser Aufgaben mit Standardwerkzeugen für das Praktikum.

Henning Gast, RWTH Aachen



p2

Programmieren im Praktikum (und darüber hinaus)  

Datenauswertung wird in der Physik sehr häufig mit Hilfe eines Computers durchgeführt. Dazu ist die Kenntnis einer geeigneten (und gängigen) Programmiersprache und ggfs eines Computeralgebrasystems unerlässlich. Vorkenntnisse: Vorlesung zur Datenverarbeitung und Programmierkurs.



Wichtig: Die Physik steht im Mittelpunkt, der Computer und zu schreibende Programme sind nur Werkzeuge.  Das Praktikum ist kein Programmierkurs. 



Geeignete Werkzeuge: python ← unsere Empfehlung  ROOT  Maple  ... 

Henning Gast, RWTH Aachen



p3

Praktikumsbibliothek (python) 

Download: http://accms04.physik.rwth-aachen.de/~praktapp/software/python



Nützliche Routinen für das Praktikum, die Sie nachvollziehen können (und sollen). Zur Benutzung: import Praktikum Inhalt:

 

    

  

CASSY-lab Dateien einlesen Lineare Regression Fourier-Transformation Peaksuche (Schwerpunktsberechnung) Gewichteter Mittelwert

Tests / Beispiele: Tests.py Dokumentation: z.B. in ipython: help(Praktikum) Grafische Datendarstellung (Plots, Histogramme, Graphen, …) wird mit Hilfe von matplotlib durchgeführt. Henning Gast, RWTH Aachen



p4

CASSY Daten einlesen 

Blick in eine CASSY-lab Datei:



Einlesen mit Praktikum.lese_lab_datei Datenreihen entsprechen einzelnen Spalten in dem Array. Array slicing: t=data[:,0] p=data[:,2] ein erster Plot: plot(t,p)







→ Tests.test_datenlesen()

Henning Gast, RWTH Aachen



p5

Einfache Plots 

Dokumentation: http://matplotlib.org/api/pyplot_api.html



Histogramm: hist(p,bins=1000,range=(1000.,1020.),color='green') Graph: plot(x,y) Plot mit Fehlerbalken:

 

errorbar(Tinv,logP,xerr=sigma_Tinv,yerr=sigma_logP,fmt='.')

Tipp: Plots als Vektorgrafik (eps, pdf) abspeichern und im Protokoll einbinden! Henning Gast, RWTH Aachen



p6

Beispiel: Pendelversuch 

Mathematisches Pendel der Länge L: ϕ (t )= A cos(ω t )+B sin (ω t )



Bestimmung der Erdbeschleunigung g über ω2 =

g L

→ Beispiel_Pendel.py

Henning Gast, RWTH Aachen



p7

Beispiel: Dampfdruckkurve 

Clausius-Clapeyron-Gleichung, mit geeigneten Näherungen: 1 1 log( p / p0 )=− Λ − R T T0

(

)

→ Beispiel_Thermodynamik.py

Henning Gast, RWTH Aachen



p8

Python: Installation 

auf den Praktikumslaptops: ipython über Startmenü aufrufen  Skripte und Dateien sollten hier gespeichert werden: 

C:\Dokumente und Einstellungen\praktikum\Eigene  Dateien\Python Scripts 

auf dem eigenen Laptop: python 2.7  ipython  numpy, scipy, matplotlib 



Konfiguration von matplotlib: ~/.config/matplotlib/matplotlibrc: backend: Qt4Agg font.size: 16.0

Henning Gast, RWTH Aachen



p 10

Python Programme ausführen 

Durch Aufruf von python: python skript.py



Aus einer ipython Sitzung: ipython In [1]: %run skript.py



Als standalone executable: 1. Zeile in skript.py: #! /usr/bin/env python Ausführbar machen: chmod u+x skript.py Laufen lassen: ./skript.py



Tipp: schnelle interaktive Analyse mit ipython ­pylab

Henning Gast, RWTH Aachen



p 11