3 Trendberechnungen in Wirtschaft und Naturwissenschaft

69 3 Trendberechnungen in Wirtschaft und Naturwissenschaft 3 Trendberechnungen in Wirtschaft und Naturwissenschaft 3.0 Einfu ¨ hrung Betrachtet ...
0 downloads 2 Views 548KB Size
69

3 Trendberechnungen in Wirtschaft und Naturwissenschaft

3

Trendberechnungen in Wirtschaft und Naturwissenschaft

3.0

Einfu ¨ hrung

Betrachtet man die K¨ orpergr¨ oße x und das Gewicht (die Masse) y vieler Menschen, so besteht gem¨aß der in Abb. 56 dargestellten Punktwolke zwischen diesen beiden Gr¨oßen ein un¨ ubersehbarer Zusammenhang. Obwohl dieser Zusammenhang zwischen x und y ersichtlich nicht den Forderungen an eine Funktion gen¨ ugt – Begr¨ unde! –, modelliert man den Zusammenhang (aus Bequemlichkeit) dennoch gerne durch eine Funktion y = f (x) bzw. x = g(y). Wie Abb. 56 zeigt, ist es (hier) nicht g¨ unstig, als Modellfunktion eine Funktion zu verwenden, deren Graph m¨oglichst viele Punkte der Punktwolke auff¨ adelt“. Viel g¨ unstiger ist eine Funk” tion, welche den Trend“ in der Punktwolke widerspiegelt. ” Den Graphen einer solchen Funktion nennt man Regressionskurve (Ausgleichskurve).

3.1

Abb. 56

Lineare Regression

Der einfachste Fall einer Regressionskurve ist eine Gerade; in diesem Fall beschreibt man die Abh¨ angigkeit der Gr¨ oße y von x durch eine lineare Funktion y = kx + d. Offen bleibt dabei, welche Gerade man als Regressionsgerade w¨ahlen soll. Eine M¨oglichkeit besteht darin, die Regressionsgerade mit Augenmaß“ in die Punktwolke einzupassen, und k und d aus der ” Zeichnung abzulesen. Bei dieser Vorgangsweise erhalten verschiedene Personen jedoch ein im Allgemeinen verschiedenes Ergebnis. Will man jedoch eine eindeutig bestimmte Regressionsgerade, so muss man ein geeignetes Verfahren bzw. eine Formel angeben, welches bzw. welche zu einem eindeutigen Ergebnis f¨ uhrt. Aus gewissen Gr¨ unden (Aufg. 205) verwendet man folgende Formel: Formel der Regressionsgeraden: Die Koeffizienten k und d der Regressionsgeraden y = kx + d der Punktwolke {(xi |yi ); i = 1, . . . , n}, werden ermittelt gem¨aß 1 n

k=

Bemerkungen: 1) Den Ausdruck

1 n

·

n

·

n

(xi − x) · (yi − y)

i=1 1 n

·

n

(xi − x)2

d=y−k·x

i=1

(xi − x) · (yi − y) nennt man Kovarianz von x und y und schreibt

i=1

ur die obige Formel erh¨alt man daher daf¨ ur σxy ; als Kurzschreibweise f¨ σxy k= 2 σx Die Kovarianz σxy ist ebenso wie die Varianz σx 2 auf einigen Taschenrechnern auf Tas” tendruck“ verf¨ ugbar. Auch die Koeffizienten k und d der Regressionsgeraden sind auf manchen Taschenrechnern unmittelbar auf Tastendruck“ verf¨ ugbar! ”

70

3 Trendberechnungen in Wirtschaft und Naturwissenschaft

2) Auch f¨ ur die Kovarianz gibt es einen Verschiebungssatz und zwar gilt n n 1 1 (xi − x)(yi − y) = xi yi − x y σxy = n i=1 n i=1 3) Die Regressionsgerade geht immer durch den Punkt (x|y), den so genannten Schwerpunkt der Punktwolke (vgl. die Definition von d und Aufg. 205). 4) Mit Hilfe der Regressionsgeraden kann man zu jedem gegebenen x den zugeh¨origen yWert sch¨ atzen; man bezeichnet diesen Sch¨atzwert meist mit yˆ. Umgekehrt kann man zu jedem y den zugeh¨ origen x-Wert sch¨atzen; man bezeichnet diesen Sch¨atzwert meist mit x ˆ. Beispiel A: Die folgende Tabelle stellt die K¨orpergr¨oße (in cm) und die K¨orpermasse (in kg) von 10 Personen gegen¨ uber: K¨ orpergr¨ oße (x): K¨ orpermasse (y):

170 68

176 70

165 67

171 78

177 83

167 60

179 77

185 89

175 77

180 76

Beschreibe den Zusammenhang durch eine Regressionsgerade! L¨ osung: Fasst man x und y als (erwartungsgem¨aß) voneinander abh¨angige Gr¨oßen auf und tr¨ agt die Messergebnisse in ein Koordinatensystem ein, so erh¨alt man eine Punktwolke, die ersichtlich einen (ungef¨ahr) linearen Trend erkennen l¨asst (Abb. 57). Die Gleichung der Trendgeraden berechnet man gem¨aß der obigen Formel. Steht kein Taschenrechner oder Computer daf¨ ur zur Verf¨ ugung, so behilft man sich mit einer Tabelle und dem Verschiebungssatz. xi 170 176 165 171 177 167 179 185 175 180

= 1745 x = 174,5

yi 68 70 67 78 83 60 77 89 77 76 745 y = 74,5 σx

2

xi 2 28 900 30 976 27 225 29 241 31 329 27 889 32 041 34 225 30 625 32 400 304 851 30 485,1

xi yi 11 560 12 320 11 055 13 338 14 691 10 020 13 783 16 465 13 475 13 680 130 387 13 038,7

n 1  2 = · xi − x2 = 30 485,1 − 174,52 = 34,85 und n i=1

σxy =

Abb. 57

n 1  · xi yi − x · y = 13 038,7 − 174,5 · 74,5 = 38,45 n i=1

38,45 σxy = 1,10 und d = y − k · x = 74,5 − 1,10 · 174,5 = −118,0 = 2 σx 34,85 Als Gleichung der Regressionsgeraden erh¨alt man somit: y = 1,10x − 118,0 k=

71

3.1 Lineare Regression

Beispiel B: Jemand interessiert sich f¨ ur eine Firma, die Drehb¨anke herstellt (z. B. um sich an ihr finanziell zu beteiligen). Bez¨ uglich der Kostensituation bringt er aus der Betriebsbuchf¨ uhrung des Unternehmens die nachfolgend tabellierten Daten in Erfahrung. (1) Stelle die Kostensituation in einem Kostendiagramm dar! (2) Modelliere die Kostensituation durch eine m¨ oglichst einfache Kostenfunktion! (3) Interpretiere die Bedeutung der Parameter dieser Kostenfunktion! (4) Wie groß sind die (voraussichtlichen) St¨ uckkosten bei Produktion von 750 bzw. 2000 St¨ uck?

St¨ uckzahl 200 400 500 700 800 1000

Gesamtkosten (Mio. e) 4,8 5,0 5,3 6,3 6,5 7,0

L¨ osung: Abb. 58 (1) Kostendiagramm (Abb. 58) (2) Das Kostendiagramm legt es nahe, dem Kostenverlauf K(x) zur Vereinfachung einen linearen Trend zu unterstellen. Die Trendgerade kann man grafisch oder rechnerisch ermitteln. Im ersten Fall legt man nach Gef¨ uhl“ eine Gerade so, dass die einzelnen Punkte ” m¨ oglichst nahe“ bei ihr liegen; aus der Abbildung kann man ablesen: ” K(x) ≈ 3000x + 4 000 000. Allerdings wird dieses Ergebnis von Person zu Person etwas verschieden ausfallen. Im zweiten Fall berechnet man die Regressionsgerade und erh¨alt: K(x) = 3047,6 · x + 3 988 095; das Verfahren liefert ein von der Person unabh¨angiges Ergebnis. (3) Die Trendgerade hat die Gestalt y = kx + d. Aus d = 4 000 000 liest man ab, dass die Fixkosten e 4 000 000,– betragen, die auch dann anfallen, wenn der Betrieb (eine Zeit lang) gar nichts produziert. Zus¨atzlich entstehen pro produziertem St¨ uck variable Kosten von rund e 3000. Dies sind aber nicht die St¨ uckkosten. Diese sind = 3000 + 4 000x 000 gegeben, also um 4 000x 000 h¨oher. durch K(x) = K(x) x (4) Bei Produktion von 750 St¨ uck betragen die St¨ uckkosten (etwa) 000 000 K(750) = 3000+ 4 000 ≈ 8333 e, und analog K(2000) = 3000+ 4 000 ≈ 5000 e. 750 2000 Bemerkungen: 1) Die aus dem Modell berechneten St¨ uckkosten K(750) werden von den tats¨achlichen Kosten nicht allzu weit abweichen. Es handelt sich ja um ein lineares Interpolieren der Tabellenwerte. Begr¨ unde! Hingegen k¨onnte der aus dem Modell prognostizierte Wert K(2000) vom tats¨ achlichen Wert erheblich abweichen. Dieser durch Extrapolieren gewonnene Wert setzt ja voraus, dass sich der lineare Kostentrend (zumindest bis x = 2000) fortsetzt, was wir aber nicht wissen. 2) Das Modell in Beispiel B zeigt, dass mit wachsender Produktion die St¨ uckkosten sinken. Daraus ergibt sich – insbesondere f¨ ur große Unternehmen mit hohen Fixkosten – ein Zwang zur Produktion“. Begr¨ unde! ”

72

3.2

3 Trendberechnungen in Wirtschaft und Naturwissenschaft

Der (lineare) Korrelationskoeffizient

Abb. 59

Abb. 60

Abb. 61

Abb. 62

Ob es sinnvoll ist, den Zusammenhang zwischen x und y durch eine Regressionsgerade zu modellieren – m¨ oglich ist es ja immer! – h¨angt von der Gestalt der Punktwolke ab. In Abb. 59 und Abb. 60 ist dies rein optisch“ offenbar der Fall, in Abb. 61 und Abb. 62 ist dies eher ” nicht der Fall. Die Beurteilung der Sachlage kann aber von Person zu Person verschieden sein. Um ein einheitliches Urteil zu erreichen, wurde ein Maß“ rxy definiert, das misst“, ” ” wie stark die Punktwolke um die Regressionsgerade verstreut ist. Die Idee dabei ist die folgende: Den Zusammenhang zwischen x und y kann man auf zweierlei Weise beschreiben; als Abh¨ angigkeit y = f (x) und als Abh¨angigkeit x = g(y). Im Fall linearer Modellfunktionen f und g hat man zwei Regressionsgeraden, die sich im Fall eines exakt linearen Zusammenhanges zwischen x und y u ¨ berdecken. Im allgemeinen Fall werden ¨ die beiden Geraden aber eine Schere“ bilden, deren Offnungswinkel umso gr¨oßer sein wird, ” je weniger der wahre“ Zusammenhang ein linearer ist. Gem¨aß Abb. 59 und Abb. 60 gilt: ” Je besser die Steigung ky mit k1x u ¨ bereinstimmt, d. h., je besser kx · ky = 1 gilt, umso eher besteht ein linearer Zusammenhang. Setzt man f¨ ur kx und ky aus der Formel f¨ ur die σ σ Regressionsgerade ein, so erh¨ alt man kx · ky = σxxy2 · σyx 2. y σxy 2 Wegen σxy = σyx – Begr¨ unde anhand der Formel! – erh¨alt man kx · ky = 2 . σx · σy 2 Aus Dimensionsgr¨ unden zieht man die Wurzel und gibt die Definition: Als (linearen) Korrelationskoeffizienten bezeichnet man die Zahl 1 n

rxy =  1 n

n

(xi − x) · (yi − y) σxy  = σx · σy n n



· (xi − x)2 · n1 · (yi − y)2 i=1

·

i=1

i=1

Bemerkung: rxy ist stets eine Zahl aus [ −1; 1 ]. Begr¨ unde (Aufg. 206)! Fortsetzung von Beispiel A: Berechne den Korrelationskoeffizienten zwischen der K¨orpergr¨ oße und dem K¨ orpergewicht! σxy 38,45 √ L¨ osung: rxy = σx ·σy = √34,85· ≈ 0,815 63,85 Der Zusammenhang zwischen K¨orpergr¨oße und K¨orpergewicht l¨asst sich also ziemlich gut durch einen linearen Zusammenhang modellieren. Man sagt: K¨orpergr¨oße und K¨orpergewicht sind (ziemlich gut) linear korreliert. Da einer Zunahme (Abnahme) der einen Gr¨ oße auch eine Zunahme (Abnahme) der anderen Gr¨oße entspricht, sagt man genauer: K¨ orpergr¨ oße und K¨ orpergewicht sind (ziemlich gut) positiv linear korreliert.

73

3.2 Der (lineare) Korrelationskoeffizient

Aufgaben 205. Erl¨ autere die Herleitung der Formel f¨ ur die Regressionsgerade (in Form eines Kurzreferates)! z= z=

n 

(d + kxi − yi )2

i=1 n 



Minimum

[ d + kxi − yi − (d + kx − y) + (d + kx − y) ] 2 =

i=1

=

n 

[ k(xi − x) − (yi − y) + (d + kx − y) ] 2 =

i=1

=

=

n n     [ k(xi − x) − (yi − y) ] 2 + 2(d + kx − y) · k · (xi − x) − (yi − y) + n i=1 i=1 i=1        + (d + kx − y)2 = 0 0

n 

i=1

n 

[ k(xi − x) − (yi − y) ] 2 + (d + kx − y)2

i=1

Nun ist (d + kx − y)2 dann minimal (n¨amlich 0), wenn d = y − kx ist, sodass wir nur mehr jenes k bestimmen m¨ ussen, f¨ ur das n  z= [ k(xi − x) − (yi − y) ] 2 → Minimum i=1

Diese Extremwertaufgabe l¨ osen wir wie gewohnt: wir differenzieren nach k und setzen die Ableitungsfunktion null: n  2· [ k(xi − x) − (yi − y) ] · (xi − x) = i=1

= 2k ·

n 

n 

i=1

i=1

(xi − x)2 − 2 ·

(xi − x)(yi − y) = 2k · σx 2 − 2 · σxy = 0,

also k =

σxy . σx 2

Mittels der 2. Ableitung kann man zeigen, dass ein Minimum vorliegt. 206. a) Begr¨ unde, dass −1  rxy  1 gilt! Verwende dazu den Vergleich mit der Schere auf S. 72! b) Beweise den Verschiebungssatz f¨ ur die Kovarianz σxy ! 207. 10 Sch¨ uler erreichen bei einem Schreibtest bzw. Lesetest die Punktezahlen xi bzw. yi . (1) Zeichne die zugeh¨ orige Punktwolke“ samt deren Schwerpunkt“! ” ” (2) Berechne die Hauptform der Gleichung der Regressionsgeraden und zeichne deren Graphen in der Abbildung ein! (3) Berechne den Korrelationskoeffizienten rxy ! Was sagt er aus? (4) Gibt es Sch¨ uler, die stark aus der Reihe“ fallen? Was besagt das? ” (5) Ein Sch¨ uler hat beim Schreibtest 9 Punkte erreicht, den Lesetest aber vers¨aumt. Welche Punktezahl ist f¨ ur den nachzuholenden Lesetest zu erwarten? Welche Voraussetzung muss man dabei machen? (6) Ein Sch¨ uler hat beim Lesetest 15 Punkte erreicht, den Schreibtest aber vers¨aumt. Welche Punktezahl ist f¨ ur den nachzuholenden Schreibtest zu erwarten? Welche Voraussetzung muss man dabei machen?

74

3 Trendberechnungen in Wirtschaft und Naturwissenschaft

a) xi yi

2 3

4 4

7 9

9 12

10 12

12 14

13 16

15 17

16 18

19 20

b) xi yi

3 3

5 4

7 7

7 8

12 11

12 10

16 17

18 18

19 20

20 20

208. Erhebt in eurer Klasse (1) von den M¨adchen, (2) von den Burschen, (3) von allen Sch¨ ulerinnen und Sch¨ ulern a) die K¨orpergr¨oße und die Schuhgr¨oße, b) die K¨orpergr¨ oße und die Hutgr¨ oße! Versucht den Zusammenhang durch eine lineare Funktion ¨ zu modellieren! Uberpr¨ uft mittels des Korrelationskoeffizienten, ob diese Modellierung angemessen erscheint! 209. (Das Ozonloch u ¨ ber der Antarktis:) a) (1) Modelliere den Trend der Ozonabnahme u ¨ ber der Antarktis gem¨aß den Messungen von Farman u. a. (offene Kreise in Abb. 63) von 1957 bis 1986 durch eine ¨ lineare Funktion! (2) Uberpr¨ ufe mittels des Korrelationskoeffizienten, ob die lineare Modellierung angemessen scheint! (3) Wie viel Ozon gibt es gem¨aß diesem Modell 1992, 1996 und 2000 u ¨ ber der Antarktis? b) Wie a) f¨ ur den Zeitraum von 1971 bis 1986! c) Wie b) f¨ ur die NASA-Messungen (schwarze Punkte in Abb. 63)! d) Vergleiche die Ergebnisse in a) und b) und c)! Begr¨ unde!

Abb. 64 Abb. 63

210. (Fettkonsum und Tod durch Brustkrebs:) a) (1) Modelliere den Zusammenhang zwischen Fettkonsum und den Todesf¨allen durch ¨ Brustkrebs f¨ ur die europ¨aischen L¨ander in Abb. 64! (2) Uberpr¨ ufe mittels des Korrelationskoeffizienten, ob die lineare Modellierung angemessen ist! b) Wie a) f¨ ur die nichteurop¨aischen L¨ander! 211. Die Physik lehrt, dass die L¨angen¨anderung (z. B. eines Metallstabes) innerhalb eines bestimmten Temperaturbereichs direkt proportional zur Temperatur¨anderung ist. (1) Ist dies auf Grund der in der Tabelle angegebenen Messergebnisse vertretbar? (2) Beschreibe die Abh¨ angigkeit der L¨ange von der Temperatur durch eine m¨oglichst gut passende lineare Funktion!

75

3.2 Der (lineare) Korrelationskoeffizient

(3) Wie groß ist der Ausdehnungskoeffizient, d. h. die L¨angen¨anderung in mm/◦C? (4) Wie lang (etwa) wird der Stab bei 30 ◦C sein? (5) In einem Thermostaten wird die L¨angen¨anderung zur Temperaturregulierung verwendet; welche L¨ angen¨ anderung bewirkt eine Temperaturzunahme um 5 ◦C? Temperatur x (◦C) 0 20 40 50 70 80

L¨ ange y (in mm) 199,93 200,05 200,10 200,15 200,20 200,28

Zugkraft x (in N) 0 1 2 5 10 15

L¨ange (in mm) 100 102 104 112 125 138

212. Die Physik lehrt (Hooke’sches Gesetz), dass die Dehnung (z. B. einer Feder) direkt proportional zur aufgewendeten Zugkraft ist. (1) Ist dies auf Grund der in der Tabelle angegebenen Messergebnisse vertretbar? (2) Beschreibe die Abh¨ angigkeit der L¨ange von der Zugkraft durch eine m¨oglichst gut passende lineare Funktion! (3) Wie groß ist der Ausdehnungskoeffizient, d. h. die Ausdehnung in mm/N? (4) Wie weit (etwa) wird die Feder bei einer Zugkraft von 8 N ausgezogen sein? (5) In einer Federwaage wird die L¨angen¨anderung zur Kraftmessung verwendet; welche L¨ angen¨ anderung zeigt eine Kraftzunahme um 5 N an? 213. Beschreibe die Entwicklung der Welt-Autoproduktion a) von 1946 bis 1976, b) von ¨ 1946 bis 1983 durch eine Trendgerade! c) Uberpr¨ ufe (1) mittels des Korrelationskoeffizienten, (2) anhand der Abbildung, ob die Annahme einer Trendgeraden angemessen erscheint! Vergleiche mit der in Abb. 65 eingetragenen Modellierung der Entwicklung durch eine Exponentialfunktion!

Abb. 65

Abb. 66

214. Abb. 66 zeigt den Zusammenhang zwischen Kaufkraft und Energieverbrauch. Interpretiere das Schaubild! Liegt tats¨achlich ein linearer Trend vor? Beachte die Achsenteilung!

76

3 Trendberechnungen in Wirtschaft und Naturwissenschaft

¨ 215. Untenstehende Abbildung zeigt die Prozent an Uberlebenden in der allgemeinen Bev¨ olkerung und in einer Gruppe mit diagnostiziertem und behandeltem Karzinom im Zeitraum 0–15 Jahre nach der Diagnose. Ermittle mit Hilfe eines geeigneten kartesischen Koordinatensystems f¨ ur jede der Gruppen die Regressionsgerade im Zeitraum [ 1; 15 ]; welche Funktion beschreibt sie im gegebenen Koordinatensystem (vgl. LB2 S. 75)? Vergleiche die beiden Geraden und interpretiere sie! a) b)

3.3

Ausblick: Nichtlineare Regression

Ist der Korrelationskoeffizient von +1 bzw. −1 deutlich verschieden, so ist es nicht sinnvoll, den Zusammenhang durch eine lineare Funktion zu modellieren, sondern an deren Stelle z. B. eine Polynomfunktion 2. Grades (Regressionsparabel – Abb. 67) oder auch eine andere Funktionenklasse zu verwenden. F¨ ur eine Wolke“ von Messergeb” nissen wird sich z. B. eine Parabel anbieten, bei Wachstumsprozessen z. B. eine Exponentialfunktion, bei periodischen Vorg¨ angen eine verallgemeinerte Sinusfunktion y = a · sin [ b · (x + c) ]. Das optimale Einpassen“ der Funktion kann dabei ” wieder nach Augenmaß“ geschehen, oder aber ” Abb. 67 durch rechnerische Verfahren. F¨ ur letzteres muss man das Optimalit¨atskriterium ausdr¨ ucklich und formal angeben. Das f¨ ur die Praxis wichtigste Kriterium geht auf Gauss zur¨ uck. Es verlangt, dass die Summe der Quadrate der Differenzen yi − yˆi (Abb. 67) minimal wird, und wird daher Methode der kleinsten Quadrate genannt. Die L¨osung dieser Optimierungsaufgaben ist allerdings schwierig, sodass wir sie nur f¨ ur den Fall der linearen Regression durchgef¨ uhrt haben.