Psychologie als Wissenschaft

Sandra Fuchs ZF Schäfer I + II SoSe 2015 Psychologie als Wissenschaft Die Ursprünge der Psychologie liegen in der Philosophie. In der Philosophie s...
Author: Gerhard Hummel
0 downloads 2 Views 847KB Size
Sandra Fuchs

ZF Schäfer I + II

SoSe 2015

Psychologie als Wissenschaft Die Ursprünge der Psychologie liegen in der Philosophie. In der Philosophie steht das Verstehen von Zusammenhängen oder von Sinn im Vordergrund, in der Psychologie ist das Ziel das Erklären von Phänomen inkl. Der Suche nach Regeln, Mechanismen, Funktionsweisen und Gesetzmäßigkeiten. Die Psychologie las empirische Wissenschaft betont das Vertrauen in die Empirie, sie stütz sich also auf wahrnehmbare Erfahrungen und benutzt naturwissenschaftliche Methoden. Die Interpretation der Erkenntnisse wiederum hat auch mit der menschlichen Sinnsuche und mit Verstehenns- und Verständigungsprozessen zwischen Menschen zu tun. Grundlegend ist die Annahme, dass sich menschliches Erleben und Verhalten in Zahlen und Daten, in Mechanismen und Gesetzmäßigkeiten fassen und ausdrücken lässt. Methoden sind ein Weg oder Werkzeug. In der wissenschaftlichen Psychologie ist in Ziel die verschiedenen statistischen und mathematischen Methoden/Werkzeuge so gut zu beherrschen, dass man auf psychologische Fragen wissenschaftliche Antworten geben kann. Die Alltagspsychologie liefert einen guten Anhaltspunkt für die Themen der wissenschaftlichen Psychologie. Der Unterschied liegt jedoch in der Methode, wie nach Antworten auf die gestellten Fragen gesucht wird. In der wissenschaftlichen Psychologie schließt der Weg von der Fragestellung zu einer wissenschaftlichen Erkenntnis i.d.R. die Planung von Untersuchungen, die Datensammlung und deren statistische Auswertung mit ein. Die Alltagspsychologie stützt sich auf subjektive Erfahrungen, selektive Erfahrungen und sucht meist gezielt nach Bestätigungen. Das wissenschaftliche Vorgehen hingegen zeichnet sich durch systematische Beobachtungen, Hypothesen und Theorien und „Objektivität“ aus. Das stärkste Argument gegen falsche (Alltags)Überzeugungen können nur gute Daten und Fakten sein, Ziele, die durch Forschungsmethoden erreichbar sind. Allerdings ist auch die Wissenschaft nicht gänzlich frei von Annahmen und Überzeugungen, da im Forschungsprozess vom Forscher Entscheidungen zu treffen sind und am Ende des Forschungsprozesses die Daten und Zahlen interpretiert werden müssen. Die Daten und Zahlen selbst sind immer objektiv und demnach nie falsch. Falsch sein kann aber deren Interpretation.

Der Prozess der Erkenntnisgewinnung Im Prozess der Erkenntnisgewinnung ist der Ausgangspunkt eine Theorie als Vorschlag einer vorläufigen Antwort. Aus der Theorie werden einzelne Hypothesen abgeleitet als ebenfalls vorläufige Antworten. Hypothesen haben immer die Form konkreter Aussagen und sind demnach prüfbar. Sie bilden den Kern des Forschungsvorhabens. Die Begriffe in den Theorien und Hypothesen müssen zunächst operationalisiert, d.h. messbar gemacht werden. Die Messung führt zu Daten, die statistisch ausgewertet werden. Nach der statistischen Auswertung ist die Aussage oder Bedeutung der Daten zu interpretieren. Dabei entscheidet

1

Sandra Fuchs

ZF Schäfer I + II

SoSe 2015

sich, ob die Daten die Hypothese bestätigen oder widerlegen und welche Auswirkungen dies auf die ursprüngliche Theorie hat. In der Psychologie sind deterministische Aussagen über den Menschen nur selten möglich, so dass stattdessen probabilistische Aussagen/statistische Hypothesen. formuliert werden. Diese sind durch einzelne Gegenbefunden nicht widerlegbar. In der Psychologie wird nur selten von „Gesetz“ gesprochen, sondern von Theorien und Modellen. Jede Hypothese beschreibt entweder eine Zusammenhang oder einen Unterschied. Entscheidend ist, dass Unterschieds- und Zusammenhangshypothesen stets ineinander überführbar sind, d. h. jede Fragestellung lässt sich sowohl als Unterschied als auch als Zusammenhang verstehen. Welche Art der Formulierung geeigneter ist, hängt von der Fragestellung ab.

Messen und Operationalisierung Um menschliches Erleben und Verhalten messbar zu machen, müssen Objekten, Phänomenen oder Ereignissen Zahlen zugeordnet werden und zwar so, dass die Beziehungen zwischen den Zahlen die analogen Beziehungen der Objekte, Phänomene oder Ereignisse repräsentieren. Operationalisierung bedeutet Messbarmachung und beinhaltet auch das Einigen auf geeignete Messinstrumente. Wichtig ist, dass eine Messung repräsentativ ist. Messen bezieht sich auf Variablen, deren Besonderheit es ist, dass sie verschiedene Ausprägungen annehmen kann. Je nach Anzahl und Art der Ausprägungen unterscheidet man zwischen dichotomen, kategorialen und kontinuierlichen Variablen, nach Art der Messbarkeit zwischen manifesten und latenten Variablen sowie zwischen AV und UV. Wenn Variablen gemessen wurden und bestimmte Ereignisse/Zahlen erhalten haben, werden diese Ergebnisse Daten genannt, die die Basis für jede Art von Aussage liefern.

Skalenniveaus Daten liegen in verschiedenen Formaten vor. „Skala“ beschreibt die Beschaffenheit des empirischen Relativs, des numerischen Relativs sowie eine Abbildungsfunktion, die das empirische Relativ und das numerische Relativ verbindet. Von Skalenniveaus spricht man, weil sich der Informationsgehalt und die mathematische Güte über die Skalen hinweg steigern. Der Begriff metrisch deutet dabei an, dass die Daten mind. auf Intervallskalenniveau gemessen wurden und somit schon die gebräuchlichsten Berechnungen erlauben.

2

Sandra Fuchs

ZF Schäfer I + II

SoSe 2015

Auf der Ordinalskala erfährt man nur etwas über relative Unterschiede, jedoch noch nichts über die absoluten Unterschiede und über die Größe der Differenzen. Um etwas über absolute Unterschiede herausfinden zu können, müssen die Daten mindestens auf Intervallskalenniveau gemessen werden. Allerdings kann man auf Intervallskalenniveau noch keine Aussage darüber machen, in welchem Verhältnis zwei Messwerte stehen, da ein Verhältnis über die bloße Differenz zweier Messwerte hinaus geht und vielmehr die relative Lage dieser Messwerte in Bezug auf den Nullpunkt der Skala beschreiben. Dies ist erst auf der Verhältnisskala möglich. In der Forschung ist man bestrebt, Daten auf einem möglichst hohen Messniveau zu erheben.

Eine Ratingskala wird verwendet, um Urteile über einen bestimmten Gegenstandsbereich zu erfragen. Ein Test ist ein Verfahren zur Untersuchung von Merkmalen einer Person. Jeder Test besteht aus Items.

Datenerhebungsmethoden In der Psychologie geht es darum, Erkenntnisse auf eine möglichst große Population anwenden zu können, meist hat man es jedoch nur mit recht kleinen Stichproben zu tun. Mit der Verallgemeinerung von Ergebnissen aus Studien/Stichproben auf die Population beschäftigt sich die Inferenzstatistik. Konkrete Methoden zur Datenerhebung sind Beobachtung, Befragung und Experiment bzw. Quasi-Experiment. Das Experiment ist der Königsweg der Datenerhebung und dient der Suche nach Kausalzusammenhängen zwischen UV und AV. Zugleich beinhaltet es aber meist auch die anderen Methoden (Befragung und Beobachtung). Für eindeutige kausale Erklärungen müssen Störvariablen und Alternativerklärungen abgeschlossen werden, was durch Elimination, Konstanthalten/Parallelisierung oder letztlich Randomisierung erfolgt. Randomisierung ist der Königsweg bei der Kontrolle von Störvariablen, da bei Parallelisierung/Konstanthalten vorausgesetzt wird, das die SV bekannt sind: Bei der Randomisierung werden die VP zufällig den verschiedenen Versuchsbedingungen (EG/KG) zugeteilt. Oft ist eine solche Randomisierung jedoch nicht möglich, da die Gruppenaufteilung von Natur aus vorgegeben ist. Dann spricht man von Quasi-Experimenten. In der Grundlagenforschung sind die interessierenden UV meist manipulierbar, Je anwendungsbezogener die Fragestellungen werden, umso eher hat man es mit QuasiExperimenten zu tun.

3

Sandra Fuchs

ZF Schäfer I + II

SoSe 2015

Gütekriterien für Experimente Gütekriterien für Experimente sind die interne Validität. D.h. wenn die Veränderungen in der AV eindeutig auf die Veränderungen in der UV zurückgeführt werden können, sowie die externe Validität, die vorliegt, wenn das in einer Stichprobe gefundene Ergebnis auf die Population verallgemeinerbar ist, was in der Regel durch repräsentative Stichproben der Fall ist.

Datenauswertung Die statistische Auswertung von Daten umfasst drei Aufgaben: 1. Das Beschreiben und Darstellen der Daten (deskriptive Statistik) 2. Das Erkennen und Beschreiben von eventuellen Mustern (explorative Datenanalyse) 3. Das statistische Prüfen der Daten hinsichtlich der Verallgemeinerbarkeit auf die Population (Inferenzstatistik) Während die Inferenzstatistik die Verallgemeinerbarkeit von Ergebnissen aus Studien/Stichproben auf die Population prüft, werden bei der deskriptiven Statistik und der explorativen Datenanalyse noch keine Überlegungen zur Generalisierbarkeit von Stichprobendaten einbezogen.

Deskriptive Statistik Aufgabe der deskriptiven Statistik ist die Darstellung und Beschreibung von Stichprobendaten durch Kennwerte sowie Grafiken und Tabellen. Das Format, in dem Daten nach einer Studie vorliegen, richtet sich nach dem Skalenniveau, auf dem sie gemessen werden. In jeder Studie wird man mehrere Arten von Daten erhalten. Grundsätzlich liefern Stichproben Verteilungen, in denen die Anzahl oder relative Häufigkeit von Personen abgetragen ist, die in einer Studie bestimmte Messwerte erzielt haben. Je nach Skalenniveau bieten sich verschiedene Lagemaße an, um die Verteilung zu beschreiben (Modus, Median, Mittelwert). Allerdings wird durch Lagemaße nicht die ganze Information verwendet, denn die Breite der Verteilung stellt eine interessante und wichtige Information der Verteilung dar. Kennwerte stehen also stellvertretend für die Verteilung. Anteile und Häufigkeiten lassen sich nicht nur durch Tabellen, sondern auch durch Balken-, Kreis- oder Histogramme darstellen.

In der deskriptiven Statistik geht es um einzelne Variablen und ihre Ausprägungen

4

Sandra Fuchs

ZF Schäfer I + II

SoSe 2015

Lagemaße Welches Lagemaß sinnvoll ist, hängt vom Skalenniveau ab Lagemaß

Skalenniveau

Modus / Modalwert

Der Modus einer Verteilung gibt diejenige Merkmalsausprägung an, die am häufigsten vorkommt

N, O, M

Median

Der Median ist der Wert, der genau in der Mitte der Verteilung liegt.

O, M

Der Median ergibt sich, wenn man alle Werte einer Verteilung der Größe nach aufschreibt und den Wert such, der genau in der Mitte steht. Liegt die Mitte zwischen zwei Werten, so wird von diesen beiden Werten der Mittelwert gebildet.

Arithm. Mittelwert

Der Mittelwert ist aus den Daten nicht direkt zu ersehen, sondern muss erst als die Summe aller Einzelwerte der Daten geteilt durch die Anzahl der Werte berechnet werden. Der Mittelwert kennzeichnet den Schwerpunkt der Verteilung.

M

Der Mittelwert kann stellvertretend für die Verteilung stehen und ist für weitere statistische Berechnungen notwendig. Der Mittelwert dient auch dazu, für einzelne Personen eine Aussage darüber zu machen, wo sich ihre Testwerte relativ zum Mittelwert einer Verteilung befinden.

Der Median ist robust gegenüber Ausreißern, während der Mittelwert stark von Ausreißern beeinflusst wird.

Streuungsmaße Nur durch Angabe der Lagemaße wird viel Information vernachlässigt, nämlich die Information, die in der Form der Verteilung steckt, genauer gesagt die Breite der Verteilung, d.h. wie sehr die Daten streuen.

5

Sandra Fuchs

ZF Schäfer I + II

SoSe 2015

De Mittelwert alleine liefert keine gute Schätzung für die tatsächlichen Werte, insb. Je stärker die Daten streuen. I. d. R streuen die Daten um den Mittelwert, meist in beide Richtungen gleich stark. Man will wissen, wie gut oder zuverlässig ein Mittelwert die Verteilung repräsentieren kann, aus der er stammt. Varianz und Standardabweichung beziehen sich konkret auf diesen Mittelwert und fragen danach, wie weit alle Werte in der Verteilung im Durchschnitt von ihm abweichen.

Streuungsmaß Spannweite (Range)

IQR

R ist das einfachste Streuungsmaß (xmax – xmin), es kann jedoch nicht gut zwischen verschiedenen Verteilungen differenzieren und ist besonders anfällig gegenüber Ausreißern. Der IQR lässt die äußeren Ränder der Verteilung unberücksichtigt, um das Problem mit den Ausreißern zu umgehen. Der IQR ist die Differenz aus dem oberen und unteren Quartil. Der IQR kann schon besser zwischen verschiedenen Verteilungen differenzieren und ist robust gegenüber Ausreißern, kann aber immer noch nicht die exakte Streuung aller Daten wiedergeben.. Der IQR wird wie der Median häufig in der explorativen Datenanalyse verwendet.

Bei R und IQR gehen nur einzelne Werte der Verteilung in die Bestimmung ein; ein exaktes Streuungsmaß sollte jedoch alle Werte in die Berechnung einfließen lassen. Die Frage, wie gut oder zuverlässig ein Mittelwert die Verteilung repräsentieren kann, wird mit der Varianz und der Standardabweichung beantwortet, da sich beide Streuungsmaße konkret auf den Mittelwert beziehen und danach fragen, wie weit alle Werte in der Verteilung im Durschnitt von ihm abweichen. Varianz Die Varianz s² ist die durchschnittliche quadrierte Abweichung aller Werte von ihrem gemeinsamen Mittelwert. Da Summe umso größer wird, je mehr Messwerte einfließen, wird sie am Ende noch durch die Stichprobengröße n geteilt, was v.a. für den Vergleich der Streuungen von zwei Skalen sinnvoll ist, die unterschiedlich viele Werte beinhalten. Die Varianz liefert den Durchschnitt quadrierter Werte, so dass sie meist schwer u interpretieren ist.

6

Sandra Fuchs

Standardabweichung

ZF Schäfer I + II

SoSe 2015

Wurzel aus der Varianz Die Größe der Standardabweichung kann im Sinne der Rohdaten interpretiert werden, da sie die Streuung in de Maßeinheit der Daten ausdrückt.

Varianz und Standardabweichung differenzieren sehr genau zwischen den verschiedenen Verteilungen. Es gibt keine pauschalen Angaben, wann eine Streuung groß oder klein ist, da diese Interpretation von der Fragestellung und der Skala abhängt. Eine Häufigkeitsverteilung ist also immer erst durch Lage und Streuung charakterisiert; zu jedem Lagemaß muss auch ein Streuungsmaß angegeben werde.

Der Sinn der Lage- und Streuungsmaße besteht darin, stellvertretend für eine Verteilung Kennwerte anzugeben, die uns die Konstruktion der Verteilung ersparen. Zu jedem Mittelwert ist ein Streuungsmaß anzugeben, um zu wissen wie repräsentativ der Mittelwert für die Daten ist. Ohne Angabe der Streuung ist die Angabe eines Mittelwertes nutzlos. Je kleiner Die Streuung, umso besser. Nun stellt sich die Frage, wovon es abhängt, ob man einen „guten“ Mittelwert und eine „gute“ Streuung hat finden können.

Varianzaufklärung Varianz gehört mit Standardabweichung zum einen unter den Oberbegriff „Streuung“ einer Verteilung. Darüber hinaus wird der Begriff auch verwendet, um die Variation von Daten zu beschrieben, ohne einen konkreten Zahlenwert zu haben. Nach der Datenerhebung prüft die Statistik also, wie groß die Varianz in den Daten ist und inwieweit sie auf die UV zurückgeführt werden kann. Varianz ist ein Schlüsselbegriff in der Statistik, da diese als Ziel die Aufklärung von Varianz hat. In Bezug auf das Ziel der Psychologie als Wissenschaft: Es geht der Psychologie um das Erklären, Vorhersagen und Verändern von Erleben und Verhalten, was nur durch die Aufdeckung von Ursache-Wirkungs-Beziehungen zwischen Variablen gelingen kann. Die Wirkungsweise einer UV, d.h. was eine UV tun muss, um eine Wirkung auf AV zu haben, ist: sie muss Varianz erzeugen. Die Unterschiede zwischen EG und KG zeigen sich in den gemessenen Daten als Varianz. 7

Sandra Fuchs

ZF Schäfer I + II

SoSe 2015

Man fragt danach, welchen Anteil der Varianz der AUV die UV aufklären kann. JE größer die Varianzaufklärung, desto stärker kann man die Unterschiede in der AV durch die UV erklären. Die Gesamtvariation lässt sich in zwei Teile zerlegen: 1. Fehlervarianz: natürliche Varianz der Daten 2. Systematische Varianz als Effekt der UV Die Varianzaufklärung fragt nach dem Verhältnis von Fehlervarianz (nicht-interessierender Anteil) zur systematischen Varianz (interessierender Anteil). Dabei sollte der Anteil der systematischen Varianz möglichst groß sein, der Anteil der Fehlervarianz möglichst klein.

Formen von Verteilungen & Standardnormalverteilung Eine Häufigkeitsverteilung kann verschiedene Formen annehmen. Sie kann symmetrisch oder asymmetrisch sein. Eine Verteilung kann zufällig oder systematisch von der Symmetrie abweichen. Zufällig ist die Abweichung dann, wenn in einer Stichprobe untypische Werte oder Ausreißer die Verteilung in eine Richtung verzerren. Dieses Problem kann durch große Stichproben vermieden werden. Eine systematische Verzerrung kann vorliegen, wenn die Streuung der Werte in eine Richtung eingeschränkt ist, z. B. wenn alle Werte sehr nah an einem Pol der Skala liegen, insb. Dann, wenn die Werte nur nach unten variieren können (Decken-Effekt). Asymmetrische Verteilungen werden als schief bezeichnet und meist noch mit der Richtung der Verzerrung versehen. Rechts-schief/links-steil Links-schief/rechts-steil Bei schiefen Verteilungen lässt sich der Mittelwert nur schlecht interpretieren. Bei bi- oder multimodalen Verteilungen ist die Berechnung des Mittelwertes wenig informativ, da er die Mitte der Verteilung nicht repräsentieren kann. Es gibt keine Mitte, um die sich die Werte konzentrieren, sondern ggf. zwei oder mehrere Werte (Modalwerte), auf die sich alle Werte konzentrieren.

In den meisten Fällen hat man es jedoch mit symmetrischen und unimodalen Verteilungen zu tun, was daran liegt, dass auch die Populationsverteilung symmetrisch und unimodal ist. Gauß stellte fest, dass sich die Verteilung eines Merkmals mit zunehmender Stichprobengröße der symmetrischen und glockenförmigen Normalverteilung annähert. Die Psychologie geht davon aus, dass die meisten Merkmale normalverteilt sind, so dass man nur noch den Mittelwert und die Streuung zur Darstellung der Verteilung benötigt. 8

Sandra Fuchs

ZF Schäfer I + II

SoSe 2015

Ein Großteil der Statistik und Testverfahren beruhen auf der Normalverteilung bzw. der Annahme normalverteilter Daten. Da es jedoch auch Ausnahmen geben kann, empfiehhlt es sich, die Daten auf Normalverteilung zu prüfen (z. B. mit SPSS).

z-Standardisierung Man kann den Mittelwert nicht nur zur Beschreibung der Lage einer Verteilung benutzen, sondern auch, um für einzelne Personen Aussagen darüber zu treffen, wo sich ihre Werte relativ zu diesem Mittelwert befinden oder um die Werte von zwei Personen aus unterschiedlichen Untersuchungen miteinander zu vergleichen. Das Problem ist dabei oft, dass auf unterschiedlichen Skalen und mit unterschiedlichen Datenerhebungsmethoden und Messinstrumenten gearbeitet wurde. Das Problem unterschiedlicher Skalen lässt sich dadurch lösen, dass die Ergebnisse aus unterschiedlichen Studien auf eine einheitliche Skala transformiert werden. Bei dieser Transformation werden der jeweilige Mittelwert und die jeweilige Streuung der Stichprobendaten berücksichtigt. Bei der z-Transformation werden von jedem Wert der Mittelwert aller Werte abgezogen und die Differenz zum Mittelwert an der Streuung standardisiert. So kann jedem Rohwert, egal auf welcher Skala er gemessen wurde, ein entsprechender zWert zugeordnet werden. Z-Werte bilden eine standardisierte Skala. Das Besondere an z-Werten ist, dass sie immer einen Mittelwert von 0 und eine Standardabweichung von 1 besitzen, so dass die Verteilung von z-Werten immer gleich aussieht. Dabei wird i.d.R. davon ausgegangen, dass die Rohwerte normalverteilt sind, so dass die resultierenden z-Werten eine Standardnormalverteilung bilden. Die z-Standardisierung macht also Messwerte von verschiedenen Skalen bzw. aus verschiedenen Stichproben vergleichbar, indem sie jedem Messwert einen standardisierten z-Wert aus der Standardnormalverteilung zuordnet, der eindeutig interpretierbar ist. Aus dem z-Wert kann man darüber hinaus noch die Information ziehen, dass er die Fläche der Verteilung, die unter ihm bzw. links von ihm liegt, angibt. Im Bereich von jeweils einer Standardabweichung unter und über bzw. links und rechts vom Mittelwert befinden sich 68& der Fläche/Werte.

Gesetz der großen Zahl Hinsichtlich der Repräsentativität einer Stichprobe kann man sagen, dass die Häufigkeitsverteilung die gleiche Form haben sollte wie die Populationsverteilung, was

9

Sandra Fuchs

ZF Schäfer I + II

SoSe 2015

nichts anderes bedeutet, als dass die verschiedenen Ausprägungen einer Variable den gleichen Mittelwert haben und die gleiche Streuung aufweisen. Das Gesetz der großen Zahl besagt: Je größer die Stichprobe, umso stärker nähert sich die Verteilung der beobachteten Werte der wahren Verteilung in der Population an. JE größer die Stichprobe, umso besser repräsentiert die Stichprobe die Population, da Werte, die nahe am Mittelwert liegen, häufiger vorhanden sind, auf lange Sicht auch häufiger gezogen werden. Die Populationsverteilung wird also mit steigender Stichprobengröße immer besser abgebildet. Aus dem Gesetz der großen Zahl ergibt sich ein grundlegendes Prinzip für die Methodenlehre: Man vertraut Werten aus großen Stichproben mehr als Werten aus kleinen Stichproben.

Die unbekannte Populationsverteilung Die Populationsverteilung ist praktisch immer unbekannt. Aus diesem Grund zieht man Stichproben, die repräsentativ für die Populationsverteilung sein sollen und benutzt die Stichprobe, um etwas über die Population zu erfahren, d. h. man benutzt die Werte aus der Stichprobe (Kennwerte) als Schätzung für die entsprechenden Werte in der Population. Nur mit hinreichend großen Stichproben sind die Schätzungen exakt genug. Kennwerte vs. Parameter Die Angaben über Stichprobendaten heißen Kennwerte. Diese Angaben lassen sich auch für Populationen erstellen. Da man i. d. R. die Verhältnisse in der Population jedoch nicht kennt, handelt es sich dabei dann um Schätzwerte, die als Parameter bezeichnet werden.

Mittelwert Varianz Standardabweichung

Kennwerte in der Stichprobe 𝑥̅ , M s² s

Parameter in Populationen

 ² 

Explorative Datenanalyse In der explorativen Datenanalyse versucht man, mit Hilfe von geeigneten Darstellungen und Berechnungen nach Mustern oder Zusammenhängen zu suchen: man forscht in den Daten nach interessanten Informationen, die bei der deskriptiven Analyse nicht auf den ersten Blick zu sehen sind. Zur grafischen Datenanalyse werden Boxplots oder Streudiagramme verwendet. Lässt ein Streudiagramm einen Zusammenhang zwischen Variablen vermuten, möchte man diesen Zusammenhang quantifizieren und verwendet Zusammenhangsmaße. 10

Sandra Fuchs

ZF Schäfer I + II

SoSe 2015

Man kann den Zusammenhang also mit Hilfe eines einzigen Kennwertes angeben: der Korrelation, die das Ausmaß des linearen Zusammenhangs repräsentiert. Boxplots Median und IQR können als robuste Kennwerte gemeinsam genutzt werden, um eine Verteilung von Daten dahingehend zu prüfen, ob es Ausreißer gibt und wie die Verteilung ohne diese Ausreißer aussehen würde. Die Box ist der IQR der Daten, wobei die Länge der Box Auskunft über die Streuung von Daten gibt. Sie stellt die mittleren 50% der Daten/Verteilung dar, da die oberen und unteren 25% der Daten/Verteilung unberücksichtigt bleiben. Der Median als Lagemaß gibt Auskunft über die Form der Verteilung: Liegt der Median ungefähr in der Mitte der Box, handelt es sich um eine symmetrische Verteilung, ist er verschoben, deutet dies auf eine schiefe Verteilung hin. Ist der Median nach unten/links verschoben, handelt es sich um eine links-steile/rechts-schiefe Verteilung; ist er nach oben/rechts verschoben, handelt es sich um eine rechts-steile/links-schiefe Verteilung. Ausreißer sind alle Werte, die sich außerhalb der Whiskers befinden. Die Whiskers werden per Konvention bestimmt als 1,5*IQR. Der Vorteil der Boxplots besteht darin, dass diese nur Rohwerte darstellen und die Daten nicht in irgendeiner Weise verändert werden. Das Entdecken von Ausreißern ist wichtig, weil diese die Berechnungen von Mittelwerten und Streuungen strak verzerren können und ggf. zu eliminieren sind.

Streudiagramme/Scatter-Plots Um erstmals nach Zusammenhängen zwischen zwei Merkmalen zu suchen, werden die Werte zweier Variablen in dasselbe Diagramm eingetragen. In diesem Diagramm wird dann jede Merkmalsausprägungskombination als Punkt an genau der Stelle vertreten, an der sich die Werte beider Variablen kreuzen. Alle Punkte zusammen bilden die Punktwolke. Liegt ein Zusammenhang vor, kann man diesen durch einen Kennwert/ein Zusammenhangsmaß ausdrücken bzw. quantifizieren, z. B. mit der Korrelation. Die Korrelation repräsentiert das Ausmaß des linearen Zusammenhangs zweier Variablen. Bei mehr als zwei Variablen kann man nicht gelichzeitig die Korrelation berechnen, sondern die Zusammenhänge solcher Art müssen sich immer aus einzelnen bivariaten Korrelationen zusammensetzen. Mit linear ist gemeint, dass der Zusammenhang der beiden Variablen in etwa einer Linie folgen sollte.

11

Sandra Fuchs

ZF Schäfer I + II

SoSe 2015

Gehen steigende Werte auf der x-Achse mit steigenden Werten auf der y-Achse einher, so spricht man von einer positiven Korrelation. Gehen steigende Werte auf der x-Achse mit sinkenden Werten auf der y-Achse einher, o spricht man von negativer Korrelation. Liegen alle Datenpunkte exakt auf einer Geraden, nennt man dies einen perfekten linearen Zusammenhang (deterministischer Zusammenhang), was in der Psychologie nicht der Fall ist. Die Datenwolke kann auch einen kurvi-linearen Zusammenhang oder nicht-lineare Zusammenhänge aufzeigen, für die man jedoch keine Korrelation angeben kann, da die Berechnung einer linearen Korrelation keinen Sinn macht. Die Korrelation zeigt also, dass zwei Variablen in ihren Ausprägungen nicht unabhängig voneinander variieren, sondern ko-variieren. Diese Kovarianz kann man berechnen als Abweichung eines jeden Wertes vom gemeinsamen Mittelwert für beide Variablen, die beiden Differenzen werden dann multipliziert. Die Kovarianz ist dann groß, wenn ein Datenpunkt einer Variablen in die gleiche Richtung von seinem Mittelwert abweicht wie auf der anderen Variablen, so dass das Produkt positiv wird. Die Produkte werden für jeden Datenpunkt aufsummiert. Da mit zunehmender Anzahl dieses Produkt immer größer würde, wird die Summe durch die Anzahl aller Datenpunkte (Stichprobengröße) geteilt. Die Interpretation, ob es sich bei einem errechneten Wert um einen großen oder kleinen Zusammenhang handelt ist schwierig und von den Skalierungen der gemessenen Variablen abhängig. Aus diesem Grund wird die Kovarianz durch Korrektur in die Korrelation überführt. Um die Kovarianz skalenunabhängig zu machen wird sie standardisiert, d.h. die einzelnen Werte einer Variablen werden um ihren Mittelwert vermindert und dann durch ihre Streuung geteilt. Dadurch befinden sich die Werte auf einer z-Skala, die unabhängig von der ursprünglichen Skalierung ist. Die Verminderung um den Mittelwert wurde bereits bei der Kovarianz vorgenommen, so dass man diese nur noch durch die Streuung der beiden Variablen teilen muss, um die Korrelation r zu erhalten. R heißt Korrelationskoeffizient nach Pearson. Dieser Wird auch als Produkt-Moment-Korrelation bezeichnet und kann nur Werte zwischen -1 und 1 annehmen. -1 beschreibt einen perfekten negativen Zusammenhang, 0 beschreibt zwei unkorrelierte Variable, 1 beschreibt einen perfekten positiven Zusammenhang. Ko-Variieren bedeutet also nichts anderes, als dass die Varianzen der beiden Variablen voneinander abhängig sind, d.h. wenn Werte auf der einen Variable von ihrem Mittelwert abweichen (also Varianz aufweisen), dann sollte dies mit einer entsprechenden Varianz der Werte auf der anderen Variable einhergehen (je mehr, desto mehr). Die Korrelation weist jedem Datenpunkt, der sich auf X befindet, einen entsprechenden Wert auf Y zu, so dass alle Werte auf einer geraden liegen würden.

12

Sandra Fuchs

ZF Schäfer I + II

SoSe 2015

Ist dies nicht in dieser Form der Fall, dann ist die Korrelation der beiden Variablen „nicht erklärbar“. Die Vergrößerung einer Gesamtstreuung ist dann nicht durch eine entsprechende Kovarianz erklärbar. Je mehr die Werte der Punktewolke von einer Geraden abweichen, desto kleiner wird der Korrelationskoeffizient, da die Gesamtstreuung größer wird. Der Anstieg der Gerade, auf der die Datenpunkte liegen, ist für die Größe der Korrelation nicht von Bedeutung, sondern der Anstieg ist ausschließlich von der Skalierung der Variablen abhängig. Der Anstieg darf nur nicht 0 werden (waagerechte Linie), da dann die Werte auf Y keinerlei Varianz mehr aufweisen und somit keine Korrelation möglich ist.

Dass Datenpunkte von der Geraden abweichen, hat zwei Gründe: 1. Messfehler bei der Messung der Variablen 2. Die Varianz einer Variable kann sich dadurch vergrößern, weil sie nicht nur mit einer Variable korreliert, sondern mit mehreren Aufgrund der Komplexität von Erleben und Verhalten des Menschen, gibt es Zusammenhänge zwischen nur zwei Variablen relativ selten und keine perfekten Zusammenhänge. Zur Einschätzung, was eine große, mittlere oder kleine Korrelation ist, wurden von Cohen (1988) Konventionen formuliert, die auf durchschnittlichen Korrelationen basiert. r ab 0.1 oder -0.1 ab 0.3 oder -0.3 ab 0.5 oder -0.5

Interpretation Kleiner Effekt Mittlerer Effekt Großer Effekt

Je nach Fragestellung kann aber auch ein kleiner Effekt interessant sein, während bei einer anderen Fragestellung erst ein sehr großer Effekt interessant ist. Voraussetzungen für die Berechnung von Pearson-Korrelationen -

mindestens Intervallskalenniveau die Daten müsen in einem linearen Zusammenhang stehen (leicht zu prüfen mit Scatterplot)

für andere Skalenniveaus muss man andere Korrelationskoeffizienten benutzen: N  Phi-Koeffizient O  Rangkorrelationskoeffizient nach Spearman Zwar kann man auch für nicht-lineare Zusammenhänge eine Korrelation berechnen, diese ist aber nicht sinnvoll interpretierbar. Korrelationen beschreiben die Enge/Stärke des Zusammenhangs zweier Variablen, lassen aber keine Schlüsse darüber zu, ob ein Kausalzusammenhang vorliegt!

13

Sandra Fuchs

ZF Schäfer I + II

SoSe 2015

Wenn zwei Variablen X und Y einen Zusammenhang aufweisen, kann es dafür mind. drei kausale Erklärungen geben: 1. x bewirkt Y 2. Y bewirkt X 3. der Zusammenhang wird durch eine dritte Variable Z verursacht (Scheinkorrelation) Nur aus experimentell gewonnenen Daten berechnete Korrelationen lassen Kausalschlüsse zu. Mit Hilfe der Korrelation ist es also möglich, Zusammenhänge zwischen zwei Variablen aufzudecken und quantitativ zu beschreiben.

Lineare Regression Die Korrelation wird von der Regression benutzt, um die Werte der einen Variablen aus den Werten der anderen Variablen vorherzusagen (zu schätzen). Die UV (vorhersagende Variable) wird als Prädiktor bezeichnet), die AV (vorhergesagte Variable) als Kriterium. Wenn an weiß, dass zwei Variablen korrelieren, kann man die Werte einer Variable benutzen, um die Werte auf der anderen Variable vorherzusagen. Dazu benötigt man die sog. Regressionsgerade, die durch die beiden Größen Schnittpunkt mit der Y-Achse und ihren Anstieg bestimmt ist. Die Gerade, die die Punktwolke bestmöglich repräsentiert ist diejenige, bei der alle Punkte im Durchschnitt möglichst wenig von der Gerade abweichen. Diese wird bestimmt durch die KQ-Methode. Die Regressionsgerade weist jedem Wert auf X einen Wert auf Y zu. Dabei gibt es i.d.R. Abweichungen der geschätzten/vorhergesagten Werte und den wahren Werten. Die Abweichung nennt man Vorhersagefehler; sie ist nicht durch die Regression von Y auf X erklärbar und wird als Residuum/Residualwert/Schätzfehler bezeichnet. Dieser Schätzfehler führt dazu, dass die Vorhersage ungenau ist, und kommt zustande durch Messfehler oder Dritt-Variablen-Einfluss. Die Größe des Schätzfehlers kennen wir nicht! Die Regression wird verwendet, um konkrete Werte einer Variable vorherzusagen oder einfach, um die Enge des Zusammenhangs zweier Variablen durch r zu beschreiben. Der Determinationskoeffizient r² ist ein Maß, dass angibt, wieviel der Varianz von Y durch X aufgeklärt werden kann. Die Vorhersage von Y durch X gelingt umso besser, je größer die Korrelation r zwischen X und Y ist.

14

Sandra Fuchs

ZF Schäfer I + II

SoSe 2015

Da r höchsten 1 oder-1 sein kann, ist r² ebenfalls höchsten 1, was einer Varianzaufklärung von 100% entspricht (alle Punkte liegen auf einer Geraden). R² steht in direkter Beziehung zum Schätzfehler/den Residuen, da ein größer r² auf einen kleinen Schätzfehler hinweist und somit auf kleide Residuen. Ist r² = 1, dann ist der Schätzfehler 0 und es gibt keine Residuen.

Inferenzstatistik Ziel der Inferenzstatistik sind Schlüsse von einer Stichprobe auf eine Population sowie Aussagen über die Güte dieser Schlüsse. Aussagen über die Allgemeinheit sind dann problemlos möglich, wenn man alle Personen, die die Allgemeinheit bilden, tatsächlich untersuchen kann, Meist stehen jedoch nur Stichproben zur Verfügung. Verallgemeinerungen von Stichprobenergebnissen auf die Population sind nur dann möglich, wenn die Stichprobe repräsentativ für die Population ist, was man durch Ziehen von Zufallsstichproben aus der Population sicherstellen kann. Da eine Stichprobe jedoch nur einen Ausschnitt aus der Population darstellt, kann dieser fehlerbehaftet sein. Es gibt zwei Möglichkeiten, um die Frage zu beantworten, ob die Ergebnisse in der Stichprobe nur eine zufällige Besonderheit sind oder ob man sie auf die Population verallgemeinern kann: 1. mehrere Studien, so dass sich zufällig beobachtete Effekte wieder ausmitteln 2. man gibt die Wahrscheinlichkeit, mit der man sich bei der Bestimmung des Ergebnisses in der Stichprobe geirrt hat, mit an

Stichprobenverteilungen

Einzelne Stichproben liefern sog. Häufigkeitsverteilungen. Die aus den verschiedenen Stichproben berechneten Kennwerte (Mittelwert z.B.) bilden sog. Stichprobenverteilungen, die im Gegensatz zu Häufigkeitsverteilungen beliebig viele Werte annehmen können. Stichprobenverteilungen geben Auskunft darüber, was passiert, wenn man sehr viel Stichproben ziehen würde und sind die wichtigste Grundlage der Inferenzstatistik. Die Fläche unter der Stichprobenverteilung entspricht immer einer gewissen Wahrscheinlichkeit, mit der alle möglichen Mittelwerte innerhalb dieser Fläche zu erwarten sind. Stichprobenverteilungen folgen aufgrund des zentralen Grenzwertsatzes immer der Normalverteilung. Mit steigender Stichprobengröße der einzelnen Studien sinkt die Streuung der resultierenden Stichprobenverteilungen.

15

Sandra Fuchs

ZF Schäfer I + II

SoSe 2015

Es gibt zwei Möglichkeiten zur Beantwortung der Frage, wie zuverlässig der gefundene Mittelwert für die Population verallgemeinert werden kann: 1. Angabe des Standardfehlers, d.h. Schätzung des Fehlers, den man bei einer solchen Verallgemeinerung im Durchschnitt machen wird 2. Angabe eines Konfidenzintervalls als Bereich um den gefundenen Mittelwert herum, der den wahren Mittelwert in der Population wahrscheinlich enthält

Der Standardfehler entspricht der Standardabweichung der Stichprobenverteilung! Hat man nur eine Stichprobe zur Verfügung, dann gilt die Standardabweichung s nur für diese konkrete Stichprobe und man muss die Standardabweichung für die Population schätzen. Sigma_dach ist der Standardfehler des Mittelwertes (SE, S.E., SEM, Standard Error of Mean), Der SEM quantifiziert den Unterschied zwischen den aus einer einzelnen Stichprobe geschätzten Mittelwerten x-quer und dem tatsächlichen wahren Mittelwert ü. Er entspricht der Standradabweichung der entsprechenden Stichprobenverteilung. Der Standardfehler ist immer kleiner als die Standardabweichung aus einer Stichprobe, da die Streuung der Stichprobenverteilung gar nicht so groß sein kann wie die Streuung einer einzelnen Stichprobenverteilung. Der Mittelwert wird oft als Erwartungswert bezeichnet. Die Güte seiner Schätzung kann durch den Standardfehler angegeben werden; der Standardfehler sollte möglichst klein sein, was wiederum von der Skalierung der jeweiligen Variable und der Fragestellung abhängt. Ein Konfidenzintervall ist ein Wertebereich, bei dem wir darauf vertrauen können, dass es den wahren Wert in der Population mit einer gewissen Wahrscheinlichkeit (Vertrauenswahrscheinlichkeit) überdeckt). 1. 2. 3. 4. 5.

Vertrauenswahrscheinlichkeit / Güte festlegen Mittelwert der Stichprobe bestimmen Stichprobenverteilung konstruieren Standardfehler/Streuung der Stichprobenverteilung berechnen Intervallgrenzen bestimmen oder berechnen

Hypothesentests Hypothesen beziehen sich immer auf Zusammenhänge zwischen Variablen oder auf Unterschiede zwischen Gruppen/Variablen, wobei Unterschieds- und Zusammenhangshypothesen stets ineinander überführbar sind. Zusammenhangshypothesen beziehen sich auf Korrelationen, Unterschiedshypothesen auf Mittelwertsunterschiede.

16

Sandra Fuchs

ZF Schäfer I + II

SoSe 2015

Effekte und Effektgrößen Der Begriff Effekt bezieht sich immer auf eine UV, die eine bestimmte Wirkung (einen Effekt) auf eine AV ausüben soll. Der Effekt kann in einem Unterschied oder in einem Zusammenhang (Korrelation) bestehen. Es geht dabei nicht zwangsläufig um einen kausalen Effekt, sondern meist um einen statistischen Effekt Effektgrößen sind standardisierte Effekte, die die Stichprobengröße berücksichtigen. Effektgrößen sind über Stichproben und Themenbereiche hinweg vergleichbar. Die Berechnung von Effektgrößen ist auf drei Arten möglich: 1. Aus den Rohdaten 2. Aus anderen Effektgrößen 3. Aus Signifikanzergebnissen Cohen´s d Hedges´ g d und g sind ineinander überführbar Für die Interpretation von Effektgrößen gelten folgende Konventionen nach Cohen (1988):

Klein Mittel Groß

g und g Ab 0,2 bzw. -0,2 Ab 0,5 bzw. -0,5 Ab 0,8 bzw. -0,8

r Ab 0,1 bzw. -0,1 Ab 0,3 bzw. -0,3 Ab 0,5 bzw. -0,5

Abhängige vs. Unabhängige Messungen Unabhängige Messungen Wenn jede Messung an einer eigenen Stichprobe bzw. in einer eigenen Gruppe vorgenommen wurde

Abhängige Messungen Within-subjects-Designs (dieselben Personen durchlaufen beide Bedingungen einer Messung

Between-subjects-Design

Messwiederholungen Matching/gepaarte Stichproben

Bei Zusammenhangshypothesen hat man es zwangsläufig immer mit abhängigen Messungen zu tun.

17

Sandra Fuchs

ZF Schäfer I + II

SoSe 2015

Der Standardfehler Anders als bei Mittelwerten ist es bei Zusammenhängen und Unterschieden nicht üblich, allein den Standardfehler anzugeben. Stattdessen verwendet man Konfidenzintervalle oder Signifikanztests, da es beim Testen von Hypothesen um Entscheidungen geht, für die es nicht ausreichend ist, nur den schwer interpretierbaren Standardfehler des Mittelwertsunterschieds anzugeben. Konfidenzintervalle und Signifikanztests hingegen liefern eher praktische Entscheidungshilfen. Bei unabhängigen Messungen interessiert die Streuung ZWISCHEN den Gruppen,a lso der systematische Anteil an der Gesamtstreuung aller Personen. Die Streuung innerhalb der Gruppen (Fehlerstreuung) ist nicht von Interesse. Bei abhängigen Messungen interessiert am Ende nur, ob sich PRO Person ein Unterschied zwischen der ersten und der zweiten Messung ergeben hat. Die Streuung zwischen den Personen innerhalb jedes Messzeitpunktes ist nicht von Interesse. Der Standardfehler bei der Regression gibt an, wie stark die Werte um die Regressionsgerade streuen. Er ist ein Gütemaß für die Vorhersage von Y aus X.

Konfidenzintervalle Konfidenzintervalle liefern Angaben darüber, ob ein Effekt möglicherweise durch Zufall gefunden wurde oder ob er von statistischer Bedeutung (Signifikant, substantiell, systematisch) ist. Das Intervall gibt die Wahrscheinlichkeit an, mit der der Bereich zwischen den Intervallgrenzen den wahren Mittelwert in der Population überdeckt, Entscheidend ist, ob das Intervall den Wert 0 beinhaltet (kein Mittelwertsunterschied); in Falle von 0 ist die Hypothese zu verwerfen.

Signifikanztest Die Dritte Möglichkeit, mit der man die Güte der Schätzung von Unterschieden und Zusammenhängen von einer Stichprobe auf die Population beurteilen kann sind Signifikanztests (Bedeutsamkeitstests). Ist die Bedeutsamkeit des in der Stichprobe gefundenen Effektes groß genug, um ihn auf die Population zu verallgemeinern und die entsprechende Hypothese anzunehmen? Die Grundlage sind die beiden Stichprobenverteilungen Nullhypothese Alternativhypothese 18

Sandra Fuchs

ZF Schäfer I + II

SoSe 2015

Die beide aus theoretischen Überlegungen entstanden sind. Beim Signifikanztest werden immer mind. zwei Hypothesen gegeneinander getestet. Die Nullhypothese ist die zentrale Idee des Signifikanztests, die behauptet, dass es in der Population gar keinen Effekt gibt. Die H0 hat als Mittelwert den Wert 0. Die Alternativhypothese hingegen unterstellt einen Effekt. Die Alternativhypothese erwächst i.d.R. aus der Forschungshypothese: man behauptet(hofft, dass es einen Effekt gibt. Während die H0 um den Wert 0 herum konstruiert ist, wird die Alternativhypothese um einen Wert herum konstruiert, der den erhofften Effekt in der Population widerspiegelt.

Der p-Wert ist die Wahrscheinlichkeit dafür, dass in einer Stichprobe der gefundene oder ein noch größerer Effekt auftritt unter der Annahme, dass die H0 gilt. Die Irrtumswahrscheinlichkeit (Signifikanzniveau, Alpha-Niveau) Alpha entspricht einem Wert für p, ab dem man nicht mehr bereit ist, die H0 zu akzeptieren.

Der Alpha-Fehler legt das Niveau der Irrtumswahrscheinlichkeit (Signifikanzniveau) fest. Das Ergebnis eines Signifikanztests ist signifikant wenn p