B.Sc. Rehabilitationspsychologie Modul 3.2 WiSe 2013-14
GRUNDLAGEN DER TESTTHEORIE Prof. Dr. habil. Gabriele Helga Franke E-Mail:
[email protected] Internet: www.franke-stendal.de Sprechstunde: Montag, 8-9h
Gliederung Kapitel 2 2.1 Objektivität 2.2 Reliabilität 2.3 Validität 2.4 Skalierung 2.5 Normierung (Eichung) 2.6 Testökonomie 2.7 Nützlichkeit 2.8 Zumutbarkeit 2.9 Unverfälschbarkeit 2.10 Fairness
Hauptgütekriterien
Nebengütekriterien
GHF - Testtheorie - 2-2) Nebengütekriterien
2
2.4 Skalierung • Das Gütekriterium Skalierung betrifft bei Leistungstests vor allem die Forderung, dass eine leistungsfähigere Testperson einen besseren Testwert als eine weniger leistungsfähige erhalten muss. • Dass sich also die Relation der Leistungsfähigkeit auch in den Testwerten widerspiegelt. GHF - Testtheorie - 2-2) Nebengütekriterien
3
2.4 Skalierung • Die Forderung der Skalierung bezieht sich sowohl auf interindividuelle Differenzen als auch auf intraindividuelle Differenzen • Dies gilt ebenso für Persönlichkeitstests, d.h. die Relation der Testwerte muss auch hier die Relation der Ausprägung des Merkmals widerspiegeln GHF - Testtheorie - 2-2) Nebengütekriterien
4
Visual Analog Skala
2.4 Skalierung – Beispiel Visual Analog Skala Bitte bewerten Sie die Stärke Ihrer aktuellen Schmerzen:
geriatrie-bochum.de
GHF - Testtheorie - 2-2) Nebengütekriterien
5
Dichotome Skala
2.4 Skalierung – Beispiel Dichotome Skala 02. Ich gehe abends gerne aus Stimmt Stimmt nicht
21. Ich bin leicht beim Ehrgeiz zu packen Stimmt Stimmt nicht FPI-R
GHF - Testtheorie - 2-2) Nebengütekriterien
6
5-stufige Likert-Skala
2.4 Skalierung – Beispiel SCL-90®-S • 5-stufige Likert-Skala
Franke, G.H. (2013). SCL-90®-S. Symptom-Checklist-90 Standard - Manual. Göttingen: Hogrefe. GHF - Testtheorie - 2-2) Nebengütekriterien
7
Kumulative Punkteskala
2.4 Skalierung – Beispiel Kumulative Punkteskala Rahe (1988). Recent life changes and coronary heart diseases: 10 years’ research. In, S. Fisher & J. Reason (Eds.), Handbook of life stress, cognition, and health (p. 317-335). Chichester: Wiley. Hobson, C.J., Kamen, J., Szostek, J., Nethercut, C.M., Tiedmann, J.W. & Wojnarowicz, S. (1998). Stressful life events: A revision and update of the Social Readjustment Rating Scale. International Journal of Stress Management, 5(1), 1-23.
GHF - Testtheorie - 2-2) Nebengütekriterien
8
Kumulative Punkteskala 9
Kumulative Punkteskala
2.4. Skalierung – Beispiel Item Nr. 01 02 03 04 05 06 07 08 09 10 11 12 13 14 15 16 17 18 19 20 21 22
eingetreten ja ja ja ja ja ja ja ja ja ja ja ja ja ja ja ja ja ja ja ja ja ja
life-change unit 50 15 30 63 28 31 37 12 17 26 13 40 36 38 25 15 20 24 39 26 53 63
Item Nr. 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43
GHF - Testtheorie - 2-2) Nebengütekriterien
eingetreten ja ja ja ja ja ja ja ja ja ja ja ja ja ja ja ja ja ja ja ja ja
life-change unit 73 18 29 47 39 35 45 19 19 29 45 20 29 20 44 29 16 23 65 100 11
10
Kumulative Punkteskala
2.4. Skalierung – Beispiel Objektbeziehungen Item 02 04 07 22 L-CU Objektbeziehungen =
23
28
29
32
35
37
Leistungssituationen Item 05 10 13 17 L-CU Leistungssituationen = Schwellensituationen Item 01 03 06 08 L-CU Item 20 21 24 27 L-CU Schwellensituationen =
09
11
12
14
15
16
30
31
33
36
39
43
41
42
25
18
26
34
38
40
19
GHF - Testtheorie - 2-2) Nebengütekriterien
11
Kumulative Punkteskala
2.4. Skalierung – Beispiel
Franke, G.H., Schütte, E. & Heiligenhaus, A. (2005). Psychosomatik der Uveitis – eine Pilotstudie. PPmP, 55, 65-71.
GHF - Testtheorie - 2-2) Nebengütekriterien
12
2.4.1 Definitionen: Skalierung Definition (Moosbrugger & Kelava, 2007, S. 18)
• Ein Test erfüllt das Gütekriterium der Skalierung, wenn die laut Verrechnungsregel resultierenden Testwerte die empirischen Merkmalsrelationen adäquat abbilden.
GHF - Testtheorie - 2-2) Nebengütekriterien
13
2.4.1 Definitionen: Skalierung Definition (Kubinger, 2006, S.79) • Ein Test erfüllt das Gütekriterium Skalierung, wenn die laut Verrechnungsvorschriften resultierenden Testwerte die empirischen Verhaltensrelationen adäquat abbilden. ->Angemessenheit der im Manual festgelegten Verrechnungsvorschriften GHF - Testtheorie - 2-2) Nebengütekriterien
14
2.4.1 Definitionen: Skalierung • Die Umsetzbarkeit dieses Gütekriteriums hängt vom Skalenniveau des Tests ab. • Die Messung auf Nominalskalenniveau reicht nicht aus, um größer/ kleiner Relationen zwischen Testpersonen zu beschreiben
GHF - Testtheorie - 2-2) Nebengütekriterien
15
2.4.1 Definitionen: Skalierung • Damit eine leistungsfähigere Testpersonen einen besseren Testwert als eine leistungsschwächere erhält, muss zumindest eine Messung auf Ordinalskalenniveau erfolgen. • Messung auf Intervalskalenniveau erlaubt darüber hinaus eine Beurteilung der Größe inter- und intraindividueller Differenzen. GHF - Testtheorie - 2-2) Nebengütekriterien
16
2.4.1 Definitionen: Skalierung • Verhältnisse zwischen Testleistungen können nur auf Rationalskalenniveau bestimmt werden. • Dieses wird in der Psychologie nur selten erreicht. • Das wichtigste Beispiel für psychologische Messungen auf Rationalskalenniveau ist die Erfassung von Reaktionszeiten. GHF - Testtheorie - 2-2) Nebengütekriterien
17
2.4.2 Skalenniveau Ist es sachlich und fachlich richtig zu sagen, dass eine Person mit einem Intelligenzquotienten von 140 doppelt so intelligent ist wie jemand mit einem IQ von 70? Die Frage ist nur mit Hilfe des Skalenniveaus zu beantworten.
GHF - Testtheorie - 2-2) Nebengütekriterien
18
2.4.2 Skalenniveau Skalenarten
Mögliche Aussagen
1. Nominalskala
•
Gleichheit Verschiedenheit
•
• Größer/ KleinerRelationen
•
• Gleichheit von Unterschieden
•
• Gleichheit von Verhältnissen
•
•
2. Ordinalskala 3. Intervallskala 4. Verhältnisskala
Beispiele
GHF - Testtheorie - 2-2) Nebengütekriterien
•
•
•
•
Geschlecht Parteienpräferenz Rangplatz im Sport Schulnoten Celsiusskala IQ-Werte Kelvinskala Längenmaß
19
2.4.2.1 Nicht-parametrischer Zugang Nominalskala Die Nominalskala ist die einfachste Möglichkeit der Skalierung. • Die einzige Bedingung ist, dass jede Variablenausprägung eindeutig einem Wert zugeordnet werden kann. • Eine Beziehung zwischen den Werten gibt es nicht. • Statistisch lassen sich hier nur Häufigkeiten auszählen, sowie Modalwerte, ² (Chi-Quadrat-) Verfahren und Kontingenztafeln berechnen.
GHF - Testtheorie - 2-2) Nebengütekriterien
20
2.4.2.1 Nicht-parametrischer Zugang Nominalskala Beispiel: Geben Sie den Familienstand an! Kategorie
Ausprägung
Ledig
1
Verheiratet
2
Verwitwet/geschieden/ getrennt leben
3
Den einzelnen Ausprägungen der Variablen „Familienstand“ werden zwar Zahlen (1-3) zugeordnet, diese haben aber keine mathematische Bedeutung. So ist „verheiratet“ nicht größer oder kleiner als „verwitwet“, usw. GHF - Testtheorie - 2-2) Nebengütekriterien
21
2.4.2.1 Nicht-parametrischer Zugang Ordinalskala Die Ordinalskala (Rangordnung) beinhaltet Größenrelationen: A>B oder CAkzeptanz durch die Versuchsperson GHF - Testtheorie - 2-2) Nebengütekriterien
67
2.9 Unverfälschbarkeit Definition nach Moosbrugger und Kelava (2007, S. 23) • Ein Testverfahren erfüllt das Gütekriterium der Unverfälschbarkeit, wenn das Verfahren derart konstruiert ist, dass die zu testende Person durch gezieltes Testverhalten die konkreten Ausprägungen ihrer Testwerte nicht steuern bzw. verzerren kann GHF - Testtheorie - 2-2) Nebengütekriterien
68
2.9 Unverfälschbarkeit „Ein Test erfüllt das Gütekriterium der Unverfälschbarkeit, wenn die getestete Person ihr Testergebnis nicht oder nur unwesentlich nach eigenem Belieben beeinflussen kann.“ (Kubinger, 2006, S. 114)
GHF - Testtheorie - 2-2) Nebengütekriterien
69
2.9 Unverfälschbarkeit Bei Persönlichkeitsfragebögen ist es denkbar, dass eine Testperson im Sinne von sozialer Erwünschtheit antwortet und so die Testwerte beeinflusst. Eher unwahrscheinlich ist es, dass eine Testperson bei einem Leistungstest absichtlich schlechte Leistungen erbringt. (Ausnahme bei Versicherungsansprüchen) GHF - Testtheorie - 2-2) Nebengütekriterien
70
2.9 Unverfälschbarkeit Ziel bei der Testkonstruktion sollte es daher sein, dass ein Test für die Testperson nicht durchschaubar ist. Aber: Es gibt immer Unterschiede zwischen den einzelnen Versuchspersonen. Nicht jede Versuchsperson durchschaut einen Test.
In diesem Zusammenhang werden „Objektive Persönlichkeitstests“ gefordert. GHF - Testtheorie - 2-2) Nebengütekriterien
71
2.10 Fairness „Ein Test erfüllt das Gütekriterium Fairness, wenn die resultierenden Testwerte zu keiner systematischen Diskriminierung bestimmter Testpersonen zum Beispiel auf Grund ihrer ethnischen, soziokulturellen oder geschlechtsspezifischen Gruppenzugehörigkeit führen.“ (Kubinger, 2006, S. 118)
GHF - Testtheorie - 2-2) Nebengütekriterien
72
2.10 Fairness Fairness bezeichnet das Ausmaß, in dem Testpersonen verschiedener Gruppen in einem Test oder bei den mit ihm verbundenen Schlussfolgerungen in fairer Weise, d.h. nicht diskriminierend, behandelt werden Z.B. Frauen vs. Männer, Personen mit unterschiedlicher kultureller Prägung, etc. GHF - Testtheorie - 2-2) Nebengütekriterien
73
2.10 Fairness Was genau ist „unfair“? • testimmanente Bedingungen (z.B. sprachliche Verständlichkeit) • technische Handhabung (z.B. Testreaktion via Computer) • inhaltliche Details des Testmaterials (z.B. Bezug auf religiöse Wertmaßstäbe)
GHF - Testtheorie - 2-2) Nebengütekriterien
74
2.10 Fairness Forderung nach Culture-Fair Tests: • Tests sind sprachfrei, um somit für alle Versuchspersonen die gleiche Situation zu schaffen • über Beispiele wird veranschaulicht, wie entsprechende Aufgaben zu bearbeiten sind • z.B. AID 2 GHF - Testtheorie - 2-2) Nebengütekriterien
75
Beispiel Fairness Beispiel FPI-R „Bei der Entwicklung der Items wurde darauf geachtet, diskriminierende Formulierungen zu vermeiden.“ Fahrenberg, Hampel & Selg, 2001, S. 123
GHF - Testtheorie - 2-2) Nebengütekriterien
76
Literatur • Bühner, M. (2010). Einführung in die Test- und Fragebogen-konstruktion (3., aktualisierte und erweiterte Aufl.). München: Pearson Studium. • Jackson, C. (1999). Testen und getestet werden. Bern: Verlag Hans Huber. • Moosbrugger, H. & Kelava, A. (2007). Testtheorie und Fragebogenkonstruktion. Heidelberg: Springer.
GHF - Testtheorie - 2-2) Nebengütekriterien
77