Wiederholung - Vertiefung Testkonstruktion

Wiederholung Vertiefung Testkonstruktion Kapitel 3 Bühner (2006). Text: direkt aus Bühner 2006 übernommen – Danke schön Einführung in die Test- und F...
Author: Irmgard Hofer
1 downloads 2 Views 1MB Size
Wiederholung Vertiefung Testkonstruktion Kapitel 3 Bühner (2006). Text: direkt aus Bühner 2006 übernommen – Danke schön

Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 1

3.1 Stufen der Testentwicklung (1) (2) (3) (4) (5) (6) (7) (8) (9) (10)

Anforderungsanalyse und Problemstellung Planung und Literatursuche Eingrenzung des Merkmals und Arbeitsdefinition Testentwurf Überprüfung des Testentwurfs Verteilungsanalyse Itemanalyse und Itemselektion Kriterienkontrolle Revision des Tests Eichung / Cut-Off-Werte 2

Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 2

(1) Anforderungsanalyse und Problemstellung z z

Bezieht sich auf spezifischen Tätigkeitsbereich (tätigkeitsspezifisch oder tätigkeitsübergreifend) 3 Ansätze (Schuler, 2001): z erfahrungsgeleitet-intuitive Methode: ?? Beschäftigung mit den Eigentümlichkeiten des Tätigkeitsbereichs z analytisch-empirische Methode: Tätigkeiten in konkreten Situationen z personenbezogen-empirische Methode: Zusammenhang zwischen Merkmalen der tätigen Personen und Kriterien

ÆInformationsquellen: Beobachtung, mündliche Befragung,

Fragebogenverfahren, Beschäftigung mit dem Material, Auswertung des Materials, Arbeitsausführung einer Tätigkeit 3

Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 3

(2) Planung und Literatursuche z

Eingrenzung des zu erfassenden Merkmals mithilfe von: z

Überblicksartikeln oder Lehrbüchern (z.B. Psyndex, PsycINFO)

z

Befragung von Laien oder Experten

z

anforderungsbezogener Test (ohne expliziten theoretischen Hintergrund)

4

Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 4

(3) Arbeitsdefinition z

Erstellung einer Arbeitsdefinition: z

Sammlung und Analyse von Definitionen (z.B. wiederkehrende Definitionsmerkmale herausgreifen)

z

rationale Fragebogenkonstruktion (Fragebogenkonstruktion basiert auf inhaltlichen Gesichtspunkten)

z

Testkonstruktion wird explizit aus einer Theorie abgeleitet = deduktive Methode (Konstrukte wie z.B. Intelligenz oder Aufmerksamkeit)

z

induktive Fragebogenkonstruktion (Fragebogenkonstruktion basiert auf Befragungsergebnissen von Experten oder Laien) 5

Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 5

(4) Testentwurf z

Überlegungen: z 1. Zielgruppe z 2. Art der Informationen (subjektive oder objektive Informationen) z 3. Zweck des Tests (z.B. verschiedene Gruppen voneinander trennen oder Eigenschaftsbeschreibungen) Æ Überlegungen münden in der Auswahl der Testart und damit verbunden der Itemauswahl Æ Merke: -

Wichtig für die Inhaltsvalidität ist eine repräsentative Itemmenge Prototypenansatz: die ausgewählten Items sind besonders charakteristisch für einen bestimmten Bereich

6

Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 6

(5) Überprüfung des Testentwurfs z

geeignete und ausreichend große Stichprobe rekrutieren (Mindestgrenze N = 100)

(6) Verteilungsanalyse z

Betrachtung der Itemverteilungen anhand der Rohdaten, um mögliche Decken- und Bodeneffekte zu vermeiden

7

Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 7

(7) Itemanalyse und Itemselektion z

Statistische Itemanalyse:

z

Berechnung von Itemschwierigkeit und Itemtrennschärfe

z

Items, die von allen oder keinem Probanden der interessierenden Stichprobe gelöst werden sowie Items mit geringer Trennschärfe werden nicht weiter berücksichtigt, weil sie zur Unterscheidung der Probanden nichts beitragen können

8

Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 8

(8) Kriterienkontrolle z

Bestimmung der primären Gütekriterien „Reliabilität” und „Validität” des Tests

(9) Revision des Tests z

Anhand der gewonnenen Informationen sollte der Test revidiert werden und erneut einer psychometrischen Prüfung unterzogen werden

9

Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 9

(10) Eichung (Normierung) / Cut-OffWerte z

Mit der Testendform werden Normen an möglichst repräsentativen, geschichteten oder speziell interessierenden Populationen erhoben

z

In vielen Fällen benötigt man nur einen Cut-Off-Wert, ab dem eine psychische Störung vorliegt oder ein bestimmtes (z.B. Lern)Ziel erreicht wurde

10

Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 10

3.2 Auswahl von Testaufgaben (1) (2) (3) (4) (5)

(6) (7)

Gebundene Aufgabenbeantwortung Allgemeine Probleme gebundener Antwortformate Freie Aufgabenbeantwortung Atypische Aufgabenbeantwortung Probleme bei der Formulierung von Fragebogenitems Hilfen zur Aufgabenkonstruktion Erkennen eines Itembias

11

Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 11

(1) Gebundenes Antwortformat z

Bei der gebundenen Beantwortung werden festgelegte Antwortkategorien vorgegeben

z

Es gibt keinen Freiraum für eigene Antworten

z

Beispiele für gebunden Antwortformate: • mehrstufige Ratingskalen • Richtig-Falsch-Aufgaben • Mehrfach-Wahlaufgaben • Zuordnungsaufgaben • Umordnungsaufgaben

12

Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 12

(1) Gebundenes Antwortformat z

mehrstufige Ratingskalen:

z

Ratingskalen bestehen aus mehr als zwei Antwortkategorien

z

Sie sollen die qualitative Beurteilung einer Merkmals-ausprägung ermöglichen

z

Wie differenziert die Antwortkategorien abgestuft werden sollen (z.B. 3-stufig, 4-stufig oder 10-stufig), kann festgelegt werden

z

Ratingskalen können bipolar oder unipolar sein

13

Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 13

(1) Gebundenes Antwortformat z

mehrstufige Ratingskalen:

14

Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 14

(1) Gebundenes Antwortformat z

Vorteile mehrstufige Ratingskalen:

z

Man erhält sehr differenzierte Informationen über die Ausprägung eines Merkmals

z

Durchführung und die Auswertung sind ökonomisch

z

Die Differenziertheit der Fragen kann dem Untersuchungszweck und der Fähigkeit der Probanden angeglichen werden

15

Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 15

(1) Gebundenes Antwortformat z

Nachteile mehrstufige Ratingskalen:

z

Eventuell werden die Abstufungen subjektiv unterschiedlich aufgefasst

z

Antworttendenzen können auftreten, z.B. Neigung zu extremen Antworten oder die Tendenz zu mittleren Urteilen

z

Probanden eine mittlere oder neutrale Kategorie vorzuenthalten kann problematisch sein, da sie so zu einer Entscheidung gezwungen werden

16

Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 16

(1) Gebundenes Antwortformat z

Richtig-Falsch-Aufgaben:

z

Richtig-Falsch-Aufgaben bestehen nur aus zwei Antwortmöglichkeiten

z

Sie kommen als Leistungstestaufgaben (Richtig-FalschAufgaben) oder auch Ja-Nein-Fragen (Trifft zu / Trifft nicht zu) in Persönlichkeitstests vor

z

Der Antwortmodus reicht von Ankreuzen über Durchstreichen bis dahin, ein Item mit einem Haken zu versehen

17

Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 17

(1) Gebundenes Antwortformat z

Richtig-Falsch-Aufgaben:

18

Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 18

(1) Gebundenes Antwortformat z

Vorteile der Richtig-Falsch-Aufgaben:

z

Die Bearbeitungs-, Auswertungs- und Lösungszeit ist meist kurz

z

Für die Probanden ist die Testinstruktion in der Regel leicht zu verstehen

z

Die Items können von den Probanden schnell und auch relativ leicht beantwortet werden

19

Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 19

(1) Gebundenes Antwortformat z

Nachteile der Richtig-Falsch-Aufgaben:

z

Ja-Nein-Items müssen so formuliert werden, dass sie eindeutig beantwortet werden können

z

Im Gegensatz zum Ratingformat ist ein hoher Prozentsatz an Zufallslösungen möglich (50 Prozent)

z

Man erhält wenig differenzierte Informationen

z

Es Hinweise dafür, dass bei Ja-Nein-Items eine erhöhte Ja-sageTendenz zu beobachten ist (Krosnick, 1999, S. 552)

20

Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 20

(1) Gebundenes Antwortformat z

Mehrfach-Wahlaufgaben:

z

Mehrfach-Wahlaufgaben haben mehr als zwei Antwortalternativen

z

Eine bekannte Art sind Multiple-Choice-Items, die insbesondere zur Erfassung von Wissen und zur Messung der Intelligenz eingesetzt werden

21

Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 21

(1) Gebundenes Antwortformat z

Mehrfach-Wahlaufgaben:

22

Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 22

(1) Gebundenes Antwortformat z

Vorteile der Mehrfach-Wahlaufgaben:

z

Durchführung und Auswertung sind ökonomisch

z

Eine zufällige Beantwortung der Items durch den Probanden ist weniger problematisch, je mehr Antwortalternativen zur Verfügung stehen und wenn darüber hinaus Kombinationen aus mehreren Antwortalternativen die Richtigantwort bilden

23

Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 23

(1) Gebundenes Antwortformat z

Nachteile der Mehrfach-Wahlaufgaben:

z

Antwortalternativen zu finden ist eventuell schwierig, da alle „falschen“ Antwortalternativen gleichwahrscheinlich gewählt werden sollten

z

Nur ein Wiedererkennen von Material oder Wissen wird verlangt, keine Reproduktion

z

Die Antworten können schon Hinweise auf die richtige Lösung enthalten

24

Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 24

(1) Gebundenes Antwortformat z

Zuordnungsaufgaben: z

Bei Zuordnungsaufgaben werden bestimmte Zeichen oder Inhalte anderen Zeichen oder Inhalten zugeordnet

25

Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 25

(1) Gebundenes Antwortformat z

Vorteile der Zuordnungsaufgaben:

z

Durchführung und Auswertung sind ökonomisch

z

Die zufällige Beantwortung ist bei diesem Aufgabentyp unproblematisch

z

Eignet sich auch zur Überprüfung von Wissen

26

Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 26

(1) Gebundenes Antwortformat z

Nachteile der Zuordnungsaufgaben:

z

Antwortalternativen zu finden ist eventuell schwierig, da alle „falschen“ Antwortalternativen gleichwahrscheinlich gewählt werden sollten

z

Statt Reproduktion wird nur Wiedererkennen von Material verlangt, was nicht für alle Konstrukte sinnvoll ist

27

Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 27

(1) Gebundenes Antwortformat z

Umordnungsaufgaben: z

Bei Umordnungsaufgaben müssen vorgegebene Fragmente der Reihenfolge entsprechend sortiert werden

28

Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 28

(1) Gebundenes Antwortformat z

Vorteile der Umordnungsaufgaben: z

z

Dieser Aufgabentyp ist bei Materialbearbeitungstests einsetzbar, beispielsweise beim HAWIE-R (Tewes, 1991)

Nachteile der Umordnungsaufgaben: z

Speziell bei Gruppentestungen muss das Material, falls es sich um Kärtchen oder Ähnliches handelt, in großen Stückzahlen verfügbar sein

z

Das Itemformat ist nur für wenige spezifische Fragestellungen anwendbar 29

Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 29

(2) Allgemeine Probleme gebundener Antwortformate z

Für manche Konstrukte schwierig anzuwenden

z

Absichtliches Fälschen (Simulation und Dissimulation), Raten, Antworttendenzen (Ja-sage oder Nein-sage-Tendenz), Soziale Erwünschtheit, Motivation, Reihenfolgeeffekte

z

Auswirkungen von Verfälschungen: • deutliche Verzerrungen der Skalenwerte

z

Strategien gegen Verfälschung: • Forced-Choice-Items • Spezielle Fragebögen zur Erfassung sozialer Erwünschtheit • Validitätsskalen (z.B. L-, F- und K-Skala im MMPI-II)

30

Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 30

(3) Freie Aufgabenbeantwortung z

Für die Aufgabenbeantwortung werden keine festen Kategorien vorgegeben, sie ist frei oder teilstrukturiert (teilstrukturiert bedeutet, dass Teile der Lösung vorgegeben sind) z

Z.B. Ergänzungsaufgaben, Kurzaufsatz

31

Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 31

(4) Atypische Aufgabenbeantwortung z

Umfasst Antwortformate, die sich den oben erwähnten Kategorien nicht zuordnen lassen z

Z.B. ZVT

32

Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 32

(5) Probleme bei der Formulierung von Fragebogenitems z

Itempolung (Vorsicht bei negativ formulierten Items)

z

Doppelte Verneinung

z

Registrierung von Verhaltenshäufigkeiten (z.B. oft, selten, …)

33

Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 33

(6) Hilfen zur Aufgabenkonstruktion z

Begriffe mit mehreren Bedeutungen sollten vermieden werden

z

Begriffe und Formulierungen vermeiden, die nur einem Teil der Zielgruppe (z.B. nur Akademikern) geläufig sind

34

Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 34

(6) Hilfen zur Aufgabenkonstruktion z

Jedem Item nur einen sachlichen Inhalt / Gedanken zugrunde legen

z

Keine doppelten Verneinungen verwenden, da diese die Verständlichkeit verringern und zu einer längeren Aufgabenbearbeitung führen können

35

Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 35

(6) Hilfen zur Aufgabenkonstruktion z

Verallgemeinerungen vermeiden

z

Umständliche Längen und telegraphische Kürzen vermeiden

36

Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 36

(6) Hilfen zur Aufgabenkonstruktion z

Wichtiges durch Fettdruck oder Unterstreichen oder Ähnlichem hervorheben

z

Der Zeitpunkt bzw. die Zeitspanne, auf die Bezug genommen wird, sollte eindeutig definiert sein

37

Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 37

(7) Erkennen eines Antwortbias z

Antwortbias bezeichnet einen systematischen Fehler im Prozess des Messens

z

Ein systematischer Bias beeinflusst alle Messungen in der gleichen Weise, er hat einen verstärkenden oder mindernden Effekt

z

In der Testtheorie wird ein Item als biasfrei bezeichnet, wenn die Erfolgswahrscheinlichkeit, das Item zu lösen, für alle Personen mit gleicher Fähigkeit und aus derselben Untergruppe (z.B. Geschlecht oder Alter) gleich ist

z

Methoden zum Identifizieren eines Antwort- oder Itembias: z für jedes Item werden die ICC-Kurven für zwei unterschiedliche Stichproben verglichen z Vergleich der Rangreihen der Itemschwierigkeiten in zwei Stichproben 38

Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 38

3.3 Skalenniveau z

Bei der empirischen Überprüfung von Theorien müssen Messmodelle abgeleitet werden, die Theorie und Empirie verknüpfen

z

Ziel ist es,Relationen zwischen Objekten (empirisches Relativ) möglichst exakt in Zahlen (numerisches Relativ) umzusetzen (homomorphe Abbildung)

z

Welche Interpretationen später mit den Testergebnissen möglich sind, hängt von der Ebene (Skalenniveau) ab, auf der gemessen werden konnte

z

Jedes Skalenniveau zeichnet sich durch bestimmte Eigenschaften aus 39

Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 39

3.3 Skalenniveau z Nominalskalenniveau z Antwortformate, die lediglich eine Zuordnung in „wertfreie”

Kategorien verlangen (ja-nein o.Ä.) haben Nominalskalenniveau

z Die Anzahl der Kategorien ist dabei beliebig. Die daraus

resultierenden Daten erlauben nur Aussagen über „Gleichheit / Ungleichheit” bzw. zwischen Anteilswerten (relative Häufigkeiten oder Prozentwerte) -

Im Freiburger Persönlichkeitsinventar, revidierte Form (FPI-R, Fahrenberg, Hampel und Selg, 2002) werden Probanden beispielsweise Aussagen vorgegeben, die mit „nein” (0) oder „ja” (1) beantwortet werden müssen

40

Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 40

3.3 Skalenniveau z

Ordinalskalenniveau z

Daten, die vergleichende Aussagen („größer / kleiner” oder „besser / schlechter” und „gleich / ungleich”) zulassen haben Ordinalskalenniveau (z.B. Schulnoten)

z

Auf Ordinalskalenniveau macht es keinen Sinn, Differenzen zwischen Kategorien zu vergleichen -

Der Leistungsunterschied zwischen den Schulnote „1" und „3" muss nicht dem Leistungsunterschied zwischen den Noten „4" und „6" entsprechen)

41

Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 41

3.3 Skalenniveau z

Intervallskalenniveau z

Daten, die Differenzbildung („A - B = C - D”), Relationen („größer / kleiner” oder „besser / schlechter”) und Aussagen über Unterschiede („Gleichheit / Ungleichheit” ) zulassen, haben Intervallskalenniveau

z

Beispiel: Maßeinheiten wie Zentimeter oder Kilogramm -

Der Unterschied zwischen 20 cm und 10 cm ist exakt der gleiche wie zwischen 90 cm und 80 cm, dieser ist in beiden Fällen genau 10 cm

42

Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 42

3.4 Ermittlung der Itemrohwerte (1)

(2) (3) (4)

(5) (6) (7)

Verteilungen: Maße der zentralen Tendenz und Dispersion Erstellen eines Histogramms mit SPSS Prüfung auf Normalverteilung mit SPSS Beispiel für die Normalverteilungsprüfung mit SPSS Schwierigkeitsanalyse Ermitteln von deskriptiven Statistiken mit SPSS Beispiel für die Durchführung einer Schwierigkeitsanalyse mit SPSS 43

Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 43

3.4 Ermittlung der Itemrohwerte z

Der Probandenrohwert ist der Wert eines Probanden bei der Beantwortung eines einzelnen Items

z

Den über alle Probanden summierten oder gemittelten Probandrohwert nennt man Itemrohwert

z

Mehrere Itemrohwerte können sinnvoll zu Skalen oder Untertestwerten zusammengefasst werden

z

Bei Mehrfachwahlaufgaben kann ein Item auch durch Raten richtig gelöst worden sein, hier kann ein Itemrohwert mit Zufallskorrektur berechnet werden

44

Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 44

(1) Verteilungen: Maße der zentralen Tendenz und Dispersion z

Eigenschaften der Normalverteilung:

– glockenförmiger Verlauf – Symmetrie – zwischen einer (zwei) Standardabweichung(en) links und rechts vom Mittelwert liegen 68 (95) Prozent der Probanden

45

Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 45

(1) Verteilungen: Maße der zentralen Tendenz und Dispersion z

Maße der zentralen Tendenz: - Mittelwert

-

Median

-

Modus/Modalwert

46

Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 46

(1) Verteilungen: Maße der zentralen Tendenz und Dispersion z

Dispersionsmaße: - Varianz

-

Standardabweichung

-

Interquartilabstand

-

Spannweite

47

Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 47

(1) Verteilungen: Maße der zentralen Tendenz und Dispersion -

Schiefe

-

Exzess

z

Schiefe und Exzess (Maß für die Schmal-oder Breitgipfligkeit einer Verteilung) sind wichtig um Verteilungsvoraussetzungen von Items zu prüfen, wenn sie weiteren statistischen Analysen unterzogen werden sollen (z.B. linearen Strukturgleichungsmodellen) 48

Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 48

(2) Erstellen eines Histogramms mit SPSS

49

Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 49

(3) Prüfung auf Normalverteilung mit SPSS

50

Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 50

(4) Beispiel für die Normalverteilungsprüfung mit SPSS - Nullhypothese: Normalverteilung liegt vor - Die asymptotische (= näherungsweise bestimmte) Signifikanz (α) liegt aber im Beispiel in allen Fällen deutlich unter .05 - Die asymptotische (näherungsweise bestimmte) Prüfgröße ist zverteilt, das heißt, ein Wert z > 1.96 bedeutet, dass eine signifikante Abweichung von der Normalverteilung vorliegt

51

Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 51

(5) Schwierigkeitsanalyse z

Bei Ratingskalen wird fast immer der Mittelwert als Schwierigkeitsindex herangezogen, da bei Ratingskalen in der Regel Intervalldatenniveau unterstellt wird

z

In diesem Abschnitt werden daher die folgenden Schwierigkeitsindizes für Nominaldatenniveau behandelt: • • • •

Schwierigkeitsindex ohne Korrektur Schwierigkeitsindex mit Zufallskorrektur Schwierigkeitsindex mit Inangriffnahmekorrektur Schwierigkeitsindex mit Zufallskorrektur und Inangriffnahmekorrektur

52

Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 52

(5) Schwierigkeitsanalyse z

Schwierigkeitsindex ohne Korrektur z

Einsatz beispielsweise bei Persönlichkeitstests, bei denen Raten eine untergeordnete Rolle spielt

z

Ein hoher Prozentwert steht für eine leichte Aufgabe, ein geringer Prozentwert dagegen für eine schwere Aufgabe

53

Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 53

(5) Schwierigkeitsanalyse z

Schwierigkeitsindex mit Zufallskorrektur z

Einsatz vorwiegend bei Leistungstests, bei denen es eine richtige Lösung gibt oder bei Fragebögen, bei denen zufällige Itembeantwortung eine Rolle spielt

54

Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 54

(5) Schwierigkeitsanalyse z

Schwierigkeitsindex mit Inangriffnahmekorrektur z

Einsatz beispielsweise bei Intelligenztests oder bei zeitbegrenzten Niveautests, bei denen nicht alle Aufgaben von allen Probanden gelöst werden

55

Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 55

(5) Schwierigkeitsanalyse z

Schwierigkeitsindex mit Zufallskorrektur und Inangriffnahmekorrektur z

Bei dieser Methode wird sowohl berücksichtigt, dass Probanden geraten haben könnten, als auch die Tatsache, dass manche Probanden Items aufgrund von Zeitmangel nicht bearbeitet haben bzw. die Itembearbeitung begonnen, aber nicht fertiggestellt haben

56

Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 56

(5) Schwierigkeitsanalyse z

Beziehung des Schwierigkeitsindex zu anderen Werten z

Mittlere P-Werte (Schwierigkeiten) bei dichotomen Items erhöhen die Wahrscheinlichkeit für hohe Streuungen der Itembeantwortung und damit eine hohe Differenzierung zwischen den Probanden (=Voraussetzung für hohe Korrelationen)

z

Extreme Schwierigkeiten ermöglichen eine Differenzierung in Randbereichen, führen aber meist zu reduzierter Homogenität und zu reduzierten Trennschärfen

z

Die Standardabweichung einer Aufgabe mit dichotomen Itemformat rechnerisch vom Schwierigkeitsindex ab:

57

Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 57

(6) Ermitteln von deskriptiven Statistiken mit SPSS

58

Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 58

(7) Beispiel für die Durchführung einer Schwierigkeitsanalyse mit SPSS z

Beispiel für ein Item, bei dem die Breite der Antwortkategorien nicht ausgenutzt wurde, d.h. Antwortalternative „0“ wurde von keinem Probanden gewählt 50

40

M =2,65 SD =.974

30

20

10

0 0,0

1,0

2,0

3,0

4,0

N12 „nicht besonder fröhlich"

59

Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 59

(7) Beispiel für die Durchführung einer Schwierigkeitsanalyse mit SPSS z

Beispiel für ein Item, das besonders stark streut, d.h die Probanden unterscheiden sich in der Beantwortung dieser Items sehr

40

M =1,83

30

SD =1,059

20

10

0 0,0

1,0

2,0

3,0

4,0

N22 „gern im Mittelpunkt stehen"

60

Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 60

(7) Beispiel für die Durchführung einer Schwierigkeitsanalyse mit SPSS z

Beispiel für ein Item, das extrem schief verteilt ist

60

50

M =3,13

40

SD =.833

30

20

10

0 0,0

1,0

2,0

3,0

4,0

N17 „gerne mit anderen unterhalten"

61

Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 61

3.5 Trennschärfenanalyse (1) (2)

(3) (4) (5)

Berechnung von Trennschärfen Inhaltliche Erläuterungen zu Trennschärfe und Schwierigkeit Fremdtrennschärfen Berechnung von Trennschärfen mit SPSS Beispiel einer Trennschärfenanalyse

62

Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 62

3.5 Trennschärfenanalyse z

Eine Trennschärfe stellt die korrigierte Korrelation (Part-wholeKorrektur) einer Aufgabe mit einer Skala dar

z

Inhaltlich drückt eine Trennschärfe aus, wie gut ein Item eine Skala, die aus den restlichen Items gebildet wird, widerspiegelt

z

Eigentrennschärfe: Korrelation Item mit Skala; Skala und Item messen das gleiche Kriterium

z

Fremdtrennschärfe: Korrelation Item mit Skalen oder Testwerten andere Fragebögen oder Kriterien

63

Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 63

3.5 Trennschärfenanalyse z

Part-whole-Korrektur: z

Ohne part-whole-Korrektur kommt es zu einer Überschätzung der Trennschärfe, da das betreffende Item selbst Bestandteil der Skala ist

z

Ohne part-whole-Korrektur ginge ein Teil der Skalenstreuung auf das entsprechende Item zurück, mit dem die Skala korreliert wird

z

Je größer die Itemanzahl einer Skala ist, desto geringer sind die Auswirkungen der Korrektur auf die Trennschärfe, denn mit zunehmender Itemzahl wird der Beitrag eines einzelnen Items relativ zum Gesamtskalenwert geringer

z

Je homogener eine Skala ist, desto weniger ändern sich die Trennschärfen durch eine part-whole- Korrektur 64

Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 64

(1) Berechnung von Trennschärfen z

Produkt-Moment-Korrelation als Trennschärfe: z

Folgende Formel wird zur Berechnung der part-wholekorrigierten Trennschärfe zwischen einem intervallskalierten Item („Ich bin ein offener Mensch” trifft zu Ò-Ó-Ô-Õ-Ö trifft nicht zu) und einer intervallskalierten Skala („Extraversion”) herangezogen:

65

Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 65

(1) Berechnung von Trennschärfen z

Punktbiseriale-Korrelation als Trennschärfe: z

Grundlage bildet auch hier die Produkt-Moment-Korrelation, wobei ein dichotomes Item (z.B. Beispiel „Ich gehe gerne aus” Ja-Nein) mit einer in der Regel intervallskalierten Skala (z.B. „Extraversion”) korreliert wird

z

Die entsprechende part-whole-korrigierte Formel lautet:

66

Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 66

(2) Inhaltliche Erläuterungen zu Trennschärfe und Schwierigkeit z

Zusammenhang zwischen Schwierigkeit und Trennschärfe z

Items mit mittlerer Schwierigkeit differenzieren am besten zwischen Probanden, die ein Item lösen (“Löser”), und Probanden, die ein Item nicht lösen (“Nicht-Löser”)

z

Bei dichotomen Items ist die Itemstreuung rechnerisch vollkommen durch die Itemschwierigkeit determiniert

z

Reichen die Itemschwierigkeiten bei intervallskalierten Items an den Rand der Antwortskala, spricht man von Boden- oder Deckeneffekten

z

Beide Effekte haben zur Folge, dass zwischen Individuen mit verschiedenen Merkmalsausprägungen nicht mehr ausreichend differenziert werden kann 67

Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 67

(2) Inhaltliche Erläuterungen zu Trennschärfe und Schwierigkeit z

Beispiel – Zusammenhang zwischen Schwierigkeit und Trennschärfe bei dichtomem Item: z

Item mit mittlerer Schwierigkeit (50 „Löser“ und 50 „Nichtlöser“) ermöglicht 50 x 50 = 2.500 Unterscheidungen zwischen den Probanden

z

Item mit hoher Schwierigkeit (20 „Löser“ und 80 „Nichtlöser“) ermöglicht nur 20 x 80 = 1.600 Unterscheidungen zwischen den Probanden

z

Item mit extrem niedriger Schwierigkeit (95 „Löser“ und 5 „Nichtlöser“) ermöglicht lediglich 95 x 5 = 475 Unterscheidungen zwischen den Probanden

68

Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 68

(2) Inhaltliche Erläuterungen zu Trennschärfe und Schwierigkeit z

Beispiel – Unterschiedliche Trennschärfen bei gleicher Itemschwierigkeit: z

Bildung von zwei Gruppen von Probanden: Eine Gruppe, die das mittelschwere Intelligenztestitems gelöst hat und eine Gruppe, die es nicht gelöst hat

z

Eine sehr gute Trennschärfe liegt vor, wenn jeder Proband aus der Gruppe der „Löser” einen Testwert (z.B. „IQ”) über 100 und jeder Proband aus der Gruppe der Nicht-Löser einen Testwert („IQ”) unter 100 aufweist

z

Eine geringe Trennschärfe liegt vor, wenn in der Gruppe der Probanden mit einem IQ von über 100 geringfügig mehr Probanden das entsprechende Item gelöst oder nicht gelöst haben und dies auch für die Gruppe der Probanden mit einem IQ von unter 100 zutrifft

69

Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 69

(2) Inhaltliche Erläuterungen zu Trennschärfe und Schwierigkeit z

Kombination unterschiedlicher Itemschwierigkeiten mit unterschiedlichen Trennschärfen:

70

Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 70

(2) Inhaltliche Erläuterungen zu Trennschärfe und Schwierigkeit

z

Je steiler der Anstieg der Item Characteristic Curves (ICC), desto größer ist die Trennschärfe

71

Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 71

(2) Inhaltliche Erläuterungen zu Trennschärfe und Schwierigkeit

z

Item A ist ideal trennscharf (p = .50, rit . 1). Nur mit diesem Item alleine ließe sich entscheiden, ob ein Proband beispielsweise unter- oder überdurchschnittlich intelligent ist 72

Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 72

(2) Inhaltliche Erläuterungen zu Trennschärfe und Schwierigkeit

z

Mit Aufgabe I (p = .20, rit . 1) ließe sich entscheiden, ob ein Proband zu den etwa 20 Prozent intelligentesten Probanden (IQ . 113) gehört oder nicht 73

Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 73

(2) Inhaltliche Erläuterungen zu Trennschärfe und Schwierigkeit

z

Item B (p = .50, rit = 0) dagegen ist vollkommen nutzlos, da es Intelligente von Nicht-Intelligenten nicht unterscheidet, obwohl es aufgrund seiner mittleren Schwierigkeit eigentlich gute Voraussetzungen besitzt 74

Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 74

(2) Inhaltliche Erläuterungen zu Trennschärfe und Schwierigkeit

z

Item C wird von keinem Probanden mit einem IQ unter 85 und von allen Probanden mit einem IQ über 115 richtig beantwortet (erkennbar durch das Auftreffen der ICC auf die X1-Achse bzw. X2-Achse), es hat also eine hohe Trennschärfe 75

Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 75

(2) Inhaltliche Erläuterungen zu Trennschärfe und Schwierigkeit

z

z

Das Item D (p = .50, rit . .30) stellt den weitaus häufigsten Fall eines Items mit mittlerer Trennschärfe bei gleichzeitig geringer bis mittlerer Itemschwierigkeit dar Mit Items dieser Art kann man eine Differenzierung entlang der gesamten Testskala erreichen 76

Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 76

(2) Inhaltliche Erläuterungen zu Trennschärfe und Schwierigkeit

z

z

Im Gegensatz zu allen bisherigen Items, wird Item E von den weniger intelligenten Probanden etwas häufiger gelöst als von den intelligenten; es hat folglich eine geringe und negative Trennschärfe Solche Items sind ebenso wie Item B für die Testkonstruktion unbrauchbar

77

Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 77

(2) Inhaltliche Erläuterungen zu Trennschärfe und Schwierigkeit

z

Die Items F und H differenzieren gut, aber nur in extremen Schwierigkeitsbereichen (IQ . 87 und 113)

z

Die Items C, F und H haben zwar die gleiche Trennschärfe (gleicher Anstieg der ICC), aber unterschiedliche Schwierigkeit 78

Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 78

(2) Inhaltliche Erläuterungen zu Trennschärfe und Schwierigkeit

z

Die Items A, B, C, D und E haben die gleiche Schwierigkeit (ICC ́s schneiden sich bei IQ = 100), aber unterschiedliche Trennschärfen (unterschiedlicher Anstieg der ICĆs)

z

Item G hat eine mittlere Trennschärfe (flacher Anstieg der ICC) bei einer Schwierigkeit von p = .20 (p wie bei Item I) 79

Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 79

(2) Inhaltliche Erläuterungen zu Trennschärfe und Schwierigkeit z

Insgesamt differenzieren Tests mit homogen mittelschweren Items am besten bei mittleren Merkmalsausprägungen

z

Da bei mittlerer Itemschwierigkeit die Wahrscheinlichkeit für hohe Trennschärfen ansteigt, ist für solche Skalen auch eine höhere Reliabilität zu erwarten

z

Um auch in Randbereichen eines Merkmalsbereichs zu differenzieren, muss die Skala auch extremere Schwierigkeitsbereiche mit Items abdecken

z

Meist erreichen Items mit extremen Schwierigkeiten geringere Trennschärfen als mittelschwere Items. Dies reduziert die Itemhomogenität und daher sind für solche Skalen nicht ganz so hohe Reliabilitäten wie für Skalen mit ausschließlich mittelschweren Items zu erwarten 80

Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 80

(3) Fremdtrennschärfen z

Von Fremdtrennschärfen wird gesprochen, wenn eine Korrelation zwischen einem Item und einem Kriteriumswert erhoben wird

z

Es werden nur die Items ausgewählt, die hoch mit dem Kriterium korrelieren, die restlichen Items werden ausgesondert

z

Fremdtrennschärfen maximieren damit die Kriteriums-Validität eines Tests, während Eigentrennschärfen die Homogenität eines Tests maximieren

81

Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 81

(3) Fremdtrennschärfen z

Beispiel: Itemauswahl durch Analyse der Fremdtrennschärfe z

Mit einem Eignungstest wurden Bewerber für eine betriebliche Ausbildung ausgewählt und dann wurde zwei Jahre später die Leistung im Abschlusstest (erzielte Punkte) gemessen

z

Die Abbildung zeigt die Korrelation der einzelnen Testitems im Eingangstest mit der Gesamtpunktzahl im Abschlusstest (= Kriterium für Ausbildungserfolg)

82

Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 82

(3) Fremdtrennschärfen z

Insbesondere die Items 18 und 19 sind besonders gut geeignet, die Leistung im Abschlusstest vorherzusagen, da sie hoch mit den Punkten im Abschlusstest korrelieren

z

Lediglich auf Item 3 würde man wahrscheinlich verzichten, da es eine extrem geringe Fremdtrennschärfe aufweist

83

Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 83

(4) Berechnung von Trennschärfen mit SPSS

84

Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 84

(5) Beispiel einer Trennschärfeanalyse z

Führt man eine Trennschärfeanalyse wie oben beschrieben durch, erhält man die folgende SPSS-Ausgabe

85

Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 85

(5) Beispiel einer Trennschärfeanalyse

z z

Die Itemschwierigkeit variiert von 1.68 bis 3.13 Es werden etwa 29 Prozent (Range: 3.13 - 1.68 = 1.44) der theoretisch möglichen Breite der 5-stufigen Antwortskala ausgeschöpft, dabei zu einem größeren Anteil die rechte Skalenhälfte (Zustimmung)

86

Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 86

(5) Beispiel einer Trennschärfeanalyse

z

Die Itemstreuungen bewegen sich in einem Bereich von .82 bis 1.08

87

Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 87

(5) Beispiel einer Trennschärfeanalyse

z z

Item N47 weist eine sehr geringe Trennschärfe („Corrected item total correlation”) auf Diese geringe Trennschärfe wirkt sich auch auf die Messgenauigkeit der Skala („Alpha”) negativ aus: Das Cronbachalpha steigt an, wenn man das Item nicht in die Itemanalyse aufnehmen würde („alpha if item deleted”) 88

Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 88

(5) Beispiel einer Trennschärfeanalyse z

Allerdings sollten die Itemtrennschärfen immer im Zusammenhang mit der Itemschwierigkeit betrachtet werden

89

Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 89

(5) Beispiel einer Trennschärfeanalyse

z

Bei den Items N47, N7 und N17 handelt es sich um Items mit extremer Schwierigkeit, da sie an den Endpunkten der Schwierigkeitsverteilung liegen 90

Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 90

(5) Beispiel einer Trennschärfeanalyse

z

N37, N52 und N12 sind mindestens genauso weit oder weiter als das Item N47 von der Skalenmitte (bezüglich der Schwierigkeit der Items) entfernt und weisen somit einen mindestens vergleichbaren Schwierigkeitsgrad bei höherer Trennschärfe auf 91

Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 91

(5) Beispiel einer Trennschärfeanalyse

z

das Item N47 ist als einziges Item linkssteil verteilt, während die Items N37, N52 und N12 rechtssteil verteilt sind (ähnlich wie die anderen Items der Skala) 92

Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 92

(5) Beispiel einer Trennschärfeanalyse

z z

Die andersartige Verteilung oder die geringe Itemschwierigkeit des Items N47 können ein Grund für seine geringe Trennschärfe sein Auch für Items mit extremen Schwierigkeiten sind relativ hohe Trennschärfen möglich, wie die Trennschärfe des Items N17 zeigt93

Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 93

(5) Beispiel einer Trennschärfeanalyse z

Auch eine Betrachtung der Itemstreuung im Zusammenhang mit der Itemschwierigkeit ist sinnvoll

94

Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 94

(5) Beispiel einer Trennschärfeanalyse

z z

Mittelschwere Items weisen in der Regel die höchsten Streuungen auf Bei extremen Schwierigkeiten (geringe oder hohe) nimmt dagegen die Wahrscheinlichkeit für eine hohe Streuungen ab 95

Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 95

(5) Beispiel einer Trennschärfeanalyse

z z

Items, deren Itemschwierigkeit unter der Skalenmitte liegen, kommen in diesem Beispiel fast nicht vor Für solche Items ist die Wahrscheinlichkeit hoch, dass die Itemstreuungen umso geringer ausfallen, je weiter die Itemschwierigkeit nach rechts von der Mittelkategorie abweicht

96

Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 96

(5) Beispiel einer Trennschärfeanalyse z

Im Folgenden wird der Zusammenhang zwischen Streuung und Trennschärfe betrachtet

97

Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 97

(5) Beispiel einer Trennschärfeanalyse

z

Es lässt sich im Beispiel kein positiver Zusammenhang zwischen Streuung und Trennschärfe finden (je höher die Streuung, desto höher die Trennschärfe: Im Idealfall liegen die Punkte auf einer Geraden von links unten nach rechts oben) 98

Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 98

(5) Beispiel einer Trennschärfeanalyse

z

z

Items mit einer hohen Streuung korrelieren mit höherer Wahrscheinlichkeit mit den anderen Items oder Kriterien als Items, in denen sich Probanden mit geringer Streuung Dies trifft nur dann zu, wenn es sich um systematische und nicht um zufällige (durch Messfehler bedingte) Streuungen handelt 99

Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 99

(5) Beispiel einer Trennschärfeanalyse

z z

Die Streuung des Items N47 fällt im Vergleich zu anderen höher aus, jedoch die Trennschärfe ist gering Das heißt, dass sich die Antworten der Probanden auf Item N47 zwar stark unterscheiden, diese Unterscheidungen fallen aber nur in einem geringen Maße im Sinne der Erwartung aus 100

Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 100

(5) Beispiel einer Trennschärfeanalyse

z z

Die Streuung des Items N17 im Vergleich zu den anderen Items ist geringer, aber die Trennschärfe dennoch hoch Das heißt, dass sich die Antworten der Probanden auf Item N17 nicht stark unterscheiden, diese Unterscheidungen aber im Sinne der Erwartung ausfallen 101

Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 101

(5) Beispiel einer Trennschärfeanalyse

z z

Item N2 weist im Vergleich zu den anderen Items eine relativ hohe Streuung und eine hohe Trennschärfe auf Je höher die Ausprägungen der Probanden auf Item N2 sind, desto höher fallen auch die Ausprägungen auf den restlichen Items der Skala aus

102

Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 102

(5) Beispiel einer Trennschärfeanalyse z

Eine weitere nützliche Betrachtungsweise der Items besteht darin, auf Itemstufen eines Items die Mittelwerte der restlichen Items einer Skala abzubilden z

Beispiel:Die Probanden, die auf dem Item N47 eine geringe Ausprägung aufweisen, sollten auch auf allen anderen Items der Skala „Extraversion” eine niedrige Ausprägung aufweisen

z

Das heißt, betrachtet man die Probanden, die Item N47 mit „starker Ablehnung” beantwortet haben, sollten diese einen niedrigeren Skalenwert „Extraversion” aufweisen als Probanden, die Item N47 mit „Ablehnung” beantwortet haben

103

Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 103

(5) Beispiel einer Trennschärfeanalyse

z

Dazu erstellt man einen Boxplot, das die Summenwerte (ohne Item 47) der Skala „Extraversion“ auf den Itemabstufungen des Items 47 abbildet 104

Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 104

(5) Beispiel einer Trennschärfeanalyse

z z

Mit zunehmender Ausprägung auf dem jeweiligen Item steigt die Ausprägung auf den restlichen Items nicht an Genau diese Annahme müsste man aber treffen, wenn ein Item hoch mit der Skala korreliert 105

Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 105

(5) Beispiel einer Trennschärfeanalyse

z z

Dieses Beispiel zeigt den gleichen Boxplot für ein trennscharfes Item Es lässt sich erkennen, dass mit zunehmender Itemausprägung auch die Ausprägung auf der Skala „Extraversion” ansteigt

106

Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 106