Zusammenfassung. 1. Die Grundlage: Wissen messen mit Kognitiven Wissenskarten

Formative Lernunterstützung mit Kognitiven Wissenskarten: Ein innovatives Messverfahren im Härtetest. Roland Streule & Damian Läge (Universität Zürich...
Author: Lieselotte Mann
4 downloads 0 Views 210KB Size
Formative Lernunterstützung mit Kognitiven Wissenskarten: Ein innovatives Messverfahren im Härtetest. Roland Streule & Damian Läge (Universität Zürich) Streule, R. & Läge, D. (2010). Formative Lernunterstützung mit Kognitiven Wissenskarten. Ein innovatives Messverfahren im Härtetest. Zeitschrift für E-Learning, 5(1), 50-61.

Zusammenfassung Der vorliegende Beitrag beschäftigt sich mit der empirischen Analyse der Güte einer neuartigen Form der Messung von merkmalsbezogenem Sachwissen, welche mit Kognitiven Wissenskarten individuelle, relationale Wissensstrukturen einer Person sichtbar, für eine weitergehende, qualitative und quantitative Beurteilung und schließlich für den praktischen Einsatz in Tutoriellen Systemen zugänglich und didaktisch nutzbar macht. Aufbauend auf der implementierten und empirisch auf dessen Güte hin getesteten Verfahrenslogik (Simulation und Experiment) lassen sich Empfehlungen und Rahmenbedingungen für den Einsatz in technologiegestützten Adaptiven Tutoriellen Systemen (ATS) ableiten mit dem Ziel, formativ individualisiertes Lernen in selbstgesteuerten Lernsettings zu unterstützen und so einen weiteren innovativen Schritt in Richtung lernfördernden E-AssessmentVerfahren zu tätigen.

1. Die Grundlage: Wissen messen mit Kognitiven Wissenskarten 1.1 Theoretische Grundlagen der Wissensmodellierung Gängige und im Prüfungsalltag häufig verwendete Messformen zur vergleichenden Überprüfung von individuellen Leistungen wie Multiple Choice oder Single Choice lassen, sind sie in ihrer Ausarbeitung auf reproduktives Testen ausgerichtet, ein zentrales Faktum menschlicher Kognition außer Acht: Elemente unseres Wissens existieren nicht einfach unverbunden nebeneinander, sondern bilden zusammen ein Ganzes. Diese alte Erkenntnis der Piaget’schen Tradition (Piaget, 1973, 1976, 2001; vgl. Aebli 1976; Montada, 1995; Ausubel, 2000) hat die Wissenspsychologie seit ihrer Wiederbegründung als eigenständiger Forschungszweig (Mandl & Spada, 1988) in ihren neueren Entwicklungen aufgenommen. Die modernen Modelle der Wissensmodellierung zeichnen sich daher durch einen Systemgedanken aus. Unter Rückgriff auf Konzeptionen eines Semantischen Netzwerkes (z.B. Quillian, 1968) wurde die relationale Facette von Sachwissen aufgegriffen und mit MappingTechniken abgebildet. Damit tragen solche Modelle dem Umstand Rechnung, dass sich Wissensstrukturen durch Differenziertheit, (subjektive wahrgenommene) Vollständigkeit und Komplexität auszeichnen, also weit über eine einfache Anhäufung unverbundener Fakten hinausgehen (Mandl & Fischer 2000). Dabei bedienen sich die Mapping-Techniken vorwiegend graphischen Verfahren in der Datenerhebung zur Abbildung und Bewertung von Begriffsnetzwerken. Besonders deutlich wird dies in der Heidelberger Strukturlegetechnik (Scheele & Groeben, 1984) und der darauf aufbauenden Mannheimer Netzwerk-Elaborierungs-Technik (Eckert, 1998, 1999, 2000), aber auch im Concept Mapping Software Tool (COMASOTO) zur Diagnose strukturellen Wissens (Weber & Schumann, 2000) und der Knowledge-Tracking-Methode von Janetzko & Strube (2000). Solchen Ansätzen ist gemeinsam, dass die Wissensnetzwerke durch die Verwendung von Objekten und deren semantischen Relationen technologiegestützt erhoben, deskriptiv abgebildet und (zumindest teilweise) automatisiert bewertet werden können. Sie eignen sich damit zumindest prinzipiell für den Einsatz als „E-Assessment“-Werkzeug. Die Herausforderung, derer sich der Assessierte zu stellen hat, ist dabei recht anspruchsvoll: Er muss die (möglicherweise sehr komplexen) Relationen, die er zwischen Objekten sieht, in der vorgegeben „Relations-Sprache“ des Systems rekonstruieren. Das setzt einen hohen Grad an Elaboration voraus, weswegen bereits in der Heidelberger Strukturlegetechnik dieser Prozess sequentialisiert und 1

tutoriell begleitet wurde. Sowohl für sehr komplexes als auch für dürftig verankertes Wissen stellt diese Anforderung deswegen aus nachvollziehbaren Gründen schnell eine Überforderung dar. 1.2 Methodische Grundlagen zur Wissensabbildung und -bewertung Im Folgenden wird deswegen ein alternativer Weg vorgestellt, der die Relationen erst durch die Auswertung darstellt und dem Assessierten lediglich die Aufgabe auferlegt, allgemeine paarweise Ähnlichkeitseindrücke zwischen den interessierenden Objekten auf einer einfachen quantitativen Skala wiederzugeben, um merkmalbezogenes Sachwissen zu erheben. Mit der Kennzeichnung des Ähnlichkeitsurteils als Pauschalwert für einen Merkmalsvergleich stehen wir auf dem Boden gedächtnispsychologischer Modelle, wie sie etwa in der Tradition von Smith, Shoben & Rips (1974) zur Erklärung von Prozessen der Objekt-Kategorie-Identifikation grundgelegt wurden. Auch wir begreifen ein Ähnlichkeitsurteil als das Resultat einer mehr oder minder automatisiert ablaufenden Berücksichtigung verschiedener Merkmale und deren Ausprägungsunterschiede bei den zu beurteilenden Objekten (Tversky, 1977; Tversky & Gati, 1982). Anzahl und Gewichtung herangezogener Merkmale können dabei extrem variieren, je nach Kenntnisstand und kognitivem Stil einer Person (vgl. Läge& Daub, 2008, die die Einbettung in die oben vorgenommene Positionierung innerhalb der Gedächtnispsychologie empirisch begründen und gleichzeitig eine klare Abgrenzung von holistischen assoziativen Prozessen vornehmen). Das Verfahren der Ähnlichkeitsurteile hat sich als verhältnismäßig expertiseunabhängiges Messinstrument erwiesen (vgl. Klauer, 1989): Bereits mit wenigen Informationen sind wir Menschen in der Lage, ein ungefähres Urteil über die Ähnlichkeit zweier Dinge oder Personen abzugeben (z.B. auf einer neunstufigen Skala, auf der „1“ für die geringste und „9“ für die höchste Ähnlichkeit steht). Dabei unterscheiden wir wichtige von unwichtigen Merkmalen und bringen die verbleibenden wichtigen Merkmale in eine wohlproportionierte Relation zueinander. Laien sind dazu genauso in der Lage wie Experten, wobei das Urteil natürlich beim Experten qualitativ besser, d.h. sachadäquater im Vergleich zu einer Norm ausfallen sollte. Dabei teilen Ähnlichkeitsurteile mit Mapping-Techniken gegenüber reinen Abfragelisten den Vorteil, dass sie relationale Gefüge, Integration und Elaboration (Gewichtungen, kategoriale Strukturierung, Hierarchisierungen usw.) der Wissensstruktur messen. Aus den angegebenen Ähnlichkeitsurteilen die Struktur zu konstruieren, muss dann aber der Auswertealgorithmik obliegen. Ein dazu geeignetes Verfahren ist die Nonmetrische Multidimensionale Skalierung (Shepard, 1962, Kruskal, 1994 a, b. Das Verfahren ist außerdem anwendungsorientiert bei Borg & Groenen, 1997 und mathematisch grundlegender bei Mathar, 1997 beschrieben), die eine Matrix paarweiser Ähnlichkeitsurteile in geometrische Distanzwerte zwischen den beteiligten Objekten transformiert und so eine „Wissenskarte“ erzeugt. (Konkrete „Wissensbeispiele“ finden sich bei Egli, Schlatter, Streule & Läge, 2006 oder Läge, 2001). Um die mit der niedrigen Strukturanforderung an den Assessierten verbundenen zu erwartenden Inkonsistenzen in den Ähnlichkeitsdaten möglichst gut parieren zu können, verwendet man dazu einen robusten NMDS-Algorithmus (im Folgenden den RobuScal-Algorithmus; Läge, Ryf, Daub & Jäger, 2008).

2

Störung durch Alkohol, Entzugssyndrom Bulimia nervosa Störung durch multiplen Substanzgebrauch und Konsum sonst. psychotr. Subst., Abhängigkeitssyndrom

bipolare af f ektive Störung, gegenwärtig manische Episode, ohne psychotische Symptome

schizomanische Störung

Anorexia nervosa

Störung durch Kokain, psychotische Störung

nicht organische Insomnie

emotional instabile Persönlichkeitsstörung paranoide Schizophrenie

organische wahnhaf te (schizophrenif orme) Störung

hebephrene Schizophrenie

Angst und depressive Störung, gemischt paranoide Persönlichkeitsstörung Anpassungsstörung

organische Persönlichkeitsstörung

Dysthymia

schwere depressive Episode ohne psychotische Symptome

andauernde Persönlichkeitsänderung nach Extrembelastung

Agoraphobie

Demenz bei AlzheimerKrankheit mit spätem Beginn

AvgLoss: 0.36

Abbildung 1: Ergebnis einer Prokrustes-Transformation zwischen der Wissenskarte einer Person (graue Punkte) und einer Norm-/Expertenkarte (schwarze Punkte) im Wissensgebiet „Psychische Störungen“. Die Gesamtabweichung beträgt in diesem Beispiel AverageLoss = 0.36.

So resultierende individuelle „Landkarten“ können durch Prokrustes-Transformation mit einem Expertenmodell verglichen werden (Gower & Dijksterhuis, 2004; Läge, 2009). Bereits ohne großen mathematischen Aufwand springt beim Vergleich ins Auge, welche Objekte ein Lerner gut kennt (d.h. korrekt verortet) und welche er falsch platziert (Abbildung 1). Die Abweichungen in den Objektkonfigurationen lassen sich aber auch mathematisch quantifizieren und so einer automatisierten Auswertung zugänglich machen. Läge (2009) beschreibt als Gesamtabweichungsmaß zweier NMDS-Karten den AverageLoss, welcher den mittleren Wert aller einzelner Objektabweichungen (ObjectLoss) darstellt. Diese formalisierte Abweichung der Positionen erlaubt einen Rückschluss auf die individuelle Wissensqualität in dem Sinne, dass ein hoher ObjectLoss zweier korrespondierender Objekte auf mangelhaftes Wissen hindeutet (in Abbildung 1 bspw. Wissen über „Demenz bei Alzheimer-Krankheit“ oder „schizomanische Störung“) und ein geringer ObjectLoss gutes Wissen vermuten lässt (ebd. Wissen über „Anpassungsstörung“ oder „Störung durch Alkohol: Entzugssyndrom“).

2. Die Güte: Möglichkeiten und Grenzen von Kognitiven Wissenskarten Die Reliabilität des Verfahrensmodells der NMDS wurde in mehreren kontrollierten Lernexperimenten nachgewiesen. Wiederholte Erhebungen der kognitiven Wissensstrukturierung von Personen bei gleichem Wissensstand (sowohl Expertenwissen als auch Laienwissen) zeigten nur geringfügige und durch den Zufall erklärbare Abweichungen (vgl. Läge, 2001 und Streule, 2007). Um den Einsatz dieses Messverfahrens in elektronisch unterstützten Test- und Assessmentverfahren rechtfertigen zu können, ist darüber hinaus eine systematische Kriteriumsvalidierung zu erbringen. Im Folgenden werden darum die Resultate aus einer empirischen Simulation und einem systematischen Lernexperiment vorgestellt, welche beide das Ziel hatten, mangelhaftes Wissen in einer Wissensstruktur auf Objektebene alleine anhand der Höhe des ObjectLoss zu detektieren (für schlecht gewusste Objekte muss der ObjectLoss systematisch größer ausfallen als für gut gewusste 3

Objekte) und die Messgenauigkeit zu bestimmen. (Die Daten und Auswertungen sind detailliert im Forschungsbericht von Streule, Rüfenacht & Läge, 2009 nachzulesen). Kritische Variable dabei ist der Umfang des Wissensstandes einer Person. Verfügt eine Person über gar kein oder nur sehr wenig adäquates Wissen in einem Objektbereich, sind Wissenskarten ohne systematische Beziehungen zum Expertenmodell zu erwarten. Entsprechend würde ein Kartenvergleich über Prokrustes-Transformation eine zufällige Ordnung der ObjectLosses ergeben. Gefordert wird also ein Minimum an Struktur in der individuellen Wissenskarte, um systematisch Nicht-Wissen von Wissen zu unterscheiden. Es gilt also, in einem ersten Schritt die kritische Masse im Wissensstand auszuloten, ab der eine Diagnostik mit Wissenskarten sinnvoll wird. 2.1 Simulationsstudie 2.1.1. Methode Eine Simulationsstudie greift dazu objektbezogenes Merkmalswissen im Feld der Geographie auf (Staaten; charakterisiert über Einwohnerzahl, Fläche und Bruttosozialprodukt) und produziert mit klar definiertem Anteil von korrektem Wissen und Fehlwissen Ähnlichkeitsurteile zwischen den Staaten. Die Ähnlichkeitsurteile werden dabei über die additive Verrechnung der unterschiedlichen Ausprägungen zweier Staaten auf den drei Merkmalsdimensionen bestimmt und schließlich mittels robuster NMDS in Wissenskarten überführt. Der prokrustes-basierte Vergleich mit einer Normwissenskarte resultiert in der Vorhersage der Wissensgüte. Diese Vorhersage wiederum lässt sich mit dem in den Prozess eingeschleusten Wissen vergleichen, was eine exakte Messung der Vorhersagegüte ermöglicht. Auf diese Weise lässt sich zudem exakt bestimmen, bei wie vielen schlecht gewussten Ländern die Vorhersagegenauigkeit des ObjectLoss mangels vernünftiger relationaler Struktur nicht mehr als ausreichend bezeichnet werden kann. Systematisch simuliert wird dabei nicht nur das Verhältnis zwischen Wissen und Nicht-Wissen (angefangen von komplettem Nicht-Wissen bis zu vollständig korrektem Wissen), sondern auch unterschiedliche Objektmengen (12, 14, 16, 20, 24, 36 Objekte). Inkorrektes Wissen wird durch zufällige Veränderung aller Matrixwerte (Ähnlichkeitsurteile) eines betreffenden Objekts realisiert. Weiß eine Person nichts über ein Objekt, so muss sie raten oder stützt sich auf irrelevante Außenkriterien, was zu inkorrektem und inkonsistenten Urteilen führt (mit zufälligen Werten simuliert). In jedem Simulationsdurchgang wurden die Matrixwerte sequentiell verändert, zunächst für ein einzelnes Objekt, dann für ein zweites, ein drittes usw., bis die gesamte Matrix verfremdet war. 2.1.2. Resultate Als Kriterium zur Einordnung der Größe der Unterschiede für Gewährleistung tauglicher Vorhersagen zwischen den ObjectLoss Werte gewusster und nicht-gewusster Objekte wurde neben Signifikanz der Mittelwertsunterschiede (über einseitigen t-Test) auch eine Effektstärke von d > 0.8 angesetzt (= untere Grenze für einen hohen Effekt, vgl. Cohen, 1988, 1992). Dies ist bei 12 und bei 14 skalierten Objekten der Fall, solange nicht mehr als 4 bis 5 Länder als nicht-gewusst gesetzt wurden. Für 16 Objekte dürfen 6 Länder nicht-gewusst sein, für 20 Objekte 8 Länder, für 24 Objekte 11 Länder und für 36 Objekte 16 Länder. Diese Zahlenverhältnisse pendeln also um einen Gesamtwert von ca. 40% nicht-gewusster Länder, die für das vorgeschlagene Verfahren das technische Maximum darstellt, um in der Praxis brauchbar zu sein.

4

100%

Falsch-Alarm-Rate gewusst (%)

12

14

16

20

24

36

75%

50%

25%

0% 1

2

3

4

5

6

7

8

9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34

Anzahl nicht-gewusster Länder

Abbildung 2: Falsch-Alarm-Rate der bekannten Objekte beim Kriterium einer Sensitivität von 75% für die nichtgewussten Objekte in der Simulation. Die gestrichelte Linie steht für das Kriterium von 25% falscher Vorhersagen bei bekannten Objekten. Abgebildet sind die Resultate aus jeweils 100 Simulationsdurchgängen bei unterschiedlichen Objektmengen („Kartengrößen“) in den Wissenskarten von 12, 14, 16, 20, 24 und 36 Wissensobjekten.

Beim automatisierten Einsatz in einem Intelligenten Tutoriellen System oder für die Nutzung im formativen E-Assessment besteht die Aufgabe darin, möglichst viele nicht-gewusste Objekte zu detektieren, ohne dabei allzu häufig „falschen Alarm“ auszulösen. Da formative tutorielle Ansätze in der Regel in zyklischen Schleifen ihre Unterstützung anbieten, bedarf es bei der Diagnostik aber keiner Sensitivität von 100%: Was beim ersten Mal nicht erfasst wurde, kann auch später noch in die tutorielle Maßnahme einfließen. Aus diesem Grund wird für die Abbildung 2 präsentierte Analyse eine Sensitivität von 75% zugrunde gelegt. Legen wir das praktische Brauchbarkeitskriterium für die Falsch-Alarm-Rate auf 25%, dann zeigt sich, dass bei einem Gesamtumfang von 12 und 14 Objekten bereits bei drei nicht-gewussten Ländern mehr als 25% der gewussten Länder (also 3 von 9 respektive 11) ebenfalls als nicht-gewusst diagnostiziert werden. Bei 16 Objekten ist die Grenze bei 6 Objekten überschritten, bei 20 Objekten bei 8 Ländern, bei 24 Objekten bei 10 und bei 36 Objekten bei 14 Ländern: Bei Karten einer Größe von 16 oder mehr Objekten wird ab 40% nicht-gewusster Länder die Falsch-Alarm-Rate zu hoch, als dass das Verfahren hinlänglich gute automatisierte Vorhersagen für den Wissensstand zu Objekten zu geben in der Lage wäre. 2.2. Empirisches Lernexperiment 2.2.1. Methode Eine Simulation hat den Vorteil, systematisch die Kernaspekte beleuchten zu können. Sie bedarf aber – gerade im Bereich der Psychologie – zusätzlich des Experiments, um die Breite aller Einflussfaktoren mit zu berücksichtigen, hier vor allem die der Wissensintegration und der Auswirkung auf die Ähnlichkeitsurteile. Wissensgebiet eines systematischen Lernexperiments bildet das Fachgebiet Ornithologie mit einer Auswahl an Singvögeln, welche über die Merkmalsdimensionen Aussehen, Familienzugehörigkeit, Habitat, Nahrung, Schnabelform, Nistplatz und Gesang gekennzeichnet sind. Die Versuchspersonen, Laien im Bereich der Ornithologie, hatten die Aufgabe, sich in einem mehrstufigen Lernexperiment einer zuvor mithilfe von Ornithologen erstellten Wissensnorm Objekt für Objekt anzunähern. Dabei wurden jeweils das aktuelle Faktenwissen (Multiple Choice) und das relationale Wissen (Ähnlichkeitsurteile) gemessen. Die Versuchspersonen (n=16) lernten zu Beginn des Experiments die Merkmalsinformation zu 10 Singvögeln (aus dem Gesamtpool von 20 Vögeln), bis sie sowohl auf der Basis des deklarativen 5

Faktenwissens (gemessen über Multiple Choice) als auch in Bezug auf die strukturelle Verarbeitung (gemessen über NMDS-Wissenskarten) annähernden Expertenstatus erreichten. Dies entspricht einem Anteil nicht-gewusster Objekte von 50% und liegt unterhalb des durch die Simulation minimal detektierten Vorwissensniveaus. Anschließend sollten sich die Versuchspersonen in mehrstufigen Lernphasen der Expertenkarte Objekt für Objekt annähern (insgesamt 5 Lernphasen mit je zwei neuen Objekten). Das über Ähnlichkeitsurteile überprüfte Wissen dieser total 6 Wissensstufen (10, 12, 14, 16, 18 und 20 Objekte bekannt) ermöglicht wiederum die Überprüfung, inwieweit gewusste und nicht-gewusste Objekte vom System detektiert werden können. 2.2.2. Resultate Auch im Lernexperiment zeigt sich, dass das Verfahren rein auf der Basis der Objektabweichungen zwischen Lerner- und Normwissenskarte Abschätzungen über die Güte des Wissens einer Person erlaubt: Die Sensitivität ist jeweils deutlich höher als die Falsch-Alarm-Rate, was bei Basisraten >50% ein klares Indiz ist. Im Experiment zeigte sich dabei ein interessanter Effekt, welchen man in einer Simulation kaum finden kann: Die Nachtigall wurde von den Versuchspersonen recht spät gelernt (erst im letzten Durchgang), aber sie konnte trotzdem fast von allen Personen bereits ab Beginn korrekt durch die Ähnlichkeitsurteile in der Struktur verortet werden – und das, ohne dass die Personen im Multiple Choice-Wissenstest eine erhöhte Trefferzahl gehabt hätten! Hier markiert das auf der ProkrustesTransformation basierende Verfahren also ein Objekt wegen der intuitiv richtigen Einschätzung durchgängig als „gewusst“, obwohl es noch gar nicht gelernt wurde.

Falsch-Alarm-Rate gewusst (%)

100%

75%

56% 51% 50%

44%

41%

23%

25%

0% 9 nicht-gewusst

7 nicht-gewusst

5 nicht-gewusst

3 nicht-gewusst

1 nicht-gewusst

10 gewusst

12 gewusst

14 gewusst

16 gewusst

18 gewusst

Abbildung 3: Falsch-Alarm-Rate der bekannten Objekte bei einer Sensitivität von 75% der nicht-gewussten Objekte im Lernexperiment. Analyse ohne Nachtigall.

Abbildung 3 zeigt die Analyse der Falsch-Alarm-Raten bei einer als hinreichend erachteten Sensitivität von 75% für die nicht-gewussten Objekte (ohne die bereits besprochene Nachtigall, also mit 19 Objekten). Als „nicht-gewusst“ wurden dabei immer diejenigen Objekte mit dem höchsten ObjectLoss in den individuellen Lernerkarten klassifiziert. Bei 10 und bei 12 gelernten Vogelarten liegt die Falsch-Alarm-Rate noch über 50%, ist also zu hoch, als dass das Verfahren mit diesem Anteil von Vorwissen als praxistauglich eingestuft werden könnte. Bei 14 gelernten Objekten (also 70%) hingegen beginnt das Verfahren zu greifen. Der notwendige Vorwissensanteil liegt somit leicht höher 6

als in der Simulationsstudie, welche mit optimalen theoretischen Annahmen hinsichtlich des Lernerverhaltens operierte. Dass die Falsch-Alarm-Rate zum Schluss wieder ansteigt, ist ein rein statistischer Effekt: Hier wird ja nur noch das eine Objekt mit dem höchsten ObjectLoss als nicht-gewusst klassifiziert. In der Mehrzahl der Fälle ist das auch das noch nicht gelernte Objekt, aber es kommt eben auch häufig vor, dass eine der 18 anderen Vogelarten einen höheren ObjectLoss aufweist. Aufgrund der stark asymmetrischen Basisrate zeigt sich somit also in diesem Effekt das andere Ende der Begrenzung des Verfahrens: Wenn die Prokrustes-Transformation nur noch ein einziges Objekt herausfischen soll, ist die Wahrscheinlichkeit für einen Fehlgriff eben doch sehr hoch. 2.3. Diskussion von Simulationsstudie und Lernexperiment Die Einordnung der Resultate aus Simulation und Experiment deuten darauf hin, dass das Diagnoseverfahren seine grundsätzliche Funktionsfähigkeit unter Beweis gestellt hat. Allerdings sind erst dann valide Messungen zu erwarten, wenn ein gewisses Maß an korrekt integriertem Vorwissen vorhanden ist. Die Grenze von 60-70% korrektem Vorwissen stellt die minimale Anforderung dar, um akzeptable Prognosen erwarten zu können. Im Lernexperiment wird diese Grenze vermutlich eher zu hoch geschätzt, denn es wurde ja die optimistische Annahme gemacht, dass ein Lerner ein Objekt kennt, nachdem er die Merkmalsinformation dazu gelernt hat. Eine kontrollierte Überprüfung dieser Annahme hätte über den deklarativen Wissenstest mittels Multiple Choice nach jedem Lerndurchgang durchgeführt werden müssen, was sich in der experimentellen Praxis für die Lerner aufgrund des hohen Diagnoseaufwandes als nicht zumutbar erwies. Man muss also davon ausgehen, dass in der Auswertung so manches als bekannt deklarierte und damit der Falsch-Alarm-Rate zugeordnete Objekt in Tat und Wahrheit dem Merkmalswissen nach noch nicht hinlänglich gewusst war. Zu berücksichtigen gilt es bezogen auf das Lernexperiment außerdem die Stichprobengröße von n=16. Diese erfüllt zwar die statistischen Voraussetzungskriterien für die eingesetzten inferenzstatistischen Verfahren, dennoch bietet sich eine Replikation der Studie zwecks Erhöhung der Reliabilität und Validität der Schlussfolgerungen an.

3. Der Einsatz: formatives Assessment zur Gewährleistung von Adaptivität in Tutoriellen Systemen Der für valide Vorhersagen notwendige Grad an Vorwissen (60-70%) mag auf den ersten Blick erstaunen und den Einsatzbereich der Diagnostikmethode vermeintlich schmälern. Grundlage des Erstaunens ist dann aber die Annahme, dass Leistungsbeurteilung zwingend den gesamten Bereich von totalem Unwissen bis zu perfektem Wissen abdecken muss. Leistungsbeurteilung kann aber auch den Lernprozess zielführend begleiten und unterstützen, indem in wiederkehrenden Schlaufen aktuelle Mängel erkannt und damit individualisierter Unterricht gewährleistet werden kann. Hier setzt die Diagnose sinnvollerweise erst dann ein, wenn eine Person das Wissensgebiet einmal komplett durchgearbeitet hat. Im Folgenden möchten wir vor allem auf einen solchen Fall eingehen. 3.1. Adaptivität Das vorgeschlagene Verfahren der relationalen Wissensmessung bestimmt das Faktenwissen, aber durch die Kartenform auch Integration und Elaboration, also strukturelle Verarbeitung. Das erweitert innovative praktische Einsatzmöglichkeiten im Bereich von technologiegestützten, multimedialen Lehr- und Lernprogrammen. Ein Vorteil von E-Learning bildet ja gerade die Interaktivität und Anpassungsfähigkeit eines Systems an individuelle Nutzerbedürfnisse (vgl. Leutner, 2002), welche über ein klassisches Lehrbuch oder vielfach auch über den konventionellen Klassenunterricht nicht oder nur in unzureichender Ausprägung gewährleistet werden kann. Diese Fähigkeit eines Systems, sich selbstständig an die (sich verändernden) Nutzercharakteristika (wie Wissen, Fertigkeiten, Lernstile, kognitive Charakteristika usw.) anzupassen, wird mit dem Begriff der Adaptivität von Lernprogrammen umschrieben (vgl. Leutner, 1998, 2002; Petko & Reusser, 2006; Streule & Läge, im Druck). 7

3.2. Herausforderungen zur Gewährleistung von Adaptivität Um in der Auswahl der Inhalte hinsichtlich des aktuellen Wissensstandes adaptiv sein zu können (=inhaltsbasierte Adaptivität), benötigen virtuelle Lernumgebungen aber hinreichend gute Diagnostikmethoden. Klein (2000) diskutiert die Schwierigkeiten einer solchen Adaptivität. Er führt aus, dass Adaptierbarkeit (d.h. die Anpassbarkeit des Systems durch den Nutzer, wie z.B. die Wahl unterschiedlicher Bildschirmarrangements oder das An- und Ausschalten von Hilfefunktionen) technisch wie konzeptionell wesentlich leichter zu lösen ist als inhaltliche Adaptivität der Lerninhalte. Ein schwerwiegendes Problem dabei ist der für die valide Statusdiagnose erforderliche Messaufwand, denn logischerweise geht die benötigte Zeit für die Wissensmessung der potenziellen Lernzeit ab (von Leutner (1992) als „Testlängendilemma“ bezeichnet). Gütl (2008) liefert in der Einleitung seiner Arbeit einen illustrativen Überblick über einige formative Assessment-Verfahren, die diese Schwierigkeit entweder zur einen Seite (nämlich derjenigen der Effizienz, aber unzureichender Reliabilität und Validität mittels Verhaltensbeobachtungen) oder zu anderen Seite hin (nämlich der genügenden Reliabilität und Validität, aber geringerer Effizienz mittels direkter Befragung) aufzulösen versuchen. Auch Klein (2000) hat in seinem hypermedialen Lernsystem incops (Introduction to Cognitive Psychology) inhaltbasierte Adaptivität umgesetzt, indem fortlaufend über Eingangstests oder Abschlusskontrollfragen der Lernweg und der Schwierigkeitsgrad entsprechend angepasst wird. Hinsichtlich der eigentlichen Wissensdiagnosen bleibt aber noch Raum für Neuerungen, denn Wissen wird vielfach direkt über offene Fragen, Multiple-Choice oder SingleChoice Fragen getestet oder indirekt über Verhaltensbeobachtung (z.B. Eye-Tracking). Beide Ansätze sind weder zwingend geeignet, strukturelle Verarbeitung mit zu messen noch sind sie genügend effizient. NMDS-Wissenskarten stellen hier einen praktikablen Ansatz dar, denn die Wissensmessung ist sowohl automatisierbar als auch verhältnismäßig effizient (Erfahrungswerte zeigen, dass bei einer Zahl von 20 Objekten und 190 paarweisen Ähnlichkeitsurteilen der Diagnoseaufwand zwischen 10 und 20 Minuten beträgt.) und hat die weiteren Vorteile, dass nicht nur jedes Mal der vollständige Wissensbereich abgefragt wird, sondern darüber hinaus ein vom Frageformat unabhängiges Instrument zur Verfügung steht. Dass der erfolgsversprechende Einsatz von kognitiven Wissensmessung erst ab einem minimalen korrektem Wissensstand von rund 60-70% im Vergleich zur Gesamtzahl an Merkmalsinformationen, ist nur auf den ersten Blick ein Nachteil. Hält man sich nämlich die Logik bei inhaltsorientierter Adaptivität vor Augen, welche die Anpassung der Lernstoffdarbietung an den aktuellen Wissensstand ins Zentrum stellt, wird klar, dass adaptive tutorielle Unterstützung ohnehin erst bei fortgeschrittenem Wissensstand seine Berechtigung erfährt: Zu Beginn der Entwicklung vom Laien zum Experten wäre jede Lernempfehlung hilfreich und eine adaptive Steuerung demzufolge hinfällig. Erst das „Feintuning“, das punktuelle Erkennen und Ausmerzen von einzelnen Wissensmängeln ist ein wichtiger Mehrwert, der solchen Systemen zukommt. Darüber hinaus benötigt solch ein System auch keine hundertprozentige Messgenauigkeit, denn der zyklische Ansatz sich immer wiederholender Testphasen gewährleistet, dass ein einmal „verpasstes“ Lernelement zu einem späteren Zeitpunkt immer noch detektiert werden kann. 3.3. Adaptivität am Beispiel der E-Learning-Umgebung „Psychopathology Taught Online“ Der Erfolg der automatisierten, adaptiven Steuerung hängt schließlich auch von geeigneten tutoriellen Maßnahmen ab. Das mögliche Spektrum an didaktischen Interventionen soll nachfolgend anhand eines konkreten Anwendungsbeispiels erläutert werden. Das eben vorgestellte Diagnoseverfahren wurde im Web-Based-Training-Kurs „Psychopathology Taught Online“ (PTO, vgl. http://www.pto.uzh.ch) implementiert. PTO ist ein Selbstlernkurs im Bereich psychischer Störungen und vermittelt phänomenologisches Wissen zum Erscheinungsbild psychischer Abnormalitäten über eine multimediale und interaktive Herangehensweise (z.B. Übungen, Selbsttest, Animationen). Die in PTO eingeflochtene Adaptivitätslogik ist in Abbildung 4 schematisch dargestellt. Der Nutzer von PTO durchläuft zuerst klassische Lernphasen, in welchen die Lerninhalte zu bearbeiten sind. Dann folgt die ähnlichkeitsbasierte Testphase, in welcher allfällige Lücken und 8

Mängel im Wissen und dessen struktureller Verarbeitung detektiert und behoben werden sollen. Die Höhe der ObjectLoss Werte der Objekte bestimmt die Auswahl derjenigen Inhalte, die für die adaptive tutorielle Maßnahme ins Zentrum rücken. Lernphase

Wissensmessung

Wissensdiagnose Lernerwissen

Normwissen

I





I G D

H

I

J

H J

B

E

Wissensbewertung

J

K C

F

A

+

H

B

=

G F

C

E

B F E

K

A D

G

C A D

K

Tutorielle Maßnahmen

   Übungen

Kartenfeedback

Lernempfehlungen

Abbildung 4: Schematische Darstellung der adaptiven Verfahrenslogik im Online-Kurs „Psychopathology Taught Online“. Nach der Lernphase folgt die Wissensmessung und die automatisierte Wissensdiagnose und bewertung, gefolgt von daraus abgeleiteten, benutzeradaptiven tutoriellen Maßnahmen und der erneuten Beschäftigung mit den Lerninhalten. Dieser formative Zyklus soll solange wiederholt werden, bis das System keinen kritischen Unterschied mehr zwischen Lerner- und Expertenkarte findet.

Erste Maßnahme ist das Anbieten von Empfehlungen zum Lernweg. Es ist sinnvoll, Mehrfachlernen zu vermeiden, indem das System dem Lerner rückmeldet, welche Teile des Lerninhalts als nächstes bearbeitet werden sollen. Auf die wichtige strukturelle Integration und Elaboration von Wissen zielen eine zweite und eine dritte tutorielle Maßnahme ab: Zunächst wird dem Lerner seine kognitive Wissenskarte gezeigt; diese erfährt also neben der Messfunktion einen zusätzlichen Verwendungszweck als didaktisches Hilfsmittel über die Betrachtung der individuellen Wissensstruktur durch den Lerner und dem gleichzeitigen Hinweis auf die Unterschiede zwischen seinen relationalen Ansichten im Vergleich zur Expertensichtweise. Die konkrete Analyse der vorliegenden Unterschiede lässt sich aus der Intuitivität des Kartenbildes vornehmen, wird aber durch die dritte Maßnahme noch zielgerichtet unterstützt: Basierend auf dem Vergleich der Lernerund Expertenkarte werden benutzeradaptive Übungen zur Verfügung gestellt. Der Lerner hat die Aufgabe, nach Gemeinsamkeiten und Unterschieden zwischen den Lernobjekten zu suchen und diese zu markieren. Dieser Lernschritt zielt ausdrücklich auf die relationale Verarbeitung ab, indem zwischen den Lerninhalten eines schlecht positionierten Störungsbildes Gemeinsamkeiten zu einem Vergleichsobjekt detektiert werden sollen, die verglichen mit der Expertendistanz als zu groß beurteilt wurden und umgekehrt Unterschiede markiert werden sollen, wenn der Zusammenhang zweier Objekte als zu klein eingeschätzt wurde. Als Vergleichsobjekt wird jeweils immer ein Störungsbild verwendet, welches bereits korrekt positioniert ist und damit als assimilativer Anker dient (vgl. Ausubel, 2000). Sobald der Lerner die Aufgaben bearbeitet hat und das Bedürfnis für eine weitere Statusdiagnose verspürt, beginnt der adaptive Prozess von Neuem. Die erwarteten positiven Effekte dieser adaptiven Interventionen im Zusammenhang mit konvergenter Wissensverbesserung wurde in Evaluationen nachgewiesen (vgl. Häne, 2008 und zusammenfassend Streule & Läge, im Druck), und dies zusätzlich auch auf Dimensionen wie Zufriedenheit und Akzeptanz. NMDS und Prokrustes-Transformation haben sich, unter Einhaltung der Voraussetzung eines minimalen Vorwissensniveaus, als ein reliables und valides Messverfahren bewährt. Auf dieser Grundlage lässt sich das Diagnosesystem optimal zur Gewährleistung formativer 9

Lernunterstützung hinzuziehen und auf alle objektbasierten Sachwissensbereiche übertragen. Neben den hier vorgestellten tutoriellen Interventionsmaßnahmen sind sicherlich zahlreiche weitere entwickelbar, abhängig bspw. von der Lernzielformulierung oder auch vom Sachbereich. Dies eröffnet ein breites und flexibles Spektrum zur Erweiterung und Verbesserung des derzeitigen Test-, Assessment- und didaktischen Alltags.

Literatur Aebli, H. (1976). Psychologische Didaktik. Didaktische Auswertungen der Psychologie von Jean Piaget. Stuttgart: Klett. Ausubel, D. P. (2000). The acquisition and retention of knowledge. Dodrecht: Kluwer Academic Publishers. Borg, I. & Groenen, P. (1997). Modern multidimensional scaling – Theory and applications. New York: Springer. Cohen, J. (1988). Statistical power analysis for the behavioural sciences. New York: Erlbaum. Cohen, J. (1992). A power primer. Psychological Bulletin, 112, 155-159. Eckert, A. (1998). Kognition und Wissensdiagnose. Die Entwicklung und empirische Überprüfung des computergestützten wissensdiagnostischen Instrumentariums „Netzwerk-Elaborierungs-Technik (NET)“. Lengerich: Pabst. Eckert, A. (1999). Die „Mannheimer Netzwerk-Elaborierungs-Technik (MaNET)“ – Ein computergestütztes Instrument zur Analyse vernetzten Wissens. In W. Schulz (Hrsg.), Aspekte und Probleme der didaktischen Wissensstrukturierung (S. 93-111). Frankfurt: Peter Lang. Eckert, A. (2000). Die Netzwerk-Elaborierungs-Technik (NET) – Ein computerunterstütztes Verfahren zur Diagnose komplexer Wissensstrukturen. In H. Mandl & F. Fischer (Hrsg.), Wissen sichtbar machen. Wissensmanagement mit Mapping-Techniken (S. 137-157). Göttingen: Hogrefe. Egli, S., Schlatter, K., Streule, R. & Läge, D. (2006). A Structure Based Expert Model of the ICD-10 Mental Disorders. Psychopathology 39 (1), 1-9. Gower, J. C. & Dijksterhuis, G. B. (2004). Procrustes problems. Oxford: Oxford University Press. Gütl, C. (2008). Moving towards a Fully Automated Knowledge Assessment Tool. International Journal of Emerging Technologies, 3 (1), 36-44. Häne, M. (2008). Evaluation von Adaptivität im E-Learning – Qualitätssicherung und Qualitätskontrolle einer multimedialen Lernumgebung in der Psychopathologie-Ausbildung. Dissertation, Zentralstelle der Studentenschaft, Universität Zürich, Zürich. Janetzko, D. & Strube, G. (2000). Knowledge Tracking – Eine neue Methode zur Diagnose von Wissensstrukturen. In H. Mandl & F. Fischer (Hrsg.), Wissen sichtbar machen. Wissensmanagement mit Mapping-Techniken (S. 199-217). Göttingen: Hogrefe. Klauer, K. J. (1989). Allgemeine oder bereichsspezifische Transfereffekte eines Denktrainings. Zeitschrift für Entwicklungspsychologie und Pädagogische Psychologie, 21, 185-200. Klein, B. (2000). Didaktisches Design hypermedialer Lernumgebungen. Die adaptive Lernumgebung „incops“ zur Einführung in die Kognitionspsychologie. Marburg: Tectum. Kruskal, J.B. (1964a). Multidimensional scaling by optimizing goodness of fit to a nonmetric hypothesis. Psychometrika, 29, 2-27. Kruskal, J.B. (1964b). Nonmetric multidimensional scaling: a numerical method. Psychometrika, 29, 115-129. Mathar, R. (1997). Multidimensionale Skalierung. Stuttgart: Teubner. Läge, D. (2001). Ähnlichkeitsbasierte Diagnostik von Sachwissen. Habilitationsschrift an der Philosophischen Fakultät der Universität Zürich. Läge, D. (2009). Robuste Prokrustes-Transformation. Forschungsberichte der Angewandten Kognitionspsychologie, Psychologisches Institut (Nr. 73), Universität Zürich. Zürich. Läge, D. & Daub, S. (2008). Merkmalsvergleich oder Prototyp? Ein Blick hinter die Kulissen des Ähnlichkeitsurteils. Forschungsberichte der Angewandten Kognitionspsychologie (Nr. 58), Psychologisches Institut, Universität Zürich. Zürich. Läge, D., Ryf, S., Daub, S., & Jäger, C. (2008). Robustness in Nonmetric Multidimensional Scaling. Forschungsberichte der Angewandten Kognitionspsychologie (Nr. 59), Psychologisches Institut, Universität Zürich. Zürich. Leutner, D. (1992). Das Testlängendilemma in der lernprozess-begleitenden Wissensdiagnostik. Zeitschrift für Pädagogische Psychologie, 24, 232-248. Leutner, D. (1998). Instruktionspsychologie. In D.H. Rost (Hrsg.), Handwörterbuch Pädagogische Psychologie (S. 198-205). Weinheim: PVU. Leutner, D. (2002). Adaptivität und Adaptierbarkeit multimedialer Lehr- und Informationssysteme. In L.J. Issing & P. Klimsa (Hrsg.), Information und Lernen mit Multimedia und Internet (S. 115-125). Weinheim: Beltz. Mandl, H. & Fischer, F. (Hrsg.). (2000). Wissen sichtbar machen. Wissensmanagement mit Mapping-Techniken. Göttingen: Hogrefe. Mandl, H. & Spada, H. (1988). Wissenspsychologie. München: Psychologie Verlags Union. Montada, L. (1995). Die geistige Entwicklung aus der Sicht Piagets. In R. Oerter & L. Montada (Hrsg.), Entwicklungspsychologie (3. Aufl.) (S. 622-653). Weinheim: Psychologie Verlags Union. Petko, D. & Reusser, K. (2006). Das Potenzial interaktiver Lernressourcen zur Förderung von Lernprozessen. In D. Miller (Hrsg.), E-Learning - Eine multiperspektivische Standortbestimmung (S. 183-207). Bern: Haupt Verlag.

10

Piaget, J. (1973). Das Erwachen der Intelligenz beim Kinde. Stuttgart: Klett. Piaget, J. (1976). Die Äquilibration der kognitiven Strukturen. Stuttgart: Klett. Piaget, J. (2001). Studies in reflecting abstraction. Sussex: Psychology Press. Quillian, M. R. (1968). Semantic memory. In M. Minsky (Ed.), Semantic information processing (pp. 227-270). Cambridge, Mass.: MIT-Press. Scheele, B. & Groeben, N. (1984). Die Heidelberger Struktur-Lege-Technik (SLT). Eine Dialog-Konsens-Methode zur Erhebung Subjektiver Theorien mittlerer Reichweite. Weinheim: Beltz. Smith, E. E., Shoben, E. J. & Rips, L. J. (1974). Structure and process in semantic memory. A featural model for semantic decisions. Psychological Review, 81, 214-241. Shepard, R.N. (1962). The analysis of proximities: multidimensional scaling with an unknown distance function. I. Psychometrika, 27, 125-140. II. Psychometrika, 27, 219-246. Streule, R. (2007). Sag‘ mir, was ich noch nicht weiß. Individualisierung des Wissenserwerbs über adaptive Auswahl der Lerninhalte mithilfe der Nonmetrischen Multidimensionalen Skalierung und Prokrustes-Transformation. Dissertation, Zentralstelle der Studentenschaft, Universität Zürich, Zürich. Streule, R. & Läge, D. (im Druck). Testen in adaptiven Settings - Inhaltsbasierte Adaptivität in Tutoriellen Systemen am Beispiel von Kognitiven Karten. Münster: Waxmann. Streule, R., Rüfenacht, I. & Läge, D. (2009). Der ObjectLoss einer Prokrustes-Transformation als Maß für Wissen. Forschungsberichte der Angewandten Kognitionspsychologie (Nr. 72), Psychologisches Institut, Universität Zürich. Zürich. Tversky, A. (1977). Features of Similarity. Psychological Review, 84, 327-352. Tversky, A. & Gati, I. (1982). Similarity, Separability, and the Triangle Inequality. Psycholog-ical Review, 89, 123-154. Weber, S. & Schumann, M. (2000). Concept Mapping Sofware Tool (COMASOTO) zur Diagnose strukturellen Wissens. In H. Mandl & F. Fischer (Hrsg.), Wissen sichtbar machen. Wissensmanagement mit Mapping-Techniken (S. 158-179). Göttingen: Hogrefe.

11