SEMANTISCHE VERARBEITUNG IN KONNEKTIONISTISCHEN NETZWERKEN

Magisterarbeit zur Erlangung der Würde des Magister Artium der Philologischen, Philosophischen und Wirtschafts- und Verhaltenswissenschaftlichen Fakultät der Albert-Ludwigs-Universität Freiburg im Breisgau

vorgelegt von Sascha Andreas Wolfer aus Stuttgart

Sommersemester 2007 Sprachwissenschaft des Deutschen

INHALTSVERZEICHNIS

0.

EINLEITUNG .............................................................................................................1 0.1.

1.

GLIEDERUNG ................................................................................................................................................. 2

KONNEKTIONISMUS .............................................................................................. 5 1.1.

EINFÜHRUNG ................................................................................................................................................. 5

1.1.1.

Konnektionismus vs. Symbolverarbeitung................................................................................................................. 5

1.1.2.

Folgen einer verteilten Repräsentation von Information ............................................................................................. 9

1.1.3.

Sind konnektionistische Modelle biologisch plausibel? ............................................................................................11

1.1.4.

Exkurs: Kognitive Modellierung ...........................................................................................................................13

1.2.

TECHNISCHE GRUNDLAGEN ....................................................................................................................15

1.2.1.

Die Hebbregel und Musterassoziatoren .................................................................................................................15

1.2.2.

Die Deltaregel und Autoassoziativspeicher ............................................................................................................16

1.2.3.

Die Gradientenabstiegsmethode .............................................................................................................................18

1.2.4.

Lineare Separierbarkeit und der Hidden-Layer.....................................................................................................20

1.3.

KONNEKTIONISMUS UND SPRACHE: ELMANS SIMPLE RECURRENT NETWORKS ..........................23

1.3.1.

Wozu Simple Recurrent Networks?......................................................................................................................23

1.3.2.

Simple Recurrent Networks und Sprache ..............................................................................................................24

1.3.3.

SRNs und ein alternativer Blick auf Sprache........................................................................................................32

1.4.

2.

ZUSAMMENFASSUNG UND KRITIK ..........................................................................................................34

SEMANTIK ................................................................................................................36 2.1.

EINFÜHRUNG ...............................................................................................................................................36

2.2.

WORTSEMANTIK .........................................................................................................................................38

2.2.1.

Merkmalssemantik ..............................................................................................................................................38

2.2.2.

Prototypensemantik ..............................................................................................................................................42

2.3.

SATZSEMANTIK............................................................................................................................................49

2.3.1.

Propositionen als sprachunabhängige Bedeutungsrepräsentationen............................................................................50

2.3.2.

Satzsemantik: Mögliche-Welten-Semantik ............................................................................................................52

2.3.3.

Minimal Recursion Semantics (MRS) ..................................................................................................................54

2.4.

ZUSAMMENFASSUNG ..................................................................................................................................58

3.

VORSTELLUNG UND EVALUATION ERFOLGREICHER ANSÄTZE ............60 3.1.

INCREMENTAL NONMONOTONIC SELF-ORGANIZATION OF MEANING NETWORK

(INSOMNET)..............................................................................................................................................................60 3.1.1.

Die INSOMNet-Architektur..............................................................................................................................61

3.1.2.

Evaluation: Allgemeine Leistungsmaße.................................................................................................................67

3.1.3.

Evaluation: Umgang mit Ambiguitäten................................................................................................................69

3.1.4.

Zusammenfassung und Kritik...............................................................................................................................74

3.2.

CONNECTIONIST MODEL OF SENTENCE COMPREHENSION AND PRODUCTION (CSCP) ...........76

3.2.1.

Die CSCP-Architektur .......................................................................................................................................76

3.2.2.

Evaluation: Allgemeine Leistungsmaße.................................................................................................................86

3.2.3.

Evaluation: Umgang mit Ambiguitäten................................................................................................................91

3.2.4.

Zusammenfassung und Kritik...............................................................................................................................93

3.3.

4.

ERSTE ZIELSETZUNGEN ............................................................................................................................95

EIN NEUER ANSATZ ZU SEMANTISCHER VERARBEITUNG IN

KONNEKTIONISTISCHEN NETZWERKEN..................................................................97 4.1.

ANMERKUNGEN ..........................................................................................................................................97

4.2.

THEORETISCHE AUSGANGSPUNKTE.......................................................................................................97

4.2.1.

Architektur..........................................................................................................................................................97

4.2.2.

Perzeptuelle Symbolsysteme ...................................................................................................................................98

4.2.3.

Das Distributed Situation Space (DSS) Model...................................................................................................100

4.3.

4.3.1.

Basisarchitektur .................................................................................................................................................104

4.3.2.

Pre-Training-Architektur ...................................................................................................................................106

4.4.

ZIELSETZUNGEN UND OFFENE FRAGEN.............................................................................................109

4.5.

ZUSAMMENFASSUNG ................................................................................................................................113

5.

6.

ARCHITEKTUR ...........................................................................................................................................104

RESUMÉ................................................................................................................... 114 5.1.

ÜBERBLICK .................................................................................................................................................114

5.2.

AUSBLICK ....................................................................................................................................................116

LITERATURVERZEICHNIS................................................................................. 118

Einleitung

0. Einleitung

D

ass Sprache ein Grundpfeiler der menschlichen Zivilisation ist, gilt weithin als unumstritten. Ohne sie wäre allein aus Blickwinkel der Evolutionsforschung das Tradieren von Bräuchen, Ritualen und verschiedensten Formen des Wissens – sprich alle kultu-

rellen Errungenschaften des Menschen – zweifelsohne nahezu unmöglich. Sprache bestimmt nicht nur maßgeblich die sozialen Konstellationen in denen sich Menschen bewegen, sondern macht einen komplexen Informationsaustausch, etwa das Erzählen von Geschichten, die Warnung des Gegenübers, die Formulierung von Wünschen oder das Unterstellen von Absichten, ebenso überhaupt erst möglich als die Formulierung von Verhaltensnormen und die Entwicklung komplexer ethischer Theorien. Kurz: Komplexe soziale Interaktion beruht auf dem unabdingbaren Instrument Sprache. Kein Wunder also, dass die Erforschung der Sprache bis heute in vielen Wissenschaftsbereichen eine zentrale Position einnimmt. So wird in den Wirtschaftswissenschaften beispielsweise Sprache unter dem Gesichtspunkt der gezielten Beeinflussung von Individuen erforscht (Werbung, Public Relations) und auch die (erfolgreiche) Personalführung kann auf einen reflektierten und wissenschaftlich fundierten Sprachgebrauch kaum verzichten. Auch in der Politikwissenschaft treffen wir in verschiedenen Bereichen auf Sprachforschung, etwa in der Analyse von Wahlkämpfen, Reden und Ansprachen sowie in Forschungen zu Kriegs- und Friedensrhetorik. Pädagogen beschäftigen sich mit den Merkmalen, die Sprache optimalerweise aufweisen sollte um einen größtmöglichen Lehr- und Lernerfolg zu erzielen. Soziologische Untersuchungen von Sprache führten zu einem seit Bernstein und Labov eigenständigen Wissenschaftszweig: der Soziolinguistik. Eine der zentralen Fragestellungen ist hier, inwiefern bestimmte soziale Merkmale einer Sprecherin / eines Sprechers (wie beispielsweise Herkunft, Rolle oder Status) die Sprachperformanz beeinflussen. Aus psychologisch orientierten Untersuchungen entstand schließlich das weite Feld der Psycholinguistik. Typische Fragestellungen sind hier, wie Sprache im menschlichen Geist funktioniert, welche geistigen Fähigkeiten den Menschen zur Anwendung und zum Verständnis eines solch hochkomplexen Systems befähigen, welche anderen kognitiven Fähigkeiten mit Sprache interagieren, wie Kinder Sprache erwerben und welche Probleme sie dabei eventuell umschiffen müssen. Eines der großen Rätsel, das PsycholinguistInnen seit Anbeginn dieser Forschungsrichtung zu lösen versuchen, ist, auf welche Weise der Mensch einer Wortform einen Bedeutungswert zuweist. Egal ob eine Spracheinheit in gesprochener oder geschriebener Form vorliegt, immer steht der Mensch vor dem Problem, aus dieser Form eine sinnvolle Bedeutung extrahieren zu müssen (sofern wir der Sprecherin / dem Sprecher unterstellen, diese transportieren zu wollen). Diese Bedeutung kann vielfältig sein: Enthält die Äußerung eine Aufforderung? Ist es die Beschreibung eines Sachverhalts in der Umwelt? Will das Gegenüber eine Auffassung oder einen Glauben mitteilen, den es -1-

Einleitung

über die Welt hat? Bezieht sich die Äußerung auf einen Gegenstand oder eine Person, die bereits erwähnt wurde? Diese Liste von für das Verstehen unumgänglichen Fragen könnte wohl noch lange fortgesetzt werden. Daran sehen wir, wie komplex „Verstehen“ vonstatten geht; und doch scheint es meist schnell, einfach und erstaunlich fehlerlos zu gelingen. Die Komplexität von Sätzen wird oft erst dann augenfällig wenn es Probleme gibt. Wird beispielsweise der Satz „Die Detektivin beobachtet den Verdächtigten mit dem Fernglas“ isoliert, also ohne helfenden Kontext, dargeboten können wir nicht sagen, wer das Fernglas hat (auch wenn in diesem Beispiel die Präferenz eher bei der Detektivin liegt, da das Fernglas besser in die Rolle „Beobachtungsinstrument“ passt) – eine strukturelle, globale Ambiguität. Solche und andere Probleme bzw. Phänomene sind schon seit längerer Zeit Gegenstand empirischer Untersuchungen. Zu den Ergebnissen dieser Studien treten auch vermehrt Resultate aus dem Bereich der Kognitiven Modellierung. Diese Methodik stellt einen Grundpfeiler der Kognitionswissenschaft dar da sie direkt auf der kognitionswissenschaftlichen Grundhypothese aufbaut, dass kognitive Prozesse als Informationsverarbeitungs- und somit als Berechnungsvorgänge aufgefasst werden können (vgl. Strube, 2003). Der Terminus „kognitiver Prozess“ lässt sich dabei nicht nur in Verbindung mit menschlicher Kognition gebrauchen, sondern – nahezu selbstverständlich – auch mit der Erklärung des Verhaltens von Tieren verknüpfen. Zwar scheint es auf den ersten Blick weit weniger selbstverständlich, diesen Begriff des kognitiven Prozesses auch in Bezug auf Computer zu verwenden; doch gerade dieser Transfer stellt die Kernidee der Methodik dar. Die Kognitive Modellierung versucht also, menschliche Kognition als Prozess auf einer maschinellen Umgebung zu simulieren und aus dem so generierten Modell Rückschlüsse auf das Ausgangsphänomen beim Menschen zu ziehen – wie man leicht sieht steht und fällt diese Herangehensweise mit der oben erwähnten kognitionswissenschaftlichen Grundhypothese. Im Grunde produziert Kognitive Modellierung nichts anderes als Computermodelle menschlicher Kognition, die den Status einer wissenschaftlichen Theorie einnehmen, da sie falsifizierbare Erklärungen für beobachtete Phänomene liefern. Auf weitere Eigenschaften dieser Methodik soll in einem späteren Abschnitt genauer eingegangen werden. Rufen wir uns die oben vorgestellten psycholinguistischen Fragen ins Gedächtnis zurück, sehen wir, dass diese Fragen immer vom menschlichen Geist als Dreh- und Angelpunkt ausgehen und von Aussagen über das Gehirn zunächst abzugrenzen sind. Die traditionelle Herangehensweise zielt insofern nicht auf die neuronalen Verschaltungen im menschlichen Kortex, sondern auf die Prozesse, die von diesen Verschaltungen realisiert werden – auf eine klassische Unterscheidung zurückgreifend ließe sich auf formulieren: Nicht die Implementierungsebene, sondern die Symbol- (algorithmic) oder Wissensebene (computational level) (nach Marr, 1982) ist von Interesse. Ein Ansatz, der mit dem Anspruch antrat die verschiedenen Betrachtungsebenen zu verbinden, ist der Konnektionismus. Inwiefern dieser Anspruch haltbar ist wird Gegenstand eines späteren Abschnitts sein. -2-

Einleitung

0.1. Gliederung Im folgenden ersten Kapitel sollen die grundlegenden Fakten zu künstlichen neuronalen Netzen zusammengetragen werden bevor der Fokus auf Konnektionismus und Sprache gelenkt wird. Zu den Grundlagen wird eine kurze Verortung innerhalb der Kognitionswissenschaft gehören, sowie einige technische Begriffsklärungen. Außerdem wird es notwendig sein, konnektionistische Ansätze von anderen Möglichkeiten der Kognitiven Modellierung abzugrenzen. Den Abschluss der Einführung in den Konnektionismus wird die Vorstellung einiger typischer Architekturen bilden, die die Funktionsweise von neuronalen Netzen verdeutlichen sollen. Der Abschnitt zu konnektionistischen Modellen die Sprache betreffend wird sich auf die Elmanschen Simple Recurrent Networks (Elman, 1990, 1991, 1993) konzentrieren und in deren Umfeld einige Folgethesen dieser Theorie darlegen. Hierzu gehört auch eine Abschätzung der theoretischen Implikationen der Arbeiten Elmans. In den späteren Kapiteln wird immer wieder auf die Funktionsweise der Simple Recurrent Networks referiert werden. Auch das zu erarbeitende Modell basiert auf einer solchen Architektur und erweitert sie in Richtung der semantischen Verarbeitung. Das zweite Kapitel der Arbeit wird eine Betrachtung semantischer Theorien unter konnektionistischem Blickwinkel beinhalten. Auf der Wortebene werden insbesondere die Kompositionalsemantik sowie die Prototypentheorie (Rosch, 1973) zu besprechen sein. Im Rahmen der Prototypentheorie wird eine Studie vorgestellt, die die Herausbildung von Prototypen aus maschinellem (konnektionistischem) Blickwinkel beleuchtet. Nach einer einleitenden Betrachtung des wissenschaftlichen Konzepts der Proposition als sprachunabhängiger Bedeutungsrepräsentation werden einige Semantikansätze vorgestellt, die den später zu besprechenden Modellen zugrunde liegen. Eine Vorstellung der Mögliche-Welten-Semantik wird in den Ansatz der Minimal Recursion Semantics münden, der die semantiktheoretische Grundlage für das INSOMNet-Modell bildet. Kapitel 3 wird sich mit vorliegenden Modellen beschäftigen, die bereits semantische Verarbeitung konnektionistisch realisieren. Zunächst wird das eben angesprochene INSOMNet-Modell von Mayberry (2003) vorgestellt woran sich ebenso eine Kritik anschließen wird wie an die Besprechung von Rohdes (2002) CSCP-Modell. Es wird zu zeigen sein, wie die Modelle semantische Verarbeitung realisieren, welche Unterschiede sich in den Architekturen ergeben und welche theoretischen Vorannahmen implizit in den Modellen stecken. Es wird unter anderem gezeigt, dass propositionale Repräsentationsarten dann abzulehnen sind, wenn sie zuviel „Handarbeit“ der Forschenden in Anspruch nimmt und so die Funktionsfähigkeit des Modells nicht mehr allein auf die Architektur rückführbar macht. Der Modellvorschlag der Freiburger Arbeitsgruppe, die sich aus einem Forschungsseminar bei Lars Konieczny bildete, wird im vierten Kapitel die Konsequenzen aus der Kritik dieser Modelle -3-

Einleitung

ziehen und eine neue Perspektive auf konnektionistische Semantikverarbeitung erarbeiten. Hierbei wird einerseits eine theoretische Fundierung im Hinblick auf die dahinter stehende Semantiktheorie (vgl. Barsalou, 1999) nötig sein, andererseits soll auf Modelle Bezug genommen werden, die mit dem auszuarbeitenden Modellvorschlag in Zusammenhang stehen (vgl. bspw. Frank, 2005; Frank et al., 2003, 2007). Ein Resumé (Kapitel 5) wird die Grundaussagen der Arbeit zusammenfassen und Anregungen zu weiterer Forschungsarbeit liefern.

-4-

Kapitel 1: Konnektionismus

1. Konnektionismus 1.1. Einführung 1.1.1. Konnektionismus vs. Symbolverarbeitung Will man konnektionistische Ansätze innerhalb der Kognitionswissenschaft, genauer innerhalb der Gruppe Kognitiver Architekturen, verordnen, bietet es sich an die Dichotomie Konnektionismus vs. Symbolverarbeitung (auch: subsymbolische vs. symbolische Modelle) aufzustellen. Symbolverarbeitende Modelle basieren zwar auf den verschiedensten Architekturen, haben jedoch alle einige grundlegenden Eigenschaften gemein. Sie operieren auf der Basis von Symbolen (Variablen, Werten und Operatoren) und enthalten explizit formulierte Verarbeitungsregeln, die diese Symbole transformieren und durchaus eine recht reichhaltige syntaktische Struktur aufweisen können. Daten und Programm sind immer getrennt, das heißt in verschiedenen Speichern abgelegt, basieren aber grundsätzlich auf denselben Strukturen. Architekturen1, die zur Erstellung eines symbolverarbeitenden Modells herangezogen werden können sind beispielsweise ACT(-R)2 oder SOAR (vgl. bspw. Wray & Jones, 2005). Ersteres verfügt u.a. über zwei Langzeitspeicher, das deklarative Gedächntis in dem die Wissenseinheiten (die sogenannten Chunks) gespeichert werden und das prozedurale Gedächtnis, in dem die Produktionsregeln abgelegt sind, die auf diese Chunks angewendet werden können. Angestoßen wird ein ACT-Modell immer durch die Definition eines bestimmten Ziels, das es zu erreichen gilt. Realisiert wird diese Zieldefinition ebenfalls durch eine Wissenseinheit, die unterspezifiziert ist, mit anderen Worten: Ein Slot (die Inhaltselemente der Wissenseinheiten) im Goal-Chunk bleibt leer. Als Stärke von ACT gilt im Allgemeinen die Vorhersage der Reaktionszeit bei bestimmten Aufgaben, dies wird dadurch möglich, dass für jeden Vorgang, den ein Modell durchführt (beispielsweise Abruf und Aktivation einer Produktionsregel) empirisch fundierte Zeiten angenommen werden, die im Ablauf des Modells addiert werden. Auch künstliche neuronale Netze können als Kognitive Architekturen aufgefasst werden, genauer als Berechnungsarchitekturen. Sie stellen ein gleichmächtiges Paradigma zu symbolverarbeitenden Systemen dar und bestehen aus zwei Architekturelementen: Den Knoten oder formalen Neuronen

Architektur bedeutet in diesem Zusammenhang, dass es sich um ein vorgefertigtes Gerüst bzw. einen „Werkzeugkasten“, handelt, den die Forschenden benutzen können um darin ihr Modell zu erstellen. Typischerweise sind in Kognitiven Architekturen bereits empirische Ergebnisse (beispielsweise Reaktions- oder Verarbeitungszeiten) implementiert, die der/die BenutzerIn nicht mehr im Modell realisieren muss. Der Vorteil liegt hierbei natürlich in der einfacheren und schnelleren Erstellung eines Modells als wenn man „from-scratch“ arbeitet. Ein Nachteil kann sein, dass man bestimmte Voraussetzungen oder Prinzipien, die in der Architektur fest eingearbeitet sind, übernehmen muss. 2 Vertiefende Informationen und Programmbeispiele zu ACT-R sind in Anderson & Lebiere (1998) zu finden. 1

-5-

Kapitel 1: Konnektionismus

und den Kanten zwischen ihnen. Die Kanten sind dabei semantisch nicht interpretierbar und stellen lediglich die Verbindungen zwischen den Knoten her und sorgen für die Ausbreitung der Aktivation. Insbesondere Modelle, die die Aufgabe haben Sätze zu parsen, sind auf der Basis symbolischer Architekturen entstanden. Auch die überwältigende Mehrheit von Programmiersprachen arbeitet symbolisch, das heißt sie wenden explizit formulierte Regeln auf abstrakte Variablen und Symbole an. Warum symbolische Ansätze zur Sprachverarbeitung so beliebt sind liegt auf der Hand: Sie können leicht dazu benutzt werden, abstrakte syntaktische Strukturen und Konstruktionen sowie deren Beziehungen untereinander zu repräsentieren. For example, one can simply specify that noun phrases are represented by the symbol NP and verb phrases by the symbol VP and a sentence, S, can be composed of an NP followed by a VP. Knowledge of such constructs, and the rules for operating on them, can be built directly into a symbolic model. (Rohde, 2002: 8)

Weitere Vorteile sprechen für symbolische Modelle: Sie operieren meist sehr transparent, sind leicht verständlich und vor allem explizit. Daraus folgt meist ein hoher Erklärungswert. Die internen Zustände und Repräsentationen eines solchen Modells lassen sich leicht analysieren, die Art der letzteren legt der Forschende ja meist selbst fest. Auch die unendliche Produktivität der Sprache kommt symbolischen Modellen im Bereich des Parsing durchaus gelegen. So ist es relativ einfach eine Regel, die für eine NP gilt, einfach auf alle möglichen NPs anzuwenden da die Regeln ohnehin auf abstrakten Symbolen basieren. Betrachten wir nun Aufgaben, die über das Parsen von syntaktischen Strukturen hinausgehen, beispielsweise Satzverstehen und -produktion, sehen wir, dass symbolbasierte Modelle nicht mehr unbedingt das Mittel der Wahl sein müssen. Konzepte3 können in vielen Fällen nicht so leicht und trennscharf

klassifiziert

werden

wie

Satzelemente.

Das

heißt

auch,

dass

sie

nicht

ebenso einfach durch abstrakte Variablen repräsentiert werden können. Ein weiteres Problem ergibt sich aus der Beschaffenheit der Produktionsregeln, die einem symbolischen Modell zugrunde liegen. Diese Regeln sind immer in der Form von Voraussetzungen, die erfüllt sein müssen (Wenn…), und den Folgen daraus (Dann…) formuliert. Dabei muss man sich im Allgemeinen darauf verlassen können, dass diese Umgebungsinformation auch vollständig und klar vorliegt. Schwache, fragmentartige oder nebulöse Informationen (und eben solche sind im Bereich der Semantik4 oft anzutreffen) führen zu Problemen. Wie Rohde (2002) richtig bemerkt, sind es aber oft genau diese Struktu-

Der Terminus „Konzept“ soll in vorliegender Arbeit im Sinne Dittmanns (2002: 291) verwendet werden. Es wird angenommen, dass die Gesamtrepräsentation eines Wortes sich aus der Wortform, dem Lexem, der Bedeutungsrepräsentation, dem Konzept und einer verbindenden Instanz, dem Lemma, zusammensetzt. Allerdings kann in bestimmten Verwendungskontexten vorliegender Arbeit „Konzept“ auch als „wissenschaftliche Auffassung von …“ interpretiert werden. 4 Außerdem können auch die Häufigkeiten von lexikalischen und strukturellen Einheiten, die Prosodie, pragmatische Gesichtspunkte und Kontextinformationen undurchsichtig oder unvollständig sein. 3

-6-

Kapitel 1: Konnektionismus

ren und Informationen, die uns in die Lage versetzen den überwiegenden Teil der lexikalischen und strukturellen Ambiguitäten in natürlichen Sätzen ohne viel Aufwand aufzulösen. Es sollte inzwischen als allgemein anerkanntes Faktum gelten, dass ein großer Teil des sprachlichen Inputs, der uns während der Erwerbsphase erreicht, sehr defizitär, das heißt falsch oder unvollständig ist. Außerdem werden Kinder nur selten korrigiert, und wenn scheinen sie oft nicht sehr empfangsbereit dafür (Pinker, 1984) zu sein – das Problem scheint also hauptsächlich eines der negativen Evidenz zu sein5. Eine Lösung für die Theorienbildung wäre anzunehmen, dass ein großer Teil unseres sprachlichen Wissens, wenn nicht gelernt, angeboren ist (G. F. Marcus, 1993). Die Alternativerklärung nimmt negative Evidenz in einer anderen Form an – nämlich der Frequenz und der Verteilung von Worten, syntaktischen Strukturen und Sätzen in der Sprache. Auch wenn wir also nicht explizit darauf hingewiesen werden, dass eine gewisse Struktur nicht Teil der Sprache ist, können wir – wenn wir nur lange genug warten und genug „Material“ sammeln – feststellen, dass die Struktur (fast) nie von jemand anderem verwendet wird, sondern andere Strukturen häufiger dort auftauchen wo wir sie verwendet haben. Somit kann ein eifriger Lerner (und das sind Kinder die Sprache betreffend fast immer) schließen, dass die von ihm verwendete Struktur kein Teil der Sprache sein kann, also inkorrekt ist. Oder anders ausgedrückt: Lernen kann auf einer spezifischen Sensitivität für statistische Verteilungen aufbauen. Zusammenfassend lässt sich sagen, dass symbolische Modelle eine hohe Erklärungskraft aufgrund ihrer Klarheit haben und sicherlich gut dafür geeignet sind, abstrakte und komplexe syntaktische Strukturen zu repräsentieren. Die Auflösung von mehrfach verschachtelten Relativsätzen beispielsweise lässt sich hervorragend durch die Anwendung explizit formulierter Regeln realisieren – doch genau dies ist ein Metier, in dem der Mensch mitunter die größten Schwierigkeiten hat6. „Thus, our human strengths seem to be the weaknesses of symbolic models, and their strength to be our greatest weakness.” (Rohde, 2002: 9). Der Modellierende muss, will er menschliche Schwächen im Modell simulieren, explizite Grenzen in seinem Modell setzen. Eine solche Grenze könnte etwa lauten: „Verstehe höchstens dreifach verschachtelte Relativsätze mit Zentraleinbettung“. Das würde dann zwar die empirischen Daten approximieren, doch die Mechanismen in ein Modell einzubauen, die man eigentlich als Ergebnisse der Abläufe im Modell erhalten will, wäre ungefähr so aussagekräftig wie in einer empirischen Studie den Versuchspersonen zu sagen, welche Ergebnisse sie produzieren

5 In der Literatur ist dieses Problem als das „Baker’s Paradox“ bekannt. Benannt nach Carl L. Baker, der einen viel beachteten Aufsatz (1979) unter anderem über dieses Thema veröffentlichte. 6 Hier gilt wiederum, dass die Semantik behilflich sein kann. Betrachten wir beispielsweise diese Sätze, die beide aus zentral eingebetteten Relativsätzen bestehen (aus Elman, 1991: 2): (a) Die Katze, die der Hund, den die Maus sah, jagte, rannte weg. (b) Der Planet, den der Astronom, den die Universität einstellte, sah, explodierte. Hier fällt es uns typischerweise leichter, Satz (b) zu verstehen weil die Semantik uns dabei hilft: „Clearly, semantic and pragmatic considerations can facilitate parsing structures which are otherwise hard to process.“ (ebd.)

-7-

Kapitel 1: Konnektionismus

sollen. Welche Art von Architektur ist aber dann gefragt? Es wird eine Architektur benötigt, die (auch schwache) statistische Hinweise erkennen und nutzen kann, die eine große Zahl von lexikalisch-semantischen Assoziationen speichern kann und die empirische Ergebnisse repliziert weil es der Architektur eigene Prinzipien sind, die diese Ergebnisse hervorbringen. Konnektionistische Modelle stellen diese Alternative dar. Ein formales Neuron kann mit tausenden anderen Neuronen verbunden sein (ein biologisch reales Neuron im Kortex ist dies mit Sicherheit) – sowohl in seiner Eigenschaft als Empfänger als auch als Sender. Jeder Knoten ist also, und somit das ganze Netzwerk, „von Natur aus“ dazu fähig, mehrere Quellen, auch von verrauschtem oder unscharfem Input, zu beachten und zu integrieren. Sobald also kontextbezogene, prosodische, semantische oder pragmatische Information vorliegt, sollte ein Modell in der Lage sein diese Information auch in der Satzverarbeitung zu nutzen. Eine wichtige Eigenschaft von künstlichen neuronalen Netzen ist daher die unglaubliche Sensitivität für statistische Verteilungen im Input. Dabei werden eben nicht einfach alle Input-Muster gespeichert – wie schon erwähnt würde das jede Kapazität sprengen. Jeder sinnvolle Gebrauch von statistischen Informationen in der Sprachverarbeitung benötigt die Fähigkeit zu generalisieren. Es müssen also abstrakte Kategorien auf einer höheren Ebene herausgebildet werden. Da beispielsweise Verben in ähnlichen Kontexten vorkommen, werden diese auch von einem konnektionistischen Modell als einander ähnlich, also nahe im n-dimensionalen, semantischen Raum, repräsentiert. Werden jetzt per Lernalgorithmus die Gewichte für ein bestimmtes Verb angepasst ist es sehr wahrscheinlich, dass auch die Gewichte für ein oder viele andere angepasst werden da die Repräsentationen der Verben sich in einigen Bereichen höchstwahrscheinlich überschneiden. Lernt ein Netzwerk etwas neues über ein Verb, ist es in der Lage dieses Wissen auf alle Verben (oder Verben in einer bestimmten Form) zu generalisieren – und dies alles geschieht nicht auf der Basis bestimmter, expliziter Regeln, sondern rührt sozusagen von der untersten Ebene, der Implementierungsebene, her, den technischen Eigenschaften der Architektur. Bei der Besprechung der Simple Recurrent Networks (Elman, 1990, 1991, 1993) wird auf dieses Beispiel detaillierter eingegangen. Welche Art von Frequenzen wohl beachtet werden sollen, ist eine Frage, die in einem symbolischen Modell explizit von den Forschenden in Form von Produktionsregeln beantwortet werden muss. Ein konnektionistisches Modell beantwortet sie sozusagen von alleine. Künstliche neuronale Netze sind ziemlich gut darin die für eine bestimmte Aufgabe angebrachte Ebene der statistischen Analyse selbst herauszufinden – eine keinesfalls triviale Aufgabe. Dies gilt auch für die vorher angesprochenen mehrfach verschachtelten Relativsätze. Wie und unter welchen Randbedingungen diese von konnektionistischen Modellen geparst werden können, soll ebenfalls Gegenstand des Abschnitts über Simple Recurrent Networks sein. Wir sehen also, dass künstliche neuronale Netze eine Reihe an Eigenschaften mitbringen, die sie im Bereich der Kognitiven Modellierung zu einer echten Alternative zu symbolverarbeitenden Ar-8-

Kapitel 1: Konnektionismus

chitekturen macht. Insbesondere – und das werden die folgenden Abschnitte vertiefen – bei der Modellierung der menschlichen Sprachfähigkeit scheint es einige Argumente zu geben, die für den Gebrauch von konnektionistischen Modellen sprechen. Ein letztes Beispiel soll dies verdeutlichen bevor wir im folgenden Abschnitt die biologische Plausibilität von konnektionistischen Modellen diskutieren werden: Das Sprachsignal, das auf ein Kind aus seiner Umwelt einströmt, ist auf der Lautebene nicht segmentiert, wir können dies erfahren indem wir uns einer uns völlig unbekannten Sprache aussetzen. Wir werden in der Regel nicht in der Lage sein, einzelne Wörter zu identifizieren. Das Kind muss lernen, dass das Sprachsignal – um es zu verstehen und selbst ein verständliches produzieren zu können – in bestimmte Einheiten geteilt werden muss. Das wäre wohl einfacher wenn diese Einheiten, die Wörter, immer in der gleichen Gestalt auftreten würden, doch genau das ist nicht der Fall – die Signale, die am Ohr des Kindes ankommen, sind, auch wenn sie sich auf dasselbe Wort beziehen, in vielen Fällen unterschiedlich: Verschiedene Sprecher realisieren Wörter anders, die selben Sprecher sprechen in bestimmten Kontexten anders und so weiter. Ein Kind kann also, ohne eine Ahnung davon zu haben nach was zu suchen ist, Regularitäten im Sprachsignal herausfinden. Ein symbolisches Modell dieser Leistung müsste mit ziemlicher Sicherheit Wissen darüber „was ein Wort ist“ explizit enthalten. „But nobody would start to teach a child to understand speech by telling it what a word was“ (McLeod et al., 1998). Viel eher ist genau das gefragt, was konnektionistische Modelle offensichtlich gut können: Generalisierung, Abstraktion und sinnvolle statistische Auswertungen7, wann und in welchem Kontext bestimmte Einheiten im Sprachsignal vorkommen8.

1.1.2. Folgen einer verteilten Repräsentation von Information Verteilte Repräsentation von Information kann einen klaren Vorteil darstellen. Lokalistische Repräsentationsformen9 wären zwar technisch möglich, würden aber das Netzwerk unter Umständen einiger seiner Fähigkeiten berauben. Ein bestimmtes Aktivationsmuster über eine Reihe von Knoten kann man sich als Punkt in einem n-dimensionalen Raum vorstellen wobei n die Anzahl der Knoten ist. Die Ähnlichkeit bestimmter semantischer Konzepte (dies nur als Beispiel) kann das Netzwerk nun über den Abstand der verschiedenen Punkte, die durch die Aktivationsmuster festgelegt sind, im semantischen Raum repräsentieren. Eine der ersten und am besten untersuchten An-

Eben diese Fähigkeit, dass künstliche neuronale Netze in der Lage sind, die für eine Aufgabe sinnvollste und ergiebigste Ebene der statistischen Auswertung und Assoziation zu finden, entkräftet den (bspw. Pinker, 1999, 2002) Vorwurf, sie seien bloße Assoziationsmaschinen, die lediglich Wiederauflagen von David Humes Assoziationismus oder Pavlovs, Watsons oder Skinners Behaviorismus seien. 8 In vorliegender Arbeit kann die konnektionistische Lösung dieses Problems aus Platzgründen leider nicht dargelegt werden. Der Leser sei an den grundlegenden Artikel von Elman (1990) verwiesen. 9 Im Gegensatz zur verteilten ist bei einer lokalistischen Repräsentationsart jeder Knoten im Netzwerk semantisch interpretierbar, d.h. jedes einzelne formale Neuron steht für eine bestimmte Eigenschaft oder ein bestimmtes Objekt in der Welt. 7

-9-

Kapitel 1: Konnektionismus

wendungsmöglichkeiten von konnektionistischen Netzwerken dieser Form ist ein assoziativer Speicher, der große Mengen von arbiträren Assoziationen repräsentieren und abrufen kann (vgl. bspw. die klassische Arbeit von Kohonen, 1984) – und dies ist genau jene Anwendung, die dazu benötigt wird die arbiträren Verbindungen zwischen Wortformen und semantischen Inhalten in der natürlichen Sprache zu lernen und zu nutzen. Ein weiterer Vorteil von verteilten Repräsentationen ist ein gewisses Maß an Fehlertoleranz. Da Informationen und Berechnungen immer über das ganze Netzwerk verteilt sind, können andere Knoten oder Kanten immer den Verlust eines anderen Teils ausgleichen. Eine Möglichkeit, die bei rein lokalistisch organisierten Architekturen nicht gegeben wäre. Das gesamte System ist zwar ab einer gewissen Zahl von fehlenden Einheiten weniger genau und es würde nicht nur eine Information von der Läsion betroffen sein, dafür fällt bei einer verteilter Repräsentation aber auch nicht eine Information komplett weg wie dies bei lokalistischen Architekturen der Fall sein würde. „The ability of brains and connectionist models to continue to produce a reasonable approximation to the correct answer following damage, rather than undergoing catastrophic failure, is an example of fault tolerance referred to as graceful degradation.“ (McLeod et al., 1998: 34). In konnektionistischen Netzwerken gibt es keine Trennung zwischen Verarbeitung und Gedächtnis. Während wir bei der kurzen Besprechung symbolischer Architekturen noch sahen, dass es eine klare Unterscheidung zwischen Daten (einem Speicher für erlernte Informationen) und Programm (Operationen, die es dem System erlauben mit eingehenden Informationen umzugehen) gibt, fällt diese Unterscheidung bei konnektionistischen Modellen weg. Jede Information, die ein Netzwerk speichert (sein Gedächtnis) ist in den Gewichten der Verbindungen zwischen den einzelnen formalen Neuronen gespeichert – ebenso ist die Fähigkeit des Netzes zu jeder gelernten Verarbeitung in derselben Menge an Gewichten enthalten. Es sollen auch noch zwei Probleme angesprochen werden, die verteilte Repräsentationen nach sich ziehen. Im Gegensatz zu den typischen Abläufen im menschlichen Gedächtnis kann das Hinzufügen neuer Informationen in ein künstliches neuronales Netz bedeuten, dass bereits gespeicherte Information verloren geht. Um das Netz neue Informationen lernen zu lassen müssen die Gewichte der Verbindungen angepasst werden. Wird dies in nur einem Trial getan ist es wahrscheinlich, dass alte Information verloren geht. In einem lokalistischen System ist das Hinzufügen neuer Informationen relativ einfach, diese werden einfach an einer neuen Stelle im Gedächtnis gespeichert10 und beeinflussen so die bereits gespeicherten Informationen nicht. Auch das zweite Problem betrifft das Lernen neuer Informationen. Menschen merken sich Dinge, die sie wichtig, ungewöhnlich oder amüsant finden und eine Domäne betreffen, in der sie bereits ausreichendes Wissen besitzen um der Information diese Eigenschaften zuzuschreiben, sehr leicht.

Dazu muss natürlich eine neue Stelle frei sein. Ansonsten muss eine bereits belegte Stelle komplett überschrieben werden. 10

- 10 -

Kapitel 1: Konnektionismus

„Sehr leicht“ kann in diesem Fall heißen, dass dieses wie auch immer relevante Wissen bereits nach einer Präsentation erinnert wird. In anderen Worten: „Quick, cost-free, addition of new information to existing databases characterises certain sorts of human knowledge acquisition” (McLeod et al., 1998: 49). Wiederum scheint dies ein sehr einfacher Vorgang in einem lokalistischen System zu sein, man fügt einfach ein neues „Stück” Wissen hinzu, bzw. erweitert die Datenbank um einen Eintrag. Wie das sogenannte „one-trial-learning“ in einem System mit verteilter Repräsentation funktionieren soll, scheint schwieriger vorstellbar11. Andererseits muss auch bedacht werden, dass es viele Domänen menschlichen Lernens gibt, sowohl im Sinne einer Wissensakquisition als auch einem Erwerb von motorischen Fähigkeiten, in denen das Hinzufügen von Wissen graduell und mit dem Verlust (oder Verlieren-müssen) von altem Wissen einher geht. Wenn man beispielsweise die korrekte Aussprache eines Wortes aus einer Fremdsprache lernen möchte, muss man teilweise auch alte Reaktionsmuster verwerfen, da sie in einigen Teilen ungenau waren.

1.1.3. Sind konnektionistische Modelle biologisch plausibel? Bei aller Vorsicht, die man bei der Parallelisierung von künstlichen und natürlichen neuronalen Netzen walten lassen muss, lassen sich fünf Grundannahmen über Berechnungsprozesse im Gehirn formulieren, die die Basis für konnektionistische Modelle bilden – dieser Abschnitt soll auch als erste technische Einführung in konnektionistische Architekturen dienen (nach McLeod et al., 1998: 11ff): (1) Neurone integrieren Information, das heißt sie empfangen Information in Form von Aktivation ihrer Input-Neurone und leiten Information als Output weiter. Drei Phasen können unterschieden werden: (a) Empfang von exzitatorischen oder inhibitorischen Signalen verbundener Neurone an den Dendriten, (b) Feuern wenn die Summe dieser Signale einen gewissen Schwellenwert übersteigt, (c) Weiterleiten der Aktivation über das Axon an die Dendriten der verbundenen Neuronen. Eben diese Schritte werden auf der Berechnungsebene auch in künstlichen neuronalen Netzen ausgeführt. (2) Neurone leiten mehr als die bloße Information weiter, die sie Input erhalten haben. Der Output eines Neurons variiert systematisch um Informationen über die Stärke des Inputs weiterzugeben. Im realen Kortex geschieht dies durch eine variierende Feuerrate eines Neurons. Werden mehr Signale pro Zeit empfangen, werden auch mehr Signale pro Zeit weitergegeben. In künstlichen neuronalen Netzen wird dies ähnlich realisiert jedoch nicht über eine erhöhte Feuerrate, sondern über einen Aktivationswert, der jedem formalen Neuron zugewiesen ist. Steigt dieser AktivatiAnsätze hierzu sind natürlich vorhanden, sollen an dieser Stelle aber nicht eingehender diskutiert werden. Vgl. hierzu bspw. Regier (2005), der das sog. LEX-Modell über den Worterwerb (unter mehreren Blickwinkeln) bei Kindern im Alter von ca. zwei Jahren vorstellt. 11

- 11 -

Kapitel 1: Konnektionismus

onswert wird ein höherer Wert an alle verbundenen Neurone weiterkommuniziert, dies muss als Pendant zu einer erhöhten Feuerrate aufgefasst werden. Der Aktivationswert steht selbstverständlich in einer Beziehung zum Input, höherer Input bedeutet eine höhere Aktivation des Neurons. (3) Die Gehirnstruktur ist in Layer12 unterteilt. Informationen werden im Gehirn dadurch verarbeitet, dass Aktivation durch eine Abfolge von physikalisch unabhängigen Strukturen fließt. In allen beteiligten Hirnregionen gibt es Millionen von untereinander verbundenen Neuronen, die die ankommende Information transformieren und als Input an den nächsten Layer weiterleiten. Genau diese geschichtete Struktur findet sich auch in konnektionistischen Modellen wieder: Kein komplexes Modell wird ohne eine mehrfach geschichtete Struktur auskommen, ohnehin sind ja mindestens zwei Layer nötig: Input- und Output-Layer. Alle formalen Neuronen, die weder Input direkt vom Stimulus her beziehen noch die Reaktion des Netzwerks ausgeben, sind Hidden Units. Diese spielen eine unverzichtbare Rolle bei der Lösung von komplexen Problemen, dies wird in einem späteren Abschnitt detaillierter besprochen. (4) Der Einfluss eines Neurons auf ein ihm verbundenes Neuron hängt mit der Verbindungsstärke zusammen. Ein reales Neuron beeinflusst tausende von anderen Neuronen. Dieser Einfluss findet an der Verbindung von Axon und Dendrit, der Synapse, statt. Je stärker diese synaptische Verbindung ist, desto höher ist der Einfluss des sendenden Neurons auf das empfangende. Die formale Näherung an dieses Phänomen ist das Gewicht der Verbindung zwischen zwei formalen Neuronen. (5) Lernen ist die Veränderung der Verbindungsstärke zweier Neuronen. Erfahrung kann selbstverständlich das Verhalten eines Organismus beeinflussen, etwa die Reaktion auf einen bestimmten Reiz verändern. Wie die Abläufe genau vonstatten gehen, ist wissenschaftlich noch nicht einwandfrei geklärt, nichtsdestotrotz kann mit einiger Sicherheit angenommen werden, dass Lernen auch die Veränderung der Stärke einer synaptischen Verbindung zweier Neuronen mit einschließt. Dies wird in künstlichen neuronalen Netzen dadurch realisiert, dass bestimmte (mathematische) Regeln definiert werden, durch die das Verbindungsgewicht verändert oder angepasst wird. Dies ist eine zentrale Auffassung des konnektionistischen Paradigmas und verweist wiederum auf die Berechnungshypothese, die einleitend erwähnt wurde. Viele konnektionistische Modelle sind in erster Linie Modelle des Lernens, wie also eine bestimmte Sequenz von Erfahrungen ein ursprünglich unstrukturiertes System zur Wissensakquise führen kann. Auch die verschiedenen Arten des Lernens werden in einem späteren Abschnitt genauer dargestellt. Sind nun konnektionistische Modelle biologisch plausibel? Die Abstraktionen (beispielsweise die Umformung von Feuerraten zu einem Aktivationswert) sind sicherlich vielfältig und auch bei den

Um im Fortgang der Arbeit eine einheitliche Terminologie zu gewährleisten wird hier das englische Wort „Layer“ benutzt da im konnektionistischem Sprachgebrauch einige besondere Arten von Layern existieren, beispielsweise der sogenannte Hidden-Layer oder bei Simple Recurrent Networks der Context Layer. Ein deutsches Pendant wäre „Schicht“. 12

- 12 -

Kapitel 1: Konnektionismus

verschiedenen Lernalgorithmen wird zu sehen sein, dass die Abstraktion von biologischen Prozessen wohl doch eine große Entfernung von der Realität nach sich zieht. Doch der Anspruch ist auch nicht, zu zeigen, dass das Gehirn aus Verbindungen und Knoten besteht, sondern dass eine Architektur die von der biologischen Realität inspiriert13 ist, als echte Alternative zu symbolverarbeitenden Architekturen gelten kann.

1.1.4. Exkurs: Kognitive Modellierung In diesem Abschnitt soll in aller Kürze erläutert werden, warum die Kognitive Modellierung ein mächtiges Instrument für (Psycho-)LinguistInnen darstellen kann und eine Alternative oder zumindest Gewinn bringende Ergänzung zum kognitionspsychologischen, experimentellen Ansatz (vgl. Strube, 2000) sein kann. Zuallererst generiert Kognitive Modellierung nur Computerprogramme. Jenen muss der Status von wissenschaftlichen Theorien zuerkannt werden, denn sie liefern Erklärungen und sind falsifizierbar. Ein Vorteil, den diese Programme gegenüber wissenschaftlichen, verbal formulierten, Theorien haben, ist, dass sie immer – und das ist der Computerumgebung geschuldet – präzise, vollständig und frei von Fehlern14 sein müssen. So entstandene Theorien können auch als „generative“ Theorien bezeichnet werden da sie die Ergebnisse, die sie erklären sollen, selbst produzieren (vgl. Strube, 2001). Das Ziel eines Modells ist es, vorliegende empirische Ergebnisse und den Weg dorthin zu simulieren. Ein fertiges Programm kann wiederum mit neuen Studien überprüft und gegebenenfalls angepasst werden, man kann deshalb auch von einer zyklischen Modellentwicklung sprechen. Simon und Wallach (1999) sehen sechs Kriterien, die für ein Modell wünschenswert sind: (1) Produktkorrespondenz, d.h. das Modell soll dieselben Ergebnisse hervorbringen wie das modellierte Konstrukt, (2) Korrespondenz der Zwischenschritte, d.h. das Modell soll dabei die selben Zwischenschritte durchlaufen, (3) Zeitkorrespondenz, d.h. das Modell sollte relativ gesehen genauso viel Zeit benötigen wie reale Versuchspersonen, (4) Fehlerkorrespondenz, d.h. es ist überaus wünschenswert wenn das Modell Fehler macht, sie sollten nur dieselben Muster aufweisen wie jene der realen Versuchspersonen15, (5) Korrespondenz der Kontextabhängigkeit, d.h. eine Veränderung des Aufgabenkontext sollte sich auf Modell und Realität möglichst ähnlich auswirken und (6) Korrespondenz des Lernens, d.h. es sollte eine möglichst starke Parallelität zwischen dem herrschen, was und wie schnell vom Modell und den Versuchspersonen gelernt wird.

„Inspiriert“ scheint wohl der Terminus zu sein, auf den sich die meisten Forschenden (Mayberry, 2003: 9; McLeod et al., 1998: 9; Rohde, 2002: 10) verständigt haben. M.E. spiegelt dies das Verhältnis zwischen Realität und Modell sehr gut wider. 14 Hier sind selbstverständlich nicht Fehler in der Theorie gemeint, sondern Fehler auf einer niedrigeren Ebene, bspw. Syntaxfehler in einer Programmzeile oder die Anbindung einer falschen Variablen. 15 In der Tat ist es so, dass oft die Fehler, die ein Modell macht, die aufschlussreichste Komponente ist. 13

- 13 -

Kapitel 1: Konnektionismus

Sicherlich kann auch ein Modell, das möglichst viele Kriterien erfüllt niemals die letztendliche Wahrheit garantieren, denn es gilt, dass ein Modell immer als Funktion der verwendeten Repräsentationen und Prozesse aufgefasst werden muss, es gibt also immer unendlich viele mögliche Modelle für ein und denselben Datensatz – das Ziel ist zunächst, ganze Klassen von Modellen auszuschließen. Ist ein Modell lauffähig, ist damit die Analyse noch nicht beendet. Es bietet nun den Forschenden die Möglichkeit „as-if studies“ (Strube, 2000) anzustellen, also beispielsweise dem Modell Läsionen zuzufügen um den Einfluss von geringeren (auch zeitlichen) Ressourcen auf die Leistung zu untersuchen. Durch diese Methode kann unter anderem analysiert werden, inwieweit bestimmte Strukturen und Prozesse interagieren und welchen Beitrag sie zur Gesamtleistung des Modells leisten16. Trotz aller Vorteile, die diese Methode mit sich bringen kann, gibt es doch einige Probleme, die es zu beachten gilt. Dazu gehört beispielsweise auch der Umgang mit Parametern, mit denen man praktisch jedes Modell an jeden beliebigen Datensatz anpassen kann. Unter dem Stichwort „Occam’s Razor“ ist der sparsame bzw. auf das nötigste beschränkte Einsatz von frei adjustierbaren Parametern17 bekannt. Ein Beispiel: SAM, ein assoziatives Gedächtnismodell (Raaijmakers & Shiffrin, 1981), sollte den Positionseffekt beim freien Erinnern zeigen, also dem ungesteuerten Reproduzieren einer zuvor gelernten Wortliste. Wörter, die zu Beginn oder am Ende der gelernten Liste standen, werden hierbei typischerweise besser behalten als jene aus der Mitte. SAM hat freie Parameter für die Assoziationsstärken zwischen Item und Liste, aus Plausibilitätsgründen wurde nun unterstellt, dass diese Assoziationsstärken für die ersten und letzten Wörter der Liste höher sein müssten. Nach entsprechender Einstellung dieser Parameter (seitens der Forschenden) zeigte SAM selbstverständlich den gewünschten Positionseffekt. Dies war jedoch nicht auf die internen Abläufe des Modells zurückzuführen, sondern allein auf die manuelle Einstellung der Parameter. Das heißt, egal welches Modell mit welchen internen Abläufen, Repräsentationsformen usw. man verwendet: wenn zu viele frei adjustierbare Parameter vorliegen, kann jedes Modell den Positionseffekt hervorbringen – die Erklärungskraft ist jedoch gleich Null. Erklärt jedoch ein Modell viele bekannte Phänomene in einem Ansatz und verzichtet dabei auf eine überwältigende Zahl an Parametern oder (und dies kann als der Königsweg angesehen werden) kann ein bisher unbekanntes bzw. bei der Modellierung gar nicht beachtetes Phänomen vorhersagen und erklären (sozusagen als „Nebenprodukt“18), kann dies als aussagekräftiges Qualitätsmerkmal gesehen werden. Was – nicht zuletzt – bei der Erstellung von kognitiven Modellen beachtet werden muss, ist, dass zur Erstellung des Modells

Bei konnektionistischen Modelle hat dies beispielsweise Schneider (1988, zitiert nach Strube, 2000) praktiziert. 17 Außerdem sollte bezüglich der Parameter auch getestet werden, wie sensibel das Modell auf eine kleine Veränderung in einer kleinen Zahl von Parametern reagiert. Bricht die Performanz beispielsweise schnell zusammen wenn kleine Veränderungen vorgenommen werden oder reagiert das Modell darauf großzügig? 18 Der sogenannte „Fan-Effekt“, der bei Modellen in der kognitiven Architektur ACT-R auftritt, kann als ein solches Nebenprodukt angesehen werden. 16

- 14 -

Kapitel 1: Konnektionismus

verwendete Daten nicht zu deren Überprüfung verwendet werden. Typischerweise wird daher der Datenbestand in Trainings- und Testmaterial unterteilt. Kognitive Modellierung ist immer auch Modellierung zweiter Ordnung. Mentale Repräsentationen können als Modelle der uns umgebenden Welt (und unserer selbst als darin Handelnde) aufgefasst werden. Handlungskontrolle bedarf immer eines möglichst kohärenten Modells der augenblicklichen Situation – die Produkte unserer Wahrnehmung, Objekte und Ereignisse, sind eben die Kategorien, die wir für die Bildung eines Situationsmodells und damit für unsere Handlungsplanung benötigen. Diese Modellbildung bildet einen wesentlichen Teil unserer kognitiven Prozesse, die ja durch die Kognitive Modellierung erfasst werden sollen. Es wird also modelliert, wie kognitive Systeme sich Modelle ihrer Umgebung (und ihrer selbst) konstruieren.

1.2. Technische Grundlagen 1.2.1. Die Hebbregel und Musterassoziatoren Eine der einfachsten Regeln, die Lernen realisieren soll, ist die Hebb-Regel. Diese lässt sich auf einschichtige19 Netzwerke anwenden, die lernen ein bestimmtes Muster (beispielsweise das Aussehen eines geschriebenen Wortes) mit einem anderen (z.B. dem Klang des Worts) zu assoziieren. Die Hebb-Regel formalisiert die Idee, dass eine Verbindung zwischen zwei Neuronen verstärkt wird wenn sowohl präsynaptische (von Muster 1) als auch postsynaptische Aktivation (von Muster 2) anliegt. Es müssen also zwei Phasen unterschieden werden: die Trainingsphase in der die zu assoziierenden Muster beide anliegen und in der die Gewichte dementsprechend angepasst werden, dass diese Assoziation gelernt werden kann und die Testphase, in der die Assoziationen überprüft werden, die das Netzwerk herausgebildet hat. Die Verbindungen, die während der Trainingsphase angepasst wurden, sorgen in der Testphase dafür, dass das Outputneuron dann aktiviert wird wenn im Inputmuster (sozusagen der Erinnerungshinweis) eine Einheit aktiviert ist. Wenn die Anwendung der Hebb-Regel immer die Verbindung zweier Neurone (also hier der Input- und Outputschicht) stärkt sobald Aktivation an beiden anliegt, ist es wenig überraschend, dass das Netzwerk ein Muster korrekt mit einem anderen assoziiert. In den Verbindungsgewichten können auch mehrere Assoziationen gespeichert werden. Es liegt auf der Hand, dass diese Aufgabe immer schwieriger wird je mehr Verbindungen zwischen Input- und Outputmuster gelernt werden da die Interferenz zwischen ihnen immer größer wird, dies gilt insbesondere für Muster, die sich sehr ähnlich sind. Doch der Mangel an interferenzfreiem Speicherplatz muss nicht als ein ungewünschter Effekt einer (hier zugegebenermaßen sehr einfachen) Gedächtnissimulation aufgefasst werden. Interferenz ist die

Einschichtig bedeutet hier, dass es eine Verbindungsschicht gibt, also einen Input- und einen OutputLayer. Welche Aufgaben einschichtige Netzwerke nicht erfüllen können wird im folgenden Abschnitt besprochen. 19

- 15 -

Kapitel 1: Konnektionismus

Basis für wichtige Eigenschaften des Netzwerks wie Generalisierung und dem Erstellen von Prototypen20. Generalisierung geschieht hier aus Gründen, die direkt in der Architektur liegen und nicht aufgrund explizit formulierter Regeln. Wenn in der Testphase ein Erinnerungshinweis an die InputSchicht angelegt wird, der so nicht in der Trainingsphase gelehrt wurde, sondern lediglich Ähnlichkeiten mit einem erlernten Input-Muster aufweist, wird ein Musterassoziator ein ähnliches Ergebnis produzieren wie jenes, das er beim erlernten Muster produzieren würde. Dies geschieht weil die modifizierten Verbindungsgewichte auch mit dem neuen Input-Muster verrechnet werden, ungeachtet der Tatsache, dass dieses nicht gelernt wurde. Kleine Unterschiede können durch eine Schwellenwertaktivierungsfunktion auch außer Acht gelassen werden. In the world faced by real biological systems, recall cues are rarely identical to patterns experienced during learning. So a mechanism which automatically generalises across slight differences in input patterns has obvious adaptive value (McLeod et al., 1998: 61).

Eine weitere Eigenschaft dieser Musterassoziatoren ist die schnelle, parallele Verarbeitung. Dabei hat es wenig Einfluss auf die Geschwindigkeit, mit der eine Antwort generiert wird, wie viele Verbindungen das Netzwerk hat21 – ganz im Gegensatz zur Arbeitsweise eines herkömmlichen Computers, dessen Verarbeitungszeit sich natürlich mit der steigenden Anzahl von Verbindungen steigert da für jedes Gewicht mehrere Additionen und Multiplikationen durchgeführt werden müssen. Parallelität findet in konnektionistischen Architekturen auf zwei Arten statt: Einerseits wird der Aktivationswert eines Knotens gleichzeitig von allen mit ihm verbundenen Knoten bestimmt, andererseits geschieht dies mit allen Neuronen einer Schicht gleichzeitig.

1.2.2. Die Deltaregel und Autoassoziativspeicher Das Ziel eines autoassoziativen Speichers22 ist es, als Output dasselbe Muster zu produzieren wie am Input anliegt. Dies wird dadurch erreicht, dass während der Trainingsphase die Verbindungsgewichte so verändert werden, dass der interne Input an jedem Knoten dem externen Input gleicht. Hierzu muss lediglich die Differenz zwischen internem und externem Input berechnet werden und die Verbindungsgewichte in jene Richtung angepasst werden, die den Unterschied verringert. Wenn der interne Input, der einen Knoten erreicht, kleiner als der externe Input ist werden die Gewichte jener Verbindungen gestärkt, die einen positiven Input weiterleiten und jene geschwächt, die einen

20 Auf die Fähigkeit von künstlichen neuronalen Netzen, Prototypen zu extrahieren wird in Kapitel 2 der vorliegenden Arbeit genauer eingegangen. Dabei wird ein konnektionistisches Modell (McClelland & Rumelhart, 1985) vorgestellt. 21 Dies ist eine theoretische Annahme insofern, dass die Simulation künstlicher neuronaler Netze auf seriell arbeitenden Computern stattfindet. Das heißt bei der Modellierung solcher Netzwerke ist man trotzdem der – in diesem Falle – langsameren, nicht parallelen Arbeitsweise unterworfen. 22 Ein Autoassoziativspeicher unterscheidet sich von einem Musterassoziator entscheidend dadurch, dass jeder Knoten mit jedem anderen Knoten verbunden ist. Daher ergeben sich zwei „Arten“ von Input: Externer Input, der am Input-Layer anliegt und interner Input, der zwischen den Knoten fließt.

- 16 -

Kapitel 1: Konnektionismus

negativen Input an den Knoten übergeben. Vice versa wenn der interne Input höher ist als der externe, das führt zu folgender Regel für die Gewichtsanpassung der rekurrenten Verbindung von Knoten j zu Knoten i:

∆wij = ε δi aj Wobei ∆wij die angesprochene Gewichtsanpassung, ε eine Konstante, die bestimmt wie groß die Anpassung pro Trial ist (Lernrate), δi der Fehler23 an Knoten i und aj die Aktivation von Knoten j ist. Durch die Aufnahme dieses letzten Elements kann gewährleistet werden, dass die Anpassung jener Gewichte größer ist, die einen hohen Einfluss auf i haben da das Gegenstück, Knoten j, stark aktiviert ist. Die Veränderungen sind dadurch auf jene Verbindungen konzentriert, die den größten Einfluss auf den internen Input von i haben. Diese Regel unterscheidet sich insofern von der Hebb-Regel, dass sie einen gewünschten Idealzustand beinhaltet (nämlich δi = 0) und jene Verbindungen stärkt, die den Unterschied zwischen aktuellem und gewünschtem Zustand verringern können, im Gegensatz dazu stärkt die Hebb-Regel einfach jede Verbindung, an der sowohl der sendende als auch der empfangende Knoten aktiviert ist. Auch ein autoassoziativer Speicher kann mehrere Muster auf einer Gewichtsmatrix (der Gesamtmenge aller Gewichte) speichern. Das Netzwerk wird die Gewichte so anpassen, dass diese die Korrelation der Muster an den entsprechenden Knoten ausdrücken. Wenn beispielsweise in allen Mustern die Knoten 1 und 4 hohen externen Input erhalten, wird das Netzwerk diese Korrelation durch ein hohes Verbindungsgewicht repräsentieren. Genauso können negative Korrelationen gespeichert werden oder weniger stark positive und weniger stark negative Korrelationen (hier wird das Verbindungsgewicht dann weniger positiv oder negativ ausfallen). Jedes Verbindungsgewicht in einem Autoassoziator spiegelt also die Korrelation zwischen den Zuständen in verschiedenen Mustern der beiden Knoten wider, die es verbindet – positive Gewichte für positive Korrelationen und negative für negative24. Dies führt dazu, dass autoassoziative Speicher Muster vervollständigen können. Stellen wir uns vor, in einem achtteiligen Inputmuster (dem externen Input) fehlt die Hälfte. Dieser Fehler ist, wie schon erwähnt, die Differenz zwischen externem und internem Input, der bei Knoten i ankommt. Der interne Input errechnet sich logischerweise wie folgt: Σj aj wij, also die Summe aller Aktivationen der verbundenen Knoten multipliziert mit den Verbindungsgewichten der rekurrenten Verbindungen. 24 Genau genommen ist die Ausprägung eines Gewichts nicht ein simpler Ausdruck der Stärke der Korrelation zwischen den Aktivationswerten zweier Knoten. Die Stärke des Verbindungsgewichts wird auch davon beeinflusst, inwieweit sich das Netzwerk bei der Vorhersage des Aktivationswerts eines bestimmten Knoten auf eine bestimmte Korrelation verlässt. Wenn also die Aktivationsmuster zweier Knoten (bspw. i und j) perfekt miteinander korrelieren, dann wird das Gewicht der Verbindung zwischen diesen beiden Knoten auch durch die Anzahl der Knoten beeinflusst, die ebenfalls mit j verbunden sind. Der Knoten i ist also nicht allein dafür „verantwortlich“, die Aktivation von j vorherzusagen, die Vorhersageleistung ist vielmehr über alle Knoten verteilt, die ebenfalls mit j verbunden sind. Für eine detaillierte Darstellung vgl. McClelland & Rumelhart (1985: 170). 23

- 17 -

Kapitel 1: Konnektionismus

Trotzdem wird das Netzwerk in der Lage sein als Output das komplette Muster zu liefern denn es hat gelernt – also in den Gewichten gespeichert – dass beispielsweise der letzte Knoten positiv mit dem ersten korrelierte und der vorletzte negativ mit dem dritten und so weiter. So wird der externe Input an den Knoten mit fehlendem Input zwar 0 sein, aber dadurch das der Input an Knoten 1 positiv ist, wird – wegen der erlernten Korrelation – der interne Input dafür sorgen, dass der entsprechende Output trotzdem produziert wird, wenn auch nicht ganz so stark wie wenn das Muster vollständig gewesen wäre. Dies funktioniert ebenfalls mit verrauschtem Input. Wenn in unserem Beispiel ein Input abweichend wäre (beispielsweise das falsche Vorzeichen hätte), würde der interne Input der anderen Knoten so starken Einfluss auf den Output dieses Knotens haben, dass dieser zu großen Teilen korrigiert wird. Wir sehen also, dass ein Autoassoziator eben nicht nur den Input repliziert, sondern auch unvollständigen oder verrauschten externen Input „reparieren“ kann. Dies scheint ein wünschenswertes Charakteristikum zu sein, denn bei der menschlichen Sprachwahrnehmung sind in den allermeisten Fällen nicht die Abweichungen oder Störungen interessant. Es geht viel eher darum den Prototypen, also das korrekte Sprachsignal, zu identifizieren, von dem die Signale abgeleitet sind25.

1.2.3. Die Gradientenabstiegsmethode Eine weitere Möglichkeit des Lernens ist die Gradientenabstiegsmethode. Netzwerke, die mit dieser Methode trainiert werden, versuchen in einer sogenannten „Fehlerlandschaft“ (in Netzwerken mit einem Layer von Verbindungen ist dies immer eine Kurve mit einem einzigen globalen Minimum) den niedrigsten Punkt zu finden. Auf die technischen Details soll hier nicht weiter eingegangen werden, es muss im Rahmen dieser Arbeit genügen, einen groben, intuitiven Zugang zur Funktionsweise zu erlangen. Trainiert man ein Netzwerk mit der Gradientenabstiegsmethode, manövriert man das Netzwerk durch einen Raum von Zuständen, den man auch als Fehlerlandschaft auffassen kann. Wenn man lediglich ein Gewicht dabei variiert erhält man ein zweidimensionales Schaubild, nimmt man ein zweites hinzu, lässt es sich tatsächlich als Landschaft oder Ebene darstellen. Den Zustand des Netzwerkes kann man sich dann als Ball vorstellen, der in der Landschaft umherrollt und den niedrigsten Punkt sucht.

Eine eindrucksvolle Studie zu autoassoziativen Speichern wurde von Hertz et al. (1991) durchgeführt. Sie speicherten sieben Bilder in einem autoassoziativen Netzwerk und in der Testphase präsentierten sie entweder verrauschte oder unvollständige Bilder. Trotz der schlechten Informationen, die diese Erinnerungshinweise lieferten, war das Netzwerk in der Lage das ursprünglich erlernte Bild abzurufen.

25

- 18 -

Kapitel 1: Konnektionismus

Wenn der Fehler im niedrigsten Punkt nicht gleich Null ist, bedeutet das, dass die Aufgabe in diesem Netzwerk nicht optimal zu lösen ist. Dies kann unter anderem daran liegen, dass eine lineare Aktivierungsfunktion im Netzwerk verwendet wird26. Die Lösung liegt in diesem Fall in der Verwendung einer sigmoiden Aktivierungsfunktion, die das Verhältnis zwischen ankommendem Input (netinput) und der Aktivation des Knotens folgendermaßen definiert (siehe auch Abbildung 1):

ai =

1 (1 + e

− netinput i

)

Diese Funktion beschränkt die maximale Aktivation eines Knotens auf 1, egal wie groß der Input für ihn ausfällt, die minimale Aktivation ist 0, ungeachtet der Stärke von negativem Input. Das heißt, dass sich ein Knoten mit dieser Aktivierungsfunktion an den „Rändern“ der Funktion verhält wie bei einer SchwellenAbbildung 1: Schaubild einer sigmoiden Aktivierungsfunktion (aus Elman, 1993).

wertfunktion, der entscheidende Unterschied jedoch ist, dass die Aktivation sich langsam und stetig von

Minimum zu Maximum verändert und dass die Steigung der Kurve niemals 0 oder ∞ ist. Die Steigung ist bei einem netinput von 0 am höchsten (die Aktivation eines Knotens nimmt in diesem Fall den Wert 0,5 an). Die Charakteristik dieser Funktion birgt einige Vorteile, so können sich auch Knoten am Lernprozess beteiligen, die keinen netinput empfangen (da sie eine Aktivation von 0,5 haben), außerdem ist die Steigung der Kurve eben an diesem Punkt (netinput = 0) am höchsten, d.h. die größten Veränderungen an den Verbindungsgewichten werden um diesen Punkt vorgenommen – man kann sagen, das Netzwerk lernt am Anfang am schnellsten da typischerweise die Anfangsgewichte um 0 zufallsverteilt werden, was dazu führt, dass zu Beginn der Lernphase an jedem Knoten ein netinput um 0 ankommt. Während des Trainings werden Knoten, die bereits viel (positiven oder negativen) netinput empfangen, wenig Veränderungen an ihren Gewichten nach sich ziehen, da die Steigung der Aktivierungsfunktion in den Extremen nahe 0 geht. Das bedeutet ihre Rolle in der Lösung des aktuellen Problems wird nicht verändert, wohingegen andere, noch unbeteiligte Knoten viel Veränderung an den Gewichten vornehmen27.

Jedes Netzwerk mit mehreren Layern und linearer Aktivierungsfunktion kann durch ein Netzwerk mit einem Layer von Verbindungen äquivalent beschrieben werden. Ein weiterer Nachteil der linearen Aktivierungsfunktion ist, dass die Aktivation der Knoten ins Unendliche wachsen kann. Wenn sich der Gesamtinput der Knoten untereinander erhöht, erhöht sich auch die Aktivation – ohne eine Obergrenze. 27 Vgl. hierzu auch Elman (1993: 91ff). 26

- 19 -

Kapitel 1: Konnektionismus

1.2.4. Lineare Separierbarkeit und der Hidden-Layer Einfach konnektionistische Netzwerke mit einem Layer (also einer Input- und einer Outputschicht) können lediglich Probleme lösen, die linear separierbar sind. Abbildung 2 verdeutlicht das Konzept der linearen Separierbarkeit. In diesen Schaubildern sind die logischen Funktionen

0,1

1,1

0,1

1,1

0,1

1,1

0,1

1,1

0,0

1,0

0,0

1,0

0,0

1,0

0,0

1,0

AND

OR

XOR

Abbildung 2: Die logischen Funktionen AND, OR und XOR, repräsentiert in zwei Dimensionen (basierend auf McClelland & Rumelhart, 1988)

AND, OR und XOR dargestellt, jede Funktion wird durch einen zweistelligen Input repräsentiert und klassifiziert diesen in einen Output. Die Lösung dieses Problems kann auch als die Abbildung eines zweidimensionalen Inputraums auf einen eindimensionalen Outputraum gesehen werden. Der zweidimensionale Inputraum ist in Abbildung 2 gezeigt. Der eindimensionale Outputraum kann als gerade Linie repräsentiert werden, die den Inputraum jeweils in zwei Kategorien teilt. Jene Inputmuster, die schwarz ausgefüllte Kreise haben, werden mit dem Output 1 belegt (das heißt die logische Funktion ist erfüllt). Wir sehen, dass die verschiedenen Output-Muster (0 oder 1) sowohl bei AND als auch bei OR durch eine gerade Linie separierbar sind28. Das heißt diese Probleme sind mit einem einfachen, einschichtigen Netzwerk lösbar. Natürlich sind noch andere Linien mit anderen Steigungen und anderen Schnittpunkten mit den Achsen denkbar, diese korrespondieren mit den verschiedenen Arten des Netzwerks, dieses Problem zu lösen (also den verschiedenen Konstellationen von Verbindungsgewichten). Die einzige Möglichkeit den Problemraum im Falle der XORFunktion zu separieren zeigt das Schaubild ganz rechts – mit einer geraden Linie ist dies nicht möglich, folglich ist das Problem nicht linear separierbar. Erst die Hinzunahme von sogenannten Hidden-Units, versteckten Knoten, deren definitorisches Merkmal ist, weder Input- noch Outputknoten zu sein29, versetzen ein konnektionistisches Netz in die Lage, nicht linear separierbare Probleme zu lösen. Dabei wird der Input im Hidden-Layer intern neu repräsentiert. Wenn die Input-Muster Charakteristika aufweisen, die die korrekte Umwandlung

Würde die Zielfunktion einen dreidimensionalen Raum einnehmen (also ein Muster, das drei Knoten zur Repräsentation benötigte), müsste der Problemraum durch eine Ebene separierbar sein. 29 Daher sind sie sozusagen vor der Umwelt des Netzwerkes „versteckt“. 28

- 20 -

Kapitel 1: Konnektionismus

zu Output-Mustern unlernbar machen, kann das Netzwerk nun den Input in einer Form umorganisieren, in der die korrekte Transformation lernbar wird30. Die Deltaregel sowie die Gradientenabstiegsmethode benutzen einen bestimmten Fehlerwert δ, der sich aus dem Unterschied zwischen gewünschtem und erhaltenem Input errechnete, um die Verbindungsgewichte in die richtige Richtung anzupassen. Will man dieses Verfahren auch in einem mehrschichtigen Netzwerk anwenden, steht man vor einem schwerwiegenden Problem: Will man die Verbindungen anpassen, die in die Hidden-Units führen, müsste man einen gewünschten Output-Wert für die Hidden Units annehmen. Da dieser jedoch nur für die Output-Knoten vorliegt können wir nicht sagen wie groß die Aktivation der Hidden Units sein sollte, und somit können wir auch keinen Fehlerwert für diese errechnen. Eine einfache Heuristik umgeht dieses Problem: Da man davon ausgehen kann, dass der Fehler an einem Output-Knoten etwas mit den Hidden-Units zu tun haben muss, die diesen aktivieren, kann man diesen Hidden-Units eine gewisse „Schuld“ am Output-Fehler zuschreiben. Diese „Schuldzuweisung“ muss natürlich umso stärker sein, je größer die Verbindungsstärke zwischen der Hidden-Unit und dem Output-Knoten ist. Dabei muss beachtet werden, dass jede Hidden-Unit mit mehreren Output-Knoten verbunden ist, also ist der Fehler für eine Hidden-Unit die Anhäufung von „Fehlerschuldzuweisungen“ von allen mit der Einheit verbundenen Output-Knoten. The hidden unit accumulates error from the output units in the reverse of the way an output unit accumulates input from the hidden units. The algorithm works as if the error at output were being propagated backwards through the network in the same way that activity is normally propagated forward (McLeod et al., 1998: 114).

Nicht von ungefähr sehen die Gleichungen für (1) die Aktivation der Output-Knoten und (2) den Fehler der Hidden Units sich zum Verwechseln ähnlich, Abbildung 3 verdeutlicht welche Gleichung wo und in welche „Richtung“ angewandt wird: (2)

(1) aout = F(Σhidden w ahidden) (2) δhidden = F(Σout w δout) in-

(1)

out

Abbildung 3: Ein mehrschichtiges Netzwerk mit einer Hidden Unit. Der gestrichelte Pfeil verdeutlicht die Zurückpropagierung des Fehlers.

Da in Gleichung (2) alle Werte bekannt sind, kann nun auch den Hidden-Units ein Fehler zugewiesen werden. Dieser Wert kann dann dazu verwendet werden, die Verbindungen zwischen den Hidden-Units und den Knoten zuvor31 in der gewöhnlichen Form anzupassen. Als Grundsatz für die

Eine bekannte und anschauliche Studie zur internen Repräsentation in Hidden Units ist jene über Verwandtschaftsbeziehungen in zwei isomorphen Familienstammbäumen von Hinton (1986). Hier wird deutlich, in wie weit insbesondere die Repräsentation in den Hidden-Units Inferenzen erlauben, die über die gegebenen Daten hinausgehen. 31 Diese müssen nicht unbedingt die Input-Knoten sein, hat ein Netzwerk mehrere Hidden-Layer hintereinander, wird der Fehler einfach durch mehrere Schichten „hindurchpropagiert“. 30

- 21 -

Kapitel 1: Konnektionismus

Deltaregel und die Gradientenabstiegsmethode gilt, dass die Lösung für ein Problem gefunden wird – gesetzt den Fall, diese existiert. Wir haben gesehen, dass in einem einschichtigen Netzwerk nicht für jedes Problem eine Lösung gefunden werden kann. Für den sogenannten BackpropagationAlgorithmus gilt nun das Gegenteil: Er kann garantieren, dass es eine Lösung gibt, aber nicht, dass diese auch gefunden wird. Verdeutlicht wird dies wiederum durch die Fehlerlandschaft, die ein mehrschichtiges Netzwerk durchlaufen kann. Diese kann lokale Minima enthalten, in denen das Netzwerk auf der Suche nach dem globalen Minimum „stecken bleiben“ kann. Dieses lokale Minimum ist dadurch definiert, dass an dieser Stelle die Steigung der Fehlerkurve zwar 0 ist, aber der Fehler immer noch höher ist als im globalen Minimum. Da der A

Lernalgorithmus die Verbindungsgewichte immer in Abhängigkeit zur aktuellen Steigung verändert, wird er – einmal in einem

Fehler

lokalen Minimum „gefangen“ – die Suche nach einem niedrigeren Fehler einstellen. Es gibt keine perfekte Lösung, die sicherlok. Min.

stellen würde, dass ein Netzwerk niemals in einem lokalen Minimum stecken bleibt. Eine Lösung wäre die Änderung der

Gewicht Abbildung 4: Eine Fehlerkurve mit einem lokalen Minimum (nach McLeod et al., 1998: 115f).

Lernrate (siehe Abbildung 4). Punkt A stellt die augenblickliche Position des Netzwerkes in der Fehlerlandschaft dar, die ein lokales Minimum hat. Backpropaga-

tion wird nun das Gewicht erhöhen und das Netzwerk wird die Kurve „hinunterrollen“, also wie gewünscht den Fehler verringern. Wenn jedoch die Gewichtsveränderung klein ist weil die Lernrate (ε) gering ist, wird das Netzwerk pro Zeitschritt auch wenig Strecke auf der Kurve zurücklegen. Es wird dann wohl unweigerlich im lokalen Minimum landen und nicht mehr versuchen das Gewicht anzupassen – es wird sich also so verhalten als hätte es die Lösung gefunden und niemals den Wert herausfinden, den das Gewicht benötigte um den minimalen Fehler herzustellen. Erhöht man die Lernrate werden die Schritte der Anpassungen größer, die das Netzwerk pro Durchlauf an den Gewichten vornimmt. Die Hoffnung besteht also darin, dass der Netzwerkzustand über das lokale Minimum hinweg „springt“. Ist die Lernrate zu hoch besteht allerdings auch die Möglichkeit, dass das Netzwerk zwischen zwei Punkten hin- und herspringt weil die Gewichtsanpassung pro Schritt zu hoch ist und somit auch niemals das globale Minimum erreichen wird. Der Punkt, an den das Netzwerk bei zu großer Lernrate springen könnte, ist in Abbildung 4 mit einem Pfeil markiert32.

Als Ausblick soll hier noch auf eine weitere, besondere Art des Lernens in konnektionistischen Netzwerken verwiesen werden: die evolutionären Algorithmen. Forschende in diesem Bereich greifen die Selektionsidee der Evolutionstheorie auf und lassen Netzwerke „mutieren“, das heißt Komponenten des Netzwerks oder die Verbindungsgewichte werden mehr oder weniger zufällig verändert und das Netzwerk wird danach getestet ob es eine bestimmte Aufgabe erfüllen kann. Die Netzwerke, die nicht an die gestellte Aufgabe „angepasst“ sind, sterben aus. Jene, die die Aufgabe am besten erfüllen, bekommen die Möglichkeit, sich weiter zu entwickeln (vgl. bspw. Angeline et al., 1994). 32

- 22 -

Kapitel 1: Konnektionismus

1.3. Konnektionismus und Sprache: Elmans Simple33 Recurrent34 Networks 1.3.1. Wozu Simple Recurrent Networks? Jeffrey L. Elman stellte in seinem in am Konnektionismus interessierten Kreisen zur Pflichtlektüre avancierten Text „Finding Structure in Time“ (1990) die Simple Recurrent Networks (SRN) vor. Diese stellten insofern einen Durchbruch im konnektionistischen Paradigma dar, als dass nun sequentieller Input verarbeitet werden konnte (was ja für Sprache überaus wichtig ist). Bis dato war die am weitesten verbreitete Lösung, Zeit im Input zu repräsentieren, dieser eine räumliche Ausprägung im Input-Vektor zu geben35. Was jedoch eher benötigt wird, ist ein Netzwerk, das mit „echtem“ sequentiellem Input umgehen kann – eine Architektur, die eine Art von „Gedächtnis“ hat. Als eine solche kann man die SRNs betrachten. Zeitliche Abfolgen werden hier nicht als expliziter Teil des Inputs realisiert, sondern durch den Einfluss, den zeitliche Abfolgen auf die internen Prozesse des Netzwerks haben. Im Gegensatz zu Jordans (1986) Architektur, die einen ähnlichen Grundgedanken verkörpert, werden hier nicht die output

Output-Knoten über rekurrente Verbindungen mit einem Teil der Input-Knoten verbunden36, sondern es wird ein zusätzlicher

hidden

Layer eingeführt – der sogenannte Contextinput

Layer37. Abbildung 538 zeigt ein typisches

context

Abbildung 5: Ein SRN nach Elman (1990). Durchgezogene Pfeile symbolisieren anpassbare, „all-to-all“ Verbindungen. Die Verbindungen von Hidden- zu Context Units sind nicht anpassbar und one-to-one, d.h. jeder Knoten ist nur mit dem jeweiligen Gegenüber bei einem Gewicht von 1 verbunden.

SRN mit fester 1-zu-1-Verbindung vom Hidden- zum Context-Layer – „fest“ deshalb weil das Gewicht von 1.0 nicht veränderbar ist. Der Context Layer ist somit immer eine

Kopie des Hidden-Layers zum vorhergehenden Zeitschritt. Im Gegensatz zu Jordans Netzen wird den Hidden-Units also nicht der letzte Output des Netzes zur Verfügung gestellt, sondern deren eigener letzter Zustand. Der Inhalt des Context-Layers steht dem SRN im jeweils nächsten ZeitZur Abgrenzung eines Simple Recurrent Networks zu einem Fully Recurrent Network (FRN) vgl. Rohde (2002: 127f). 34 „Besitzt der Graph des Neuronalen Netzes Zyklen, so heißt das Netz rekurrent.“ (Baeumle-Courth, 2004: 23) 35 Diese Repräsentationsart sowie die Probleme, die damit verbunden sein können, können hier nicht detaillierter besprochen werden, für eine Darstellung siehe Elman (1990: 180f) 36 Die rekurrenten Verbindungen in Jordans Ansatz wurden dazu benutzt, ein statisches Muster (den Plan) mit einem seriell geordneten Output-Muster (der Aktionssequenz) zu koppeln. Die rekurrenten Verbindungen erlauben den Hidden Units ihren eigenen Output im Zeitschritt zuvor zu „sehen“. Das folgende Verhalten kann also durch vorhergehenden Output bestimmt werden. 37 Der Context-Layer ist selbstverständlich auch ein Hidden-Layer in dem Sinne, dass er lediglich Verbindungen zu netzinternen Knoten und nicht zur „Außenwelt“ hat. 38 Gemäß verbreitetem Usus symbolisiert hier sowie in folgenden Abbildungen ein Balken eine Reihe von Knoten, also einen Layer. 33

- 23 -

Kapitel 1: Konnektionismus

schritt als zusätzlicher Input zur Verfügung, das bedeutet, dass das Netzwerk eine „Erinnerung“ davon hat, welche Inputs es bis jetzt erreicht haben. Aufgabe der Hidden-Units ist es daher, in jedem Zeitschritt neuen und alten Input zu integrieren. Die zu entwickelnden internen Repräsentationen sind also sensitiv für zeitlichen Kontext, und der Effekt der zeitlichen Verteilung wird im Gegensatz zu herkömmlichen Repräsentationsformen lediglich implizit in den internen Zuständen deutlich und nicht explizit im Input-Muster repräsentiert. Das Licht, das die SRN-Architektur39 auf das Konzept „Gedächtnis“ wirft, ist ein grundlegend verschiedenes als beispielsweise in symbolischen Architekturen: „In this account, memory is neither passive nor a seperate subsystem. One cannot properly speak of a memory for sequences; that memory is inextricably bound up with the rest of the processing mechanism” (Elman, 1990: 202). SRNs sind in der Lage, komplexe Aufgaben zu erledigen, so beispielsweise (grundlegend) die Lösung des XOR-Problems (Elman, 1990: 183ff) oder die Erkennung von Wortgrenzen (Elman, 1990: 188ff).

1.3.2. Simple Recurrent Networks und Sprache Was ist mit einer SRN-Architektur alles erreichbar und welche speziellen Herausforderungen stellen sich dabei? Dieser Frage ging Elman (1991, 1993) weiter nach und formulierte zu Beginn drei Grundfragen, die er als die „principal challenges to a successful connectionist account of language“ (1991: 195) sieht: (1) Wie sehen linguistische Repräsentationen aus? (2) Wie können komplexe strukturelle Zusammenhänge repräsentiert werden? (3) Wie kann der unendlichen Natur der Sprache mit einem System mit festen Ressourcen beigekommen werden? Frage 1 stellt verteilte lokalistischen Repräsentationsformen gegenüber, Elman entscheidet sich – hauptsächlich aus den schon in Abschnitt 1.1.2 genannten Gründen – für verteilte Repräsentationen, inwieweit lokalistische Ansätze in seinen Ansatz mit hineinspielen wird später in diesem Abschnitt noch zu besprechen sein. Die dritte Frage hofft Elman zumindest näherungsweise mit dem Hidden-Layer beantworten zu können. Dieser sei überaus feinkörnig und vieldimensional, was ihn zu einem überaus großen – wenn auch nicht unendlich großen – Repräsentationsraum mache, insbesondere verglichen mit lokalistischen Repräsentationsformen. Die entscheidende Frage, die es für Elman zu beantworten gilt, ist die zweite, jene nach den komplexen strukturellen Verknüpfungen innerhalb der Sprache. Im Folgenden werden die von Elman benutzten Stimuli und Trainingsprozeduren vorgestellt sowie die Unterschiede der benutzten Architektur zum „Ur-SRN“. Hiernach wird auf die Ergebnisse der Simulationen und vor allem auf die Implikationen für die weitere Forschung eingegangen.

Hier wird „Architektur“ in einem anderen Sinne als in jenem aus Abschnitt 1.1.1 (Konnektionismus vs. Symbolverarbeitung) benutzt. Bezeichnete dieser Begriff dort eine Art „Werkzeugkasten“ der Kognitiven Modellierung, verweißt er nun auf eine bestimmte Art von Netzwerkaufbau. So ist beispielsweise das Merkmal einer SRN-Architektur, dass sie eine rekurrente Verbindung und einen Context Layer besitzt. 39

- 24 -

Kapitel 1: Konnektionismus

Stimuli, Trainingsprozeduren und Architektur

Abbildung 6 zeigt einen Auszug aus der verwendeten Grammatik sowie das Vokabular; „eos“ bedeutet „end of sentence“, ein Signal für das Netzwerk, dass der augenblickliche Satz beendet ist, natürlichsprachlich der Punkt: S Æ NP VP eos NP Æ PropN | N | N RC VP Æ V (NP) RC Æ who NP VP | who VP (NP) N Æ boy | girl | cat | dog | boys | girls | cats | dogs PropN Æ John | Mary V Æ chase | feed | see | hear | walk | live | chases | feeds | sees | hears | walks | lives Abbildung 6: Auszug aus der von Elman (1991, 1993) verwendeten Grammatik (nach Elman, 1991). Kursiv gedruckte Items stellen die Wörter dar.

Jedes Wort (also jene Items, die kursiv gedruckt sind) wird durch einen 26-stelligen Vektor40 repräsentiert, in dem ein zufälliges Bit auf 1 gesetzt ist. Dies hat mehrere Folgen für die Natur dieser Repräsentation: (1) Die Vektoren der lexikalischen Einheiten sind alle orthogonal zueinander, das heißt die Vektoren sind einander maximal unähnlich. (2) Die Form der Repräsentation kann keinerlei Information bereitstellen, die mit der grammatischen Kategorie des Input-Wortes zusammenhängt. (3) Da die Vektoren arbiträr den entsprechenden Wortformen zugeordnet sind, sind minimale theoretische Vorannahmen oder lexikalische Analysen notwendig. Die „Minisprache“, die generiert wurde, folgte folgenden Prinzipien: Agreement, d.h. der Numerus von Nomen und dazugehörigem Verb muss übereinstimmen. Die Verbargumentstruktur lässt sich darin unterscheiden, ob ein direktes Objekt benötigt („chase“, „feed“), möglich („see“, „hear“) oder verboten („walk“, „live“) ist. Interaktionen mit Relativsätzen erschweren sowohl das Nomen-Verb-Agreement als auch die korrekte Wiedergabe der Verbargumentstruktur. Das direkte Objekt muss also nicht immer sofort auf das Verb folgen („Cat who dog chases sees girl“)41 und es muss auch nicht das erste Verb sein, das nach einem Nomen folgt, dessen Numerus angepasst werden muss („Dog who boys feed sees girl“, hier müsste – würde das Netzwerk eine einfache Generalisierung etwa in der Form „Gleiche das erste nach einem Nomen folgende Verb dem Numerus des Nomens an“ herausbilden – das „feed“

40 Einigermaßen verwirrend ist die tatsächliche Anzahl der lexikalischen Items. Dies ist zwar mit ziemlicher Sicherheit nicht entscheidend für den Ausgang der Studie, jedoch muss bemerkt werden, dass Elman ein „lexicon of 23 items“ (1991: 201) annimmt. Weiter: „These included 8 nouns, 12 verbs, the relative pronoun who, and an end-of-sentence indicator (a period). [Hervorhebung im Original, S.W.]” Diese Zählung würde 22 Items ergeben, betrachtet man die Grammatik erhält man 24 Items. M.E. kann davon ausgegangen werden, dass Elman für „PropN“ nur ein Item verwendete, denn es wird noch zu sehen sein, dass es keinen Unterschied für die folgenden Wörter macht ob „John“ oder „Mary“ verwendet wurde. Wie dem auch sei wurden 26-Bit-Vektoren verwendet, 3 Bits wurden für einen anderen Zweck verwendet. 41 Die Wörter, die dieses Beispiel verdeutlichen, sind kursiv gedruckt.

- 25 -

Kapitel 1: Konnektionismus

in der dritten Person stehen was den Satz ungrammatisch machen würde). Das Prinzip der Rekursion sorgt für die theoretische Unendlichkeit der Minisprache. Das Training war in vier Phasen unterteilt, in denen je fünf Epochen zu je 10 000 Sätzen präsentiert wurden42. Insgesamt wurden output, 26

dem SRN somit 200 000 Sätze präsentiert. Die Phasen unterschieden

compr., 10

sich in der Schwierigkeit und Komplexität der präsentierten Sätze, darauf wird im folgenden Abschnitt je-

hidden, 70

doch nochmals genauer eingegangen compr., 10

da es einige interessante Befunde

context, 70

hierzu gibt. Abbildung 7 zeigt die von Elman

input, 26

Abbildung 7: Ein SRN nach Elman (1991, 1993). Erweitert wurde das Netz in der Anzahl der Units pro Layer (hinter dem Namen des Layers vermerkt) sowie durch die beiden „compression layer“, diese „may be used to serve as transducers which compress the input and output vectors“ (Elman, 1991: 200).

(1991,

1993)

verwendete

SRN-Architektur. Ergebnisse

Nach der abschließenden Trainingsphase wurden die Gewichte des

Netzwerks auf ihren zuletzt erreichten Werten eingefroren, und die Netzwerkperformanz wurde mit einem neuen Datensatz getestet, der auf die selbe Art hergestellt wurde wie der Trainingskorpus aus der komplexesten Trainingsphase. Die beste Möglichkeit für das Netzwerk, die Aufgabe der Wortvorhersage erfolgreich zu erfüllen, wäre es, die Output-Knoten so zu aktivieren43, dass dies die statistische Wahrscheinlichkeit des Auftretens des Wortes gegeben den bisherigen Satzkontext widerspiegelt. Daher sollte man nicht die allgemeine Performanz des Netzwerks bei der Vorhersage überprüfen, sondern wie genau das Netzwerk die Auftretenswahrscheinlichkeiten eines Wortes im gewissen Kontext approximiert. Also wurden Wahrscheinlichkeitsvektoren für jedes Wort in jedem Satz generiert, die die aus dem Korpus abgeleiteten Auftretenswahrscheinlichkeiten gegeben den Satzkontext bis zu diesem Punkt repräsentierten. Die Outputs des SRN wurden mit diesen Vektoren verglichen und der entstehende Fehler als Performanzmaß benutzt. Der ermittelte Fehler war niedrig: Wären alle Output-Knoten gleich aktiviert worden (eine triviale Alternative, die nicht gezeigt hätte, dass das Netz etwas gelernt hätte), hätte der Fehler einen Wert von 1.92 angenommen. Der Fehler zu Beginn lag bei 12.45. Der zuletzt erreichte und ausschlaggebende Fehlerwert lag bei

Zu interessanten Befunden die Gestaltung des Trainingsmaterials betreffend, die aus Platzgründen hier nicht referiert werden können, vgl. Elman (1993). 43 Das SRN macht dadurch eine Vorhersage, dass es den Output-Knoten aktiviert, der im 26-Bit-Vektor jenem Bit entspricht, das für das entsprechende Wort auf 1 gesetzt wurde. Durch die nicht-deterministische Natur dieser Aufgabe wird das Netzwerk immer einen gewissen Fehler produzieren. 42

- 26 -

Kapitel 1: Konnektionismus

0.177. Normalisiert man diesen Fehler, indem man den durchschnittlichen Kosinus des Winkels zwischen den beiden Vektoren errechnet, kommt man auf einen Wert von 0.852 mit einer Standardabweichung von 0.259 (Optimalleistung: cos = 1). Beide Werte zeigen, dass die Architektur Elmans eine sehr gute Leistung im Erlernen der Vorhersage des nächsten Satzelements erbracht hat. Zweifellos hat das Netzwerk die Aufgabe zum überwiegenden Teil mehr als zufrieden stellend gelöst, erinnern wir uns jedoch an die Prinzipien von Simon und Wallach (1999) zur Kognitiven Modellierung, die in Abschnitt 1.1.4 referiert wurden, muss die Analyse noch um einiges tiefer gehen. Oder wie Elman es ausdrückt: „These gross measures of performance, however, do not tell us how well the network has done in each of the specific problem areas posed by the task” (Elman, 1991: 205). Mit diesen spezifischen Problembereichen wird auf die oben referierten Prinzipien, die der verwendeten Minisprache zugrunde liegen, Bezug genommen. In vorliegender Arbeit können diese Ergebnisse nicht in aller Genauigkeit vorgestellt werden, allerdings sind sie auch wenig überraschend. Das Netzwerk hat die entscheidenden Prinzipien gelernt, inklusive die Interaktionen mit Relativsätzen. Eine detaillierte Analyse ist in Elman (1991: 100ff) zu finden. Zusammenfassend lässt sich sagen, dass dieses Modell viele Aufgaben auf einmal erfüllen können muss: Es muss lernen, (1) dass es Items im Korpus gibt, die als Verb, Nomen usw. fungieren, (2) welche Items in welche Klasse fallen, (3) dass es Unterkategorien der Kategorie „Verb“ gibt, die mit bestimmten

Kookkurenzen

mit

Nomen

zusammenfallen,

die

wiederum

Verb-Objekt-

Einschränkungen repräsentieren, (4) welche Verben zu welchen Unterkategorien gehören, (5) wann ein Objekt direkt nach dem Verb zu erwarten ist und wann es bereits genannt wurde. Letzteres zeigt sich in der alleinigen Vorhersage von V1B44 nach der Folge „boys who mary …“. Dadurch, dass bereits ein Füllelement für das direkte Objekt genannt wurde, wird nach „mary“ nur noch ein Verb vorhergesagt, das diesen Füller auch benötigt. Dies ist ein Umstand, das das Netz unbedingt auf irgendeine Weise repräsentieren muss will es die ihm gestellte Vorhersage-Aufgabe erfüllen. Analyse des Netzwerks

Die Frage, die sich nun quasi von selbst ergibt, ist: Wie hat es das Simple Recurrent Network geschafft, diese Aufgabe zu bewältigen? Der Erfolg gibt ihm freilich Recht, ohne gewisse interne Repräsentationen von Konzepten von Verben, Nomen, Argumentstrukturen usw. wäre das Netzwerk nicht dazu in der Lage gewesen, das jeweils nächste Element im Satz korrekt vorherzusagen, denn 70 Hidden- und Context Units können nicht ausreichen, um den gesamten Trainingskorpus auswendig zu lernen, was wohl ebenfalls einen Erfolg nach sich gezogen hätte. Auch wenn es im Gegensatz zu symbolischen Architekturen relativ schwierig ist, die internen Zustände eines künstlichen neuronalen Netzes zu untersuchen, gibt es gewisse Auswertungsmöglichkeiten. Verwendete Elman (1990) vormals noch eine Clusteranalyse um Ähnlichkeitsbeziehungen 44

Nach der Kodierung Elmans bedeutet V1B Singularverb mit einem unbedingt benötigten direkten Objekt.

- 27 -

Kapitel 1: Konnektionismus

im Repräsentationsraum des Netzes zu visualisieren45, formuliert er nun einige Nachteile, die diese Methode hier nach sich ziehen würde: Erstens vermittelt sie lediglich ein sehr indirektes Bild des Repräsentationsraums46, zweitens – und dies ist der ausschlaggebende Punkt – ist die Clusteranalyse nicht dazu in der Lage, die Dynamik darzustellen, der die Verarbeitung in konnektionistischen Netzen unterworfen ist. Es ist einfach einzusehen, dass einige Zustände des Netzwerkes nicht nur insofern von Relevanz sind, wie ähnlich sie anderen Zuständen sind, sondern auch inwiefern sie die zukünftigen Zustände des Netzwerks beeinflussen47. Gerade bei einem Netz, das dafür konzipiert wurde Sequenzen zu verarbeiten, scheint es sinnvoll zu sein auch eine entsprechende statistische Analysemethode heranzuziehen. What we might therefore wish to be able to do is directly inspect the internal states (represented by the hidden unit activation vectors) the network is in as it processes words in sequence, in order to see how the states and the trajectories [= Bewegungslinien im Zustandsraum, S.W.] encode the network’s grammatical knowledge (Elman, 1991: 210).

Ein grundlegendes Problem bei der Analyse des Zustandsraums rührt von der verteilten Natur der Repräsentationen her. Es kann nicht zwingend davon ausgegangen werden, dass die Dimensionen, die von Interesse sind – nämlich jene, die bei der Lösung eines bestimmten Problems eine wichtige Rolle spielen – mit jenen Dimensionen korrelieren, die von den Hidden-Units aufgespannt werden, Elman (1991) nennt diese Dimensionen „dimensions of variation“. Allerdings scheint es zwingend, dass Dimensionen existieren, die für die Lösung eines Problems am wichtigsten sind, weshalb auch versucht werden kann, diese zu finden. Ein geeignetes Verfahren ist die Hauptkomponentenanalyse (Principal Component(s) Analysis, PCA), mit der durch eine Rotation der Achsen eine andere Menge an Dimensionen gefunden werden kann, in der die maximale Variation bei der Bearbeitung einer Aufgabe auftritt. Außerdem wird hierbei die Menge an Dimensionen reduziert, was es einfacher macht, die Bewegungen durch den Zustandsraum darzustellen. PCA erlaubt es also einerseits, sich auf jene Dimensionen zu konzentrieren, die von besonderer Bedeutung bei der Lösung der Aufgabe sind (also die höchste Variation nach sich ziehen), andererseits kann post hoc herausgefunden werden, wie viele Hidden Units für die Lösung einer Aufgabe benötigt gewesen wären, metaphorisch

Elman (1990) fand in einer einfacheren Variante der hier detailliert vorgestellten Studie von 1991 heraus, dass das SRN eine starke Strukturierung der verschiedenen Items (Wörter) bei der internen Repräsentation vornimmt. So werden offensichtlich Nomen und Verben nahe im Repräsentationsraum an „ihresgleichen“ repräsentiert, animierte und unanimierte Nomen, Tiere und Menschen, transitive und intransitive Verben ebenfalls. 46 Bei einem, wie hier, 70-dimensionalen Raum wird eine unmittelbare visuelle Abbildung auch nie möglich sein, jedoch gilt die hier verwendete Methode als eine zumindest bessere Näherung. 47 Eine Abfolge von Netzzuständen kann man auch als ein Bewegen durch den 70-dimensionalen Zustandsraum auffassen. Verwendet man diese Metapher kann die Einflussnahme von Zuständen auf zukünftige Zustände als „Wegweiser“ verstanden werden, welcher Weg im Zustandsraum beschritten werden darf und welcher nicht. Ein Weg der nicht beschritten werden darf, würde in der hier vorgestellten Studie einen ungrammatischen Satz repräsentieren. 45

- 28 -

Kapitel 1: Konnektionismus

ausgedrückt, ob die jeweilige Architektur die Aufgabe auch mit weniger Gedächtniskapazität hätte lösen können48. Abbildung 849 zeigt eine Bewegung

hear hears

durch den Zustandsraum bei der Verarbeitung der Sätze „boys hear boys .“ und „boy hears boys .“, diese Sätze boys]S

wurden verwendet um auszuschließen,

boys]S

dass eventuelle Variation auch auf lexikalische Effekte durch andere Wörter

boys

(„girl/s“, „dog/s“) zurückführen sein könnte. Die Abbildung zeigt, dass jene

boy

Hauptkomponente, die auf der y-Achse abgetragen ist, offensichtlich eine wichtige Rolle bei der Numerus-Markierung

Abbildung 8: Bewegungen durch den Zustandsraum (verringert auf zwei Dimensionen) bei den Sätzen „boys hear boys .“ und „boy hears boy .“, das letzte Wort des Satzes hat jeweils das Symbol „]S“ hinter sich (nach Elman, 1991).

des Subjekts im Hauptsatz spielt. Dies wird selbstverständlich erst im Ver-

gleich der beiden genau in diesem Punkt unterschiedlichen Sätze deutlich: Obwohl das SRN bei der Verarbeitung von beiden Sätzen sehr ähnliche Pfade im Zustandsraum verfolgt, fällt doch auf, dass sie beim ersten Wort divergieren – dies zeigt den Unterschied im Numerus an. Dieser Un-

who

terschied verschwindet nachdem das Hauptchase

boy]S

chases

boys

verb genannt wurde, was insofern einleuchtend ist dass hiernach der Unterschied im Numerus des Subjekts keine Rolle mehr spielt. Unterstri-

chase

chen wird diese Annahme durch Abbildung 9. Diese zeigt die Bewegung durch den Zustandsraum für die Sätze „boys who boys chase chase boys

boy .“ und „boy who boys chase chases boy .“. Das Interessante an diesen beiden Sätzen (die,

boy

Abbildung 9: Bewegungen durch den Zustandsraum für die Sätze „boys who boys chase chase boy .“ (obere Linie) und „boy who boys chase chases boy .“ (untere Linie).

nebenbei bemerkt, im Gegensatz zu den zuvor verwendeten Sätzen nicht im Trainingskorpus

Für eine detaillierte Beschreibung der Verwendung der Hauptkomponentenanalyse in der vorgestellten Studie siehe Elman (1991: 208). 49 Die folgenden Abbildungen sind jenen von Elman (1991) nachempfunden. Zum einfacheren Verständnis und klarerer Darstellung wurden sie nachgezeichnet und in einigen kleinen Details verändert. Diese verfälschen nicht den Sinn der Abbildungen. 48

- 29 -

Kapitel 1: Konnektionismus

enthalten waren) ist, dass die Numerusinformation über das Subjekt des Satzes bis zum fünften Wort „erinnert“ werden muss um das Hauptverb ebenfalls in diesem Numerus vorherzusagen. Der eingeschobene Relativsatz „who boys chase“ ist bei beiden Sätzen identisch und irrelevant für die korrekte Vorhersage des Hauptverbnumerus, er dient lediglich zur Verlängerung der Distanz, über die die Übereinstimmung von Nomen- und Verbnumerus realisiert werden muss. Wiederum fällt auf, dass der Unterschied in der Ordinate (welche so etwas wie die „Numerus-des-SubjektsHauptkomponente“ repräsentiert) beibehalten wird bis das relevante Verb an der Reihe ist, danach fallen die Bewegungen durch den Zustandsraum zusammen. Diese Beispiele zeigen, wie das SRN es offenbar durch das „Beschreiten“ bestimmter Pfade im Zustandsraum realisiert hat, den Numerus des Subjekts in einem Satz so lange zu behalten bis diese Information für die korrekte Wahl des zugehörigen Verbnumerus verwendet werden muss. Ein weiteres Prinzip der Minisprache ist die unterschiedliche Argumentstruktur der Verben. Auch wenn Elman nicht null-, ein- oder zweiwertige Verben mit in die Studie einschloss, sondern „nur“ die optionale, zwingende oder ausgeschlossene Anbindung eines direkten Objekts untersuchte, ist es doch interessant, wie das SRN damit umgeht. Wiederum wird die Hauptkomponentenanalyse verwendet um die Bewegungen des Netzes im Zustandsraum sichtbar zu machen. Abbildung 1050, die die Sätze „boy walks .“, „boy

chases

sees boy .“ und „boy chases boy .“ enthält, verdeutlicht zweierlei: Einerseits sieht man deutlich, sees

dass die Verben „walks“ (Objekt ausgeschlossen), „sees“ (optionales Objekt) und „chases“ (Objekt walks]S

benötigt), obwohl sie alle derselben grammatischen Kategorie angehören, in deutlich unterschiedlichen

boy]S boy]S

Gebieten des hier gezeigten Raumes repräsentiert werden51, nämlich immer weiter in der linken, oberen Ecke. Andererseits ist deutlich zu sehen, dass

Abbildung 10: Bewegungen durch den Zustandsraum für die Sätze „boy walks .“, „boy sees boy .“ und „boy chases boy .“; Beginn der Sätze ist jeweils das „boy“ im oberen Drittel der rechten Begrenzung.

Nomen hinsichtlich ihrer Rolle im Satz unterschiedlich platziert sind52: Das Subjekt ist eher in

Die bei dieser Abbildung verwendete Hauptkomponente für die y-Achse divergiert von jener in Abbildung 9, das bedeutet hier wird eine andere Ebene im Zustandsraum dargestellt. 51 Bei der Wahl zweier anderer Hauptkomponenten für die beiden Koordinatenachsen können – dies ist sehr wahrscheinlich – die Verben sicherlich sehr nahe zusammen fallen. In diesem Fall jedoch wurden jene Hauptkomponenten für die Darstellung gewählt, die offenbar für die Kodierung der Verbargumentstruktur „zuständig“ sind. 52 Genau genommen sind natürlich nicht die Nomen an diesen Stellen platziert, repräsentiert oder kodiert, sondern das SRN bewegt sich bei der Verarbeitung dieser speziellen Nomen auf anderen Pfaden im Zu50

- 30 -

Kapitel 1: Konnektionismus

der rechten, oberen Ecke repräsentiert, die Objekte tendieren klar in die rechte, untere Ecke. Auch das Prinzip der Rekursion, die Möglichkeit Relativsätze einzubetten oder anzuhängen, kann durch Bewegungen in einem Zustandsraum realisiert werden. Abbildungen 11 und 12 stellen Endrekursion („boy chases boy who chases boy who chases boy .“) und Zentraleinbettung („boy who chases boy chases boy .“) gegenüber. Was auffällt, ist, dass bei endrekursiven Sätzen, bei denen

boy]S

b boy

who

boy

chases who

who boy chases

chases boy boy

chases chases

Abbildung 11: Bewegung durch den Zustandsraum für den endrekursiven Satz „boy chases boy who chases boy who chases boy .“

Abbildung 12: Bewegung durch den Zustandsraum für den zentral eingebetteten Satz „boy who chases boy chases boy .“

keine Information über die vorhergehenden Elemente aufrecht erhalten werden muss (siehe Abbildung 11), eine immer gleiche Bewegung nur leicht nach links und oben verschoben wird. Dadurch wird zwar die Einbettungstiefe kodiert, jedoch auf eine sehr sparsame Art und Weise. Im Gegensatz dazu verändert sich bei zentral eingebetteten Relativsätzen das Bewegungsmuster eindeutig (Abbildung 12)53. Der eingeschobene Relativsatz wird sehr unterschiedlich und weit entfernt vom Hauptsatz kodiert, was einen großen „Verbrauch“ des Zustandsraums nach sich zieht. Interessanterweise kehrt das SRN nachdem der eingebettete Relativsatz abgearbeitet ist, wieder auf den alten Pfad zurück. So ist der Pfad der ersten drei Wörter aus Abbildung 11 vergleichbar mit den Wörtern 1, 5 und 6 aus Abbildung 12. Ein bekanntes Phänomen in der menschlichen Sprachverarbeitung ist, dass Menschen typischerweise drei zentral eingebettete Relativsätze korrekt „aufschlüsseln“ könstandsraum, der wiederum ein statistisches Konstrukt ist. Ist hier von Stellen die Rede, an denen etwas Bestimmtes repräsentiert ist, ist dies immer in diesem Sinne zu verstehen. 53 Elman (1991: 211) merkt an, dass es für die Lösung der Vorhersageaufgabe auch völlig ausreichen würde bei Endrekursion jeden Relativsatz als weiteren Iterationsschritt des letzten zu realisieren, da keine Information aus vorhergehenden Teilsätzen weiter getragen werden muss. Trotzdem werden die beiden Relativsätze (wie in Abbildung 11 zu sehen) leicht unterschiedlich repräsentiert. Obwohl also diese Information nicht für die Bewältigung der Aufgabe benötigt wird, repräsentiert das SRN auf welcher Einbettungsebene sich ein Relativsatz befindet. Elman hierzu: „It thus seems to be a property of these networks that while they are able to encode state in a way which minimizes context as far as behaviour is concerned, their nonlinear nature allows them to remain sensitive to context at the level of internal representation.” (ebd.)

- 31 -

Kapitel 1: Konnektionismus

nen. Auch die Reliablität der in Abbildung 11 und 12 gezeigten Repräsentation ist dieser Einschränkung unterworfen. In der referierten Simulation Elmans zerfiel diese Realisierung von tiefer eingebetteten Relativsätzen nach etwa drei Einbettungsebenen. Besonders davon betroffen ist natürlich die Vorhersageleistung bei den zentral eingebetteten Relativsätzen (wie jener, der in Abbildung 12 genannt ist). Dies geschieht jedoch nicht weil dieses Prinzip von außen (also von den Forschenden) explizit implementiert wurde54, sondern weil die Beschaffenheit des SRNs (hier die Menge der Hidden-Units, die die Größe des Zustandsraums bestimmt) dies unmittelbar nach sich zieht. Hier sei an ein „Gütekriterium“ der Kognitiven Modellierung erinnert (siehe Abschnitt 1.1.4): Die Fehlerkorrespondenz zwischen Modell und empirischen Befunden. Es wurde gezeigt, wie das SRN die Vorhersageaufgabe lösen konnte. Die verschiedenen Aspekte der Minigrammatik wurden durch bestimmte Pfade im Zustandsraum und die systematische Variation selbiger realisiert. Außerdem wurde auch deutlich wie komplex es ist – im Gegensatz zu symbolischen Architekturen – die internen Zustände eines künstlichen neuronalen Netzes zu analysieren. Die Auswertung der augenblicklichen Aktivationsmuster im Hidden-Layer, die beispielsweise durch eine Clusteranalyse vorgenommen werden kann, genügt insofern nicht, dass diese Betrachtungsweise den Aspekt der Netzwerkdynamik außer Acht lässt, also welche Zustände andere Zustände ausschließen, zulassen oder nach sich ziehen. Durch die Hauptkomponentenanalyse wird das Konzept des Zustandsraums deutlich, in dem sich ein SRN während es eine Aufgabe löst, bewegt. Durch die Herausfilterung der relevantesten Dimensionen kann der 70-dimensionale Raum auf zwei Dimensionen reduziert55 werden, womit er anschaulich wird.

1.3.3. SRNs und ein alternativer Blick auf Sprache Die Elmanschen Simple Recurrent Networks sind mehr als nur der bloße Beweis, dass eine konnektionistische Architektur mit einer (hier sicherlich sehr beschränkt komplexen) Sprache umgehen kann – in gewisser Weise verändern sie den Blick auf das System der Sprache56. Das Erstaunliche ist ja im Grunde, dass diese Architektur dazu in der Lage ist, Sprache lediglich über ihre Oberflächenstruktur in gewissem Sinne zu „begreifen“. Die Prinzipien, die der Komposition der Sätze zugrunde liegen und in der Minigrammatik festgeschrieben sind, kennt es nicht. Doch es folgert offenbar genau diese Prinzipien und kodiert diese im hochkomplex organisierten Zustandsraum der HiddenUnits. Dies betont auf eine Weise, dass die Prinzipien, die natürlichen Sprachen zugrunde liegen,

Dies könnte man in symbolischen Architekturen beispielsweise durch eine Regel der Form „Wenn die Einbettungsebene tiefer als ‚drei’ ist, dann vergiss relevante Informationen“ realisieren, was selbstverständlich ein Fehler der Art des zuvor zitierten SAM-Modells (Raaijmakers & Shiffrin, 1981) wäre. 55 Genau genommen wird der Raum hierbei nicht reduziert, es werden lediglich die jeweils zwei relevanten Dimensionen dargestellt. 56 Dies ist wohl auch der vorrangige Grund, dass die Arbeiten Elmans solch eine große Resonanz ausgelöst haben. 54

- 32 -

Kapitel 1: Konnektionismus

Konstrukte sind. Es wird deutlich, dass linguistische Kategorien im Grunde wissenschaftliche Hilfskonstrukte sind, um die überwältigende Komplexität von natürlichen Sprachen in ein verständliches und Orientierung bietendes Gerüst zu packen. Doch dabei kann zu leicht vergessen werden, dass Sprache ein natürlich gewachsenes Gebilde ist, zu dessen Anbeginn wohl niemand erst die Regeln zusammengeschrieben hat, mit denen dieses erstellt werden sollte. Viel eher entwickelt sich Sprache in der „freien Wildbahn“ während des Gebrauchs. Noch immer ist die Sprache Veränderungen unterworfen, die sich der regelhaften Beschreibung entziehen. Sobald sich ein sprachliches Phänomen im aktuellen Sprachgebrauch verfestigt hat, wird es über kurz oder lang auch als korrekt gelten57. Das zeigt, welcher Dynamik das „Wesen Sprache“ unterworfen ist und wie schwierig es sein kann, Regeln dafür zu erstellen. Mir ist beispielsweise kein Regelwerk bekannt, in dem tatsächlich alle Regeln formuliert sind, die einerseits jeden grammatikalisch korrekten Satz einschließen und andererseits gleichzeitig alle grammatikalisch unzulässigen Sätze ausschließen58. Eine Lösung ist eine alternative Betrachtungsweise, die in Teilen konnektionistische Modelle bereitstellen können: Bei simpler Betrachtung der Oberfläche und einer extrem feinkörnigen statistischen Auswertung können Regelmäßigkeiten extrahiert werden (man muss dabei nicht einmal von „Regeln“ sprechen), die sich zu einem gewissen Maße gar der analytischen Betrachtung entziehen und in einem dynamischen Prozess repräsentiert sind. Kurz gesagt: Eventuell können konnektionistische Modelle dem dynamischen Wesen der menschlichen Sprache eher entsprechen als Architekturen, die symbolisch arbeiten und somit in höherem Maße auf bereits vorgefertigten Kategorien und Produktionsregeln basieren. Elman (1991) geht noch auf einen weiteren Punkt ein, nämlich auf die neue Blickweise, die in Bezug auf die internen Repräsentationen, die anhand von sprachlichem Input konstruiert werden, eingeführt wird. Normalerweise geht man davon aus, dass sobald ein/e HörerIn ein Wort hört, die entsprechende lexikalische Repräsentation dazu abgerufen wird. Auch wenn diese Repräsentation wohl die Kontexte mit einschließt, in denen das gehörte Wort auftauchen kann, ist die Repräsentation selbst kontextfrei, sie existiert in einer gleich bleibenden Form über jedes Vorkommen des Wortes hinweg. Diese Repräsentation wird dann benutzt um eine komplexe Repräsentation aufzubauen, in die diese Formen eingebaut werden. Man kann sich das Endprodukt als ein elaboriertes Konstrukt vorstellen, in dem nicht nur die Worte sichtbar sind, sondern auch die abstrakte grammatikalische Struktur, die sie verbindet. Als Metapher für diesen Vorgang lässt sich der Bau eines Hau-

Dies zeigt sich insbesondere auch an vielen jugendsprachlichen Phänomenen, die sich im generellen, alltäglichen Sprachgebrauch manifestieren und somit über kurz oder lang als korrekt gelten. Als aktuelles Beispiel ist m. E. die Ausweitung der semantischen Anwendungsmöglichkeiten von „an den Start bringen“ bzw. „am Start sein“ zu betrachten. Bezeichnete diese Wendung ursprünglich ausschließlich das Vorbereiten eines Teilnehmers für eine Rennveranstaltung, kann sie inzwischen für jegliche Art des „Vorhanden- oder Anwesendseins“ verwandt werden. 58 Sicher unmöglich wird dieses Unterfangen wenn man semantische Restriktionen mit einfließen lässt. 57

- 33 -

Kapitel 1: Konnektionismus

ses heranziehen, bei dem die Worte die Rolle der einzelnen Steine einnehmen, die das Haus bilden – die Steine existieren in der Struktur „Haus“ und bilden diese, sind jedoch selbst nicht vom Prozess des Aufbaus beeinflusst. Der hier vorgestellte Ansatz suggeriert jedoch ein anderes Bild: Während der Verarbeitung der Wörter gibt es keine davon getrennte Phase des lexikalischen Zugriffs weil es keine isolierten Repräsentationen der Wörter gibt. Diese Repräsentationen sind die internen Zustände des Netzwerks, die der Input eines bestimmten Wortes nach sich zieht. Dabei stellen sie außer dem aktuellen Wort auch immer den vorigen Zustand dar. Hier sind also Wörter nicht als Bausteine zu begreifen, sondern als Wegweiser, die die Architektur durch eine bestimmte Menge an grammatikalischen Zuständen leiten. Die Metapher, die hier angebracht scheint, ist eher jene eines Kombinationsschlosses (vgl. Elman, 1991: 221), in der die Wörter die Rolle der Zahlen der korrekten Kombination einnehmen. Die Nummern haben dabei die Aufgabe, das Schloss durch verschiedene Zustände zu führen, wobei der Effekt, den eine Nummer auf das Schloss hat, immer kontextabhängig ist. Sind die Nummern in einer bestimmten (der korrekten) Kombination aneinander gereiht bewegt sich das Schloss in einen offenen Zustand. Die Nummern sind hierbei noch immer in einer Weise präsent, nicht physikalisch, sondern weil sie für den augenblicklichen Zustand des Schlosses verantwortlich sind. Im Gegensatz zu einem Kombinationsschloss haben die hier vorgestellten Netzwerke natürlich nicht nur einen „offenen“ Zustand, sondern eine Vielzahl von Kombinationsmöglichkeiten, die zu einem grammatikalisch korrekten, also offenen, Zustand führen. Dieser Blick auf Sprache betont die funktionelle Wichtigkeit von Repräsentationen, was bedeutet, dass hier angenommen wird diese seien so konstruiert, dass ein bestimmtes Verhalten erfüllt werden muss. Somit kann sich auch ihr Informationsgehalt während der Zeit ändern, immer in Richtung der augenblicklichen Bedürfnisse einer bestimmten Aufgabe. Wörter fungieren hierbei als Hinweise, die mentale Zustände herstellen, die dieses Verhalten unterstützen – Repräsentationen können als „Schnappschüsse“ dieser mentalen Zustände aufgefasst werden (vgl. Elman, 1991: 222). Selbstverständlich war Elman nicht der einzige, der sprachliche Phänomene mit konnektionistischen Architekturen anging und dafür viel Aufmerksamkeit erntete. Auch Rumelhart & McClelland (1986) führten eine viel beachtete Studie zum Lernen der Vergangenheitsformen im Englischen durch.

1.4. Zusammenfassung und Kritik Es wurde gezeigt, dass konnektionistische Ansätze in einigen Belangen entscheidend von symbolverarbeitenden Architekturen abweichen. So sind beispielsweise keine explizit formulierten Verarbeitungsregeln vonnöten, die zur Symbolmanipulation benötigt werden. Konnektionistische Ansätze stellen dem unbestrittenen Vorteil symbolischer Architekturen, nämlich der einfachen, direkt zugänglichen Analyse der internen Zustände und Repräsentationen, ihrerseits Vorteile gegenüber, - 34 -

Kapitel 1: Konnektionismus

die es zu beachten gilt. So sind sie hervorragend dazu geeignet, mit unvollständiger oder verrauschter Information zu arbeiten. Ein weiterer Vorteil konnektionistischer Systeme ist die hohe statistische Sensibilität, die dazu führen kann, dass auch schwächste Hinweise genutzt werden, um eine bestimmte Aufgabe zu lösen. Hierbei ist es nicht nötig einem System explizit vorzugeben, welche statistischen Hinweise ausgewertet werden müssen, sondern das Netzwerk findet selbst jene „cues“, die es zur Lösung der Aufgabe benötigt. Der Exkurs zur Kognitiven Modellierung (Abschnitt 1.1.4) zeigte, welche positiven Eigenschaften Theorien aufweisen, die mit diesem Werkzeug hervorgebracht wurden – egal ob symbolische oder konnektionistische, subsymbolische59 Architektur. Zur Beziehung von Konnektionismus und Sprache wurde detailliert auf Elmans Simple Recurrent Networks eingegangen wobei zunächst die Grundmotivation dargelegt wurde, nämlich ein konnektionistisches System zu entwickeln, das mit „echtem“ sequentiellem Input arbeiten kann. Ein Merkmal eines SRN im Bezug auf Sprache ist die Fähigkeit zu „self-supervised learning“, was eine Folge der typischen Vorhersage-Aufgabe der Netze darstellt. Es wurde gezeigt, dass es bei der Vorgabe einer begrenzten Minisprache möglich ist, ein SRN so zu trainieren, dass es korrekte Vorhersagen über das nächste Element in einem Satz tätigt, wobei die Bewältigung vielfältiger Aufgaben vonnöten ist. Die Netzwerkanalyse mithilfe der Hauptkomponentenanalyse zeigte, dass das Netzwerk offensichtlich die in der Minigrammatik definierten Prinzipien erkannt hat (also als die korrekte Ebene für die statistische Analyse des Inputs gewählt hat). Doch so beeindruckend die Leistung dieser Simple Recurrent Networks auch sein mag: Die Arbeiten Elmans lassen (und dies formuliert er auch an mehreren Stellen) den Bereich, der in vorliegender Arbeit von vorwiegendem Interesse ist, aus. Semantische Betrachtungen stehen in der von Elman verwendeten Minigrammatik weit im Hintergrund, dies zeigt beispielsweise der Fakt, dass „embedded material modifying a head noun provides relatively little information about the subsequent corresponding verb“ (Rohde & Plaut, 1999: 71). Semantische Constraints werden hier (bis auf eine rudimentäre Verbargumentstruktur, die im weitesten Sinne eventuell hinzu zu zählen sein mag) außer Acht gelassen. Die Frage, die man sich zwingend stellen muss, ist jene nach der Erweiterbarkeit der vorgestellten Studien auf eine größere Menge an Eigenschaften, die natürliche Sprachen mitbringen – insbesondere auf semantischem Gebiet. Zwei Modelle, die diesen Anspruch vertreten, sollen in Kapitel 3 vorgestellt und evaluiert werden. Doch zunächst ist es notwendig einige semantische Theoriefelder abzustecken und diese bei gegebenem Anlass mit konnektionistischen Ansätzen in Verbindung zu bringen. Dies soll in Kapitel 2 geleistet werden. Hierbei werden sich interessante Querverbindungen und Implikationen ergeben, die zu einem Modellvorschlag beitragen werden, der in Kapitel 4 besprochen wird. Zur Herleitung dieses Begriffes sei auf Smolenskys (1988) viel beachteten Grundsatzartikel verwiesen, der eine Art Standort- und Richtungsbestimmung des konnektionistischen Paradigma darstellt. Auch der Frage der biologischen Plausibilität wird hier detailliert nachgegangen. 59

- 35 -

Kapitel 2: Semantik

2. Semantik 2.1. Einführung In diesem Kapitel soll zweierlei geleistet werden: Einerseits soll dargelegt werden, welche Konzeption von Semantik dieser Arbeit zugrunde liegt und welche grundlegenden Probleme bei der Erarbeitung einer solchen auftreten können. Andererseits sollen – wie soeben erwähnt – bekannte Semantiktheorien mit konnektionistischen Ansätzen in Verbindung gebracht werden. Beide Aspekte sollen mit dem Hintergedanken besprochen werden, die in Kapitel 3 referierten Modelle besser verstehen und einordnen zu können und eine geeignete Semantikrepräsentation für die in Kapitel 4 zu besprechende Modellidee herauszuarbeiten. Wie wichtig die Lehre von der Bedeutung im Bereich der Sprachwissenschaft ist, liegt auf der Hand: Die Bedeutsamkeit ist sozusagen der „Existenzgrund“ (Linke et al., 2001: 135) der Sprache. Allein der Umstand, dass die Sprache Bedeutung trägt und transportiert und dass wir somit sprechend oder schreibend etwas mitteilen können, macht die Sprache aus – wir können die Sprache also als ein System betrachten, „das zwischen einem Universum von (inneren) gedanklichen Konzepten und einem Universum von (äusseren) [sic] Lauten und Schriftzeichen vermittelt“ (ebd.). Erst diese vermittelnde Position von Sprache versetzt eine/n SprecherIn oder HörerIn in die Lage, etwas zunächst nur subjektiv Zugängliches fass- und manipulierbar, besonders aber kommunizierbar zu machen – ohne Bedeutung keine Sprache. Dabei scheint zwar intuitiv ganz leicht zugänglich, was ein bestimmtes Wort, ein Satz oder ein Text bedeutet, doch versucht man dies wissenschaftlich zu erfassen steht man vor einem grundlegendem Problem: Es liegt in der Natur der Inhaltsseite (signifié) eines sprachlichen Zeichens, dass man dessen nicht direkt habhaft werden kann, denn dieses existiert lediglich in der Sprachintuition der SprecherInnen. Im Gegensatz dazu scheint uns die Form oder die Ausdrucksseite des sprachlichen Zeichens (signifiant) direkt zugänglich. Die Bedeutung eines sprachlichen Zeichens umgibt also immer eine Aura der Immaterialität, die es so schwierig macht zur signifié-Seite durchzudringen. Eine alltägliche Lösungsstrategie bei der Thematisierung von Bedeutung kann einerseits die Flucht in die Referenz sein – wir können oft einfach auf etwas zeigen um dies als die Bedeutung dessen zu definieren, was wir soeben gesagt haben. Doch es sind vielfältige Situationen denkbar, in denen dies nicht möglich ist, insbesondere wenn es sich um ein nicht anwesendes oder abstraktes Ding handelt, von dem die Bedeutung genannt werden soll. Dann können wir ein sprachliches Zeichen mit Bedeutung füllen indem wir es paraphrasieren – und hier stecken wir mitten im Dilemma: Wir versuchen die Bedeutung von A dadurch zu explizieren, indem wir B sagen. A und B gehören aber typischerweise derselben Menge an Zeichen, nämlich einer Sprache an, was auch die semantische Anreicherung von B zu einem Problem macht: „[D]as Explikationsmittel unterliegt somit dem - 36 -

Kapitel 2: Semantik

gleichen Problem, zu dessen Lösung es eigentlich beitragen sollte“ (Linke et al., 2001: 137). Und selbst wenn man dies außer Acht lässt ergeben sich Probleme bei einer Bedeutungszuschreibung: Was gehört zur Kernbedeutung, was eher an die Grenzen eines Bedeutungsfeldes? Mit welchen Feldern gibt es gewisse Überschneidungen? Wodurch sind diese Überschneidungen zu charakterisieren? Welchen Wandel erfahren Bedeutungen oder welche unterschiedlichen Bedeutungen hat dieselbe Wortform in unterschiedlichen Sprecherkreisen? Wenn man annimmt, dass es in den Köpfen der Mitglieder einer Sprachgemeinschaft so etwas wie ein Semantisches Gedächtnis gibt, das sich aus verschiedenen Konzepten zusammensetzt, stellen sich weitere Fragen über eben diese Konzepte: Wie sehen sie aus? Sind sie intersubjektiv dieselben? Wenn ja: Sind sie auch bei SprecherInnen anderer Sprachen dieselben? Wie sind sie organisiert? Eine Liste, die sich lange fortführen lässt. Unabdingbar für eine semantische Theorie ist die Bearbeitung zweier Domänen, die einige der zuvor formulierten Fragen beinhalten: (1) Bedeutungsbeschreibung, also die Nennung der Bedeutung eines bestimmten natürlichsprachlichen Ausdrucks: Welches signifié kommt einem bestimmten signifiant zu? (2) Beschreibung von Bedeutungsbeziehungen, also die Beschreibung jenes Sprachwissens, das es uns ermöglicht zwischen verschiedenen Konzepten Verbindungen herzustellen. Dazu gehört beispielsweise die Erkennung von Ambiguitäten und Synonymität. Doch das weite Feld der Semantik erschöpft sich auch nicht in der Beschreibung von Bedeutungsinhalten einzelner Wörter (oder derer Beziehungen untereinander). Die Satzsemantik ist ein weiterer großer Bereich der Bedeutungslehre und soll auch in vorliegender Arbeit Beachtung finden. Denn wie oben schon mehrfach angedeutet, kann es von großer Bedeutung sein ob ein Referent schon eingeführt wurde, ein beschriebenes Ereignis ein anderes ausschließt, bestimmte Agenten nur zu bestimmten Aktionen passen und so weiter. All diese Hinweise und eventuell noch mehr müsste ein konnektionistisches Modell neben Syntaxinformationen ebenfalls zu nutzen in der Lage sein. In diesem Kapitel sollen zunächst zwei Semantiktheorien angesprochen werden, die auf der lexikalischen, also grob gesagt der Wortebene angesiedelt sind. Die Merkmalssemantik ist insofern interessant, dass sie eine Grundidee – nämlich jene der zusammengesetzten Bedeutung von Satzelementen – vertritt, die uns in abgewandelter Form im Verlauf der Arbeit wieder begegnen wird. Es werden Vor- und Nachteile sowie praktischer Nutzen einer merkmalssemantischen Auffassung zu diskutieren sein. Im Abschnitt über die Prototypentheorie wird eine klassische Arbeit (McClelland & Rumelhart, 1985) angeführt werden, die interessante Einblicke in die Zusammenhänge von Konnektionismus und Prototypenextraktion zulässt. Hiernach wird im Abschnitt über Satzsemantik zuvorderst auf den Status von Propositionen in der Bedeutungsforschung eingegangen, bevor nach einer kurzen, generellen Einführung in die Satzsemantik der Ansatz der Minimal Recursion Semantics (MRS) vorgestellt wird. - 37 -

Kapitel 2: Semantik

2.2. Wortsemantik 2.2.1. Merkmalssemantik60 Es wird hier davon ausgegangen, dass die Bedeutung eines Wortes, also das Konzept, aus mehreren semantischen Merkmalen zusammengesetzt ist. Somit sind Bedeutungen von Spracheinheiten nicht als etwas Atomares aufzufassen. Dies ist die Arbeitsweise des linguistischen Strukturalismus, als dessen Begründer Ferdinand de Saussure gilt. Die Analysemethoden der Merkmalssemantik erinnern an jene der Phonemanalyse61: Es wird eine Gruppe von Ausdrücken, bzw. von den dazugehörigen Konzepten (beispielsweise [BACH, FLUSS, TEICH, SEE]62) angenommen, und es werden alle unterscheidenden Merkmale notiert (hier wäre z.B. bei [BACH, FLUSS] vs. [TEICH, SEE] das Merkmal ±FLIESSEND63 unterscheidend; bei [BACH, TEICH] vs. [FLUSS, SEE] hingegen ±GROSS). Eine Reihe von Theorien benutzt die Annahme von der Existenz semantischer Merkmale, so beispielsweise auch die Theorie der Semantischen Netze von Quillian (1966), die von Collins & Quillian (1969) empirisch untermauert wurde. Hier wird angenommen, dass Konzepte in Netzwerken organisiert sind, die zum einen aus Unter- und Oberbegriffrelationen (den Verbindungen zwischen zwei Konzepten), zum anderen aus Eigenschaftsrelationen (den Verbindungen zwischen Konzepten und den semantischen Merkmalen) zusammengesetzt sind. Ein Unterbegriff wird dadurch definiert, dass er alle semantischen Merkmale mit seinem Überbegriff teilt, wobei weitere, distinktive Merkmale hinzutreten64. Herrmann et al. (1996: 147) bezeichnen diese Eigenschaft semantischer Merkmale als die Eignung, „begriffliche Klasseninklusionen abzubilden“. Im Grunde ist dies eine Neuformulierung der aristotelischen Begriffslehre, nach der ein Konzept über das genus proximum und die jeweiligen differentia specifica definiert werden kann. In unserem Beispiel wäre das eine Definition der Form „Ein

Fluss [Definiendum] ist ein Gewässer [genus proximum], das fließt und eine gewisse Größe haben muss [differentia specifica].“ So ließen sich alle Konzepte, die ein Mensch kennt, in ein gigantisches, taxonomisch aufgebautes Netzwerk fassen, das diese Konzepte untereinander verbindet. Wie

Es sind einige alternative Termini im Umlauf, die im Grunde alle die Grundannahme vermitteln, dass die Bedeutung eines Wortes aus mehreren Merkmalen konstituiert wird: „Komponentialsemantik“ (Linke et al., 2001: 145ff), „kompositionelle Theorie“ (Dittmann, 2002: 298ff) sowie Merkmalsemantik (ohne Bindungs-s) (Löbner, 2003: 201). Es soll hier der Begriff Merkmalssemantik verwandt werden, denn m. E. kommt es vorrangig darauf an, dass davon ausgegangen wird, dass die Bedeutung eines Wortes durch mehrere semantische Merkmale konstituiert wird. 61 Für eine detaillierte Beschreibung der Phonemanalyse vgl. Willi (2001: 427f). 62 Eine Menge von bestimmten Bedeutungen wird durch eckige Klammern notiert. Dies kann als ein Feld von Bedeutungen (oder ein Wortfeld) verstanden werden. 63 Die Kapitälchen-Schreibweise verdeutlicht, dass es sich um ein Konzept oder ein semantisches Merkmal (auf jeden Fall um so etwas wie einen „mentalen Inhalt“) handelt. 64 Dittmann (2002) ordnet diese Theorie eher den holistischen Ansätzen zu, m. E. kann jedoch ein solches semantisches Netzwerk auch als isomorphe Darstellungsform von einfachen Merkmalstabellen angesehen werden, wobei die Unter-/Überbegriffrelation noch hinzutritt. Somit wäre diese Theorie nicht frei von kompositionalen Aspekten. 60

- 38 -

Kapitel 2: Semantik

schwer es allerdings sein kann, einzelne Konzepte einer (und nur einer) Kategorie zuzuordnen, werden wir unter anderem auch im Abschnitt über die Prototypentheorie sehen. Schon an einem solch einfachen Konzept wie ZWIEBEL sehen wir, dass die Kategorieeinordnung überaus schwierig sein kann. Nehmen wir eine Einordnung in GEMÜSE, KOCHZUTATEN, HEILMITTEL oder LILIENGEWÄCHSE

vor? Viele würden es vielleicht der ersten Kategorie zuordnen, ein Koch vermutlich der

zweiten, ein Naturheiler der dritten und ein Botaniker der vierten. Nichtsdestotrotz lässt sich ein Phänomen den Bedeutungserwerb betreffend gut mit einer Merkmalssemantik erklären, so könnte man bei kindlichen Übergeneralisierungen annehmen, dass lediglich noch nicht genug semantische Merkmale zur Verfügung stehen, um Begriffe eindeutig voneinander zu trennen. „Hund“ sagt ein Kind also beispielsweise auch zu Katzen, Meerschweinchen oder Hamstern da bestimmte distinktive Merkmale noch fehlen (denkbar wäre hier das Merkmal KANN BELLEN)

während andere (z.B. HAUSTIER und VIERBEINIG) bereits auf das Konzept angewandt

werden. Generell stellt sich natürlich die Frage nach der Menge an Merkmalen, die es benötigt um alle Wortbedeutungen zu definieren. Notwendig für merkmalssemantische Betrachtungen wären nicht weiter zerlegbare, also elementare oder atomare Merkmale, aus denen alle Konzepte zusammengesetzt sind. Denn „[d]er ganze Sinn einer Dekomposition besteht natürlich in einer Reduktion der Bedeutung auf elementarere, letzten Endes nicht weiter zerlegbare Komponenten“ (Löbner, 2003: 205). Versucht man dies zu leisten, wird man bei einigen Bedeutungsfeldern65 immer wieder dabei ankommen, Kriterien der (natur)wissenschaftlichen Untersuchung heranzuziehen um Wörter sauber voneinander zu unterscheiden. Hierbei kann es immer möglich sein, dass Expertenwissen herangezogen werden muss, wir sahen das am oben genannten Beispiel des Konzeptes ZWIEBEL. Das führt jedoch dazu, dass der Einbezug von Weltwissen nötig wird, was die Unterscheidung zwischen Bedeutungs- und Weltwissen aufhebt und beide Wissensarten vermengt. Löbner (2003: 207) stellt somit die These auf, dass Merkmale „sprachlich motiviert“ sein müssen. Hierzu gehören beispielsweise Selektionsbeschränkungen (z.B. dass „fressen“ eher für tierische und „essen“ eher für menschliche Agenten verwendet wird) oder implizite Argumente von Verben („reiten“ impliziert – sofern nicht explizit ein anderes Instrument genannt wird – das „Instrument“ Pferd66). Ferner ist dabei unter anderem an lexikalisierte Unterscheidungen zu denken wie im Falle von verschiedenen Konzepten, die alle dem Oberbegriff PFERD angehören und deren Verschiedenartigkeit durch un-

Eine Bedeutungsdekomposition gesamtsprachlich anzulegen muss scheitern. Typischerweise werden deshalb Dekompositionen in einem abgesteckten Bedeutungsbereich wie z.B. SITZGELEGENHEITEN oder GEFÄSSE (vgl. Köster, 1995) vorgenommen. 66 Dies ist natürlich hoch kontextsensitiv. Denken wir nur an das Wort „schießen“, dessen implizites Instrument im Kontext eines Westerns wohl ein Trommelrevolver ist. Ist der Agent jedoch ein Indianer wird es zum Bogen. Schauen wir uns dahingegen ein Fußballspiel an, ist es hoffentlich der Fuß (mit gleichzeitiger Änderung des Handlungszwecks). 65

- 39 -

Kapitel 2: Semantik

terschiedliche Merkmalskombinationen realisiert werden muss (RAPPE, SCHIMMEL, FUCHS). Außer der sprachlichen Motiviertheit semantischer Merkmale gilt noch die Elementaritätsforderung, die oben schon angedeutet wurde. Außerdem sollte die Generalität von Merkmalen gegeben sein, das heißt ein Merkmal soll nicht nur auf eine kleine Zahl von Konzepten anwendbar sein. Erfüllt ein Merkmal alle drei Voraussetzungen spricht man von einem Marker, der im Idealfall auch noch universell, d.h. sprachübergreifend anwendbar ist (vgl. Löbner, 2003: 204ff). Es ist davon auszugehen, dass das Merkmal BELEBT/UNBELEBT (äquivalent zu ±BELEBT), das uns bereits in Abschnitt 1.4 begegnete, ein universeller Marker ist. Zu den Markern treten noch Merkmale, die den Status eines Sems einnehmen. Diese sind zwar als elementar und sprachlich motiviert einzustufen, aber ihre Ge-

neralität und Universalität sind in Frage zu stellen. Dies rührt aus ihrer Verwendung her, denn „Seme dienen zur Erfassung sehr spezieller Distinktionen innerhalb bestimmter Wortfelder“ (Löbner, 2003: 210). So könnte man sich in dem Wortfeld der Besitzwechselverben [KAUFEN, MIETEN, SICH LEIHEN, NEHMEN, STEHLEN …]

Seme wie ±PERMANENT oder ±GEGEN GELD vorstellen, die frei-

lich nur innerhalb dieses Wortfelds ihren Sinn entfalten. Weiterhin gibt es sogenannte Distinguisher, die für nicht näher analysierte Bedeutungsreste verwendet werden können. Bei einer Zerlegung von STUTE in +WEIBLICH und +PFERD kann WEIBLICH als Marker gelten und PFERD als Distinguisher da dieses Merkmal durchaus noch weiter zerlegbar wäre. Distinguisher sind somit weder elementar noch generell und wohl auch nicht universell. Doch auch sie können

sprachlich

motiviert

sein:

+PFERD beispielsweise als implizites Merkmal des Agenten von „reiten“. Ein Abbildung 13: Ein Ausschnitt des hierarchischen Clusterdiagramms aus Elman (1990). Die Abbildung zeigt die Gruppe der Nomen, innerhalb derer offenbar eine Unterscheidung zwischen „belebt“ und „unbelebt“ gelernt wurde.

Querverweis auf Elman (1990) bietet einen interessanten Einblick in das Prinzip der sprachlichen Motiviertheit

von semantischen Merkmalen. Das dort verwendete Simple Recurrent Network wurde, wie schon erwähnt, clusteranalytisch untersucht (siehe Abbildung 13) und es zeigte sich, dass das Netzwerk offenbar eine Unterscheidung zwischen Wörtern gelernt hat, die mit Konzepten verbunden sind, die das Merkmal BELEBT bzw. UNBELEBT aufweisen. Damit wird nicht behauptet, dass das Netzwerk ein Bild von diesen Kategorien hat, denn die Kategoriennamen, die hinter den Clustern stehen, wurden natürlich vom Autor der Studie eingefügt. Allerdings lässt sich doch eine Parallele zur sprachlichen Motiviertheit von semantischen Merkmalen ziehen, denn der einzige Grund, dass das Netzwerk diese Unterscheidung gelernt hat, liegt in der Oberflächenstruktur des Trainingskorpus, - 40 -

Kapitel 2: Semantik

also der statistischen Verteilung der verschiedenen Wörter und ihrer Kookkurenz mit anderen Wörtern. So ist davon auszugehen, dass in vorliegendem Beispiel das englische „man“ häufiger im Kontext mit bestimmten Wörtern verwendet wurde (beispielsweise Verben, die nur einen belebten Agenten zulassen, hier: „eat“) als das Wort „car“. Dies ist im Grunde keine grundlegend andere Unterscheidungsfindung67 als jene zwischen Nomen und Verben, die eben in noch unterschiedlicheren Kontexten im Satz stehen und somit noch unähnlicher repräsentiert werden. Wenn man also soweit gehen will und diese Unterscheidungen, die das SRN herausgebildet hat, als eine Art von Merkmalsextraktion auffasst, kann das Netzwerk ausschließlich sprachlich motivierte Merkmale erkennen. Da es ein Prinzip der von Elman (1990) verwendeten Minisprache war, dass nur bestimmte (z.B. belebte, menschliche) Agenten bestimmte Aktionen (z.B. denken) ausführen können (also mit den entsprechenden Verben zusammenstehen müssen), kann das SRN dieses Prinzip extrahieren. Es findet also eine „kombinatorische Bedeutungseigenschaft“ (Löbner, 2003: 204) heraus, so ist in diesem Beispiel das Merkmal ±MENSCHLICH nicht ein Merkmal von „denken“, sondern eine Selektionsbeschränkung für den Agens dieses Verbs. In einem zu einfachen merkmalssemantischen Ansatz können solche Kombinationsbeschränkungen nicht erfasst werden. Ein ähnliches Beispiel ist die Zuweisung des Merkmals –WEIBLICH zur Bedeutung von „Prostata“ – dies ist zwar intuitiv nachvollziehbar, aber formal falsch. Wir sehen also, dass ein streng merkmalssemantischer Ansatz Probleme mit sich bringt, auch wenn er in einigen Aspekten intuitiv sehr einleuchtend ist. Als Werkzeug für linguistische Analysen ist der Ansatz daher nicht vollständig abzulehnen – eine Unterteilung in semantische Merkmale erscheint in einigen Belangen durchaus sinnvoll und auch die grundlegenden Prinzipien, die diesen Merkmalen zueigen sind, wie sprachliche Motiviertheit oder Elementarität, sind sinnvolle Annahmen, die sich auch mit konnektionistischen Theorien in Einklang bringen lassen. Eventuell wäre eine „weichere“ Sichtweise nützlich, die die Merkmalssemantik als ein „Einstiegswerkzeug“ in semantische Analysen sieht, als eine einfache, intuitiv leicht zugängliche Möglichkeit Schneisen in Wortfelder zu schlagen – verbunden mit dem Risiko im Detail ungenau zu sein. Außerdem bieten semantische Merkmale eine gute Möglichkeit, Bedeutungsbeziehungen herauszuarbeiten. Es scheint äußerst schwierig mit semantischen Merkmalen, die lediglich zwei Werte einnehmen können (nämlich wahr oder falsch, + und –), Phänomenen Rechnung zu tragen, die eindeutig eine nebulöse Gestalt von semantischen Feldern nahe legen. Nebulös kann hierbei in zweierlei Richtungen interpretiert werden. Feldintern verstanden heißt es, dass bestimmte Wörter weiter im Zentrum eines Feldes liegen können und dass somit eine binäre Gestaltung von Merkmalen nicht mehr funktioniert.

Das sperrige Wort „Unterscheidungsfindung“ ist hier richtiger als „Unterscheidung“, denn es geht nicht um die fertig herausgebildete Unterscheidung, sondern um den Prozess, der hier im Grunde denselben Prinzipien folgt. Diese Prinzipien beruhen wiederum auf überaus feinkörnigen statistischen Auswertungsmechanismen – dies wurde in Abschnitt 1.2 erläutert. 67

- 41 -

Kapitel 2: Semantik

Feldextern verstanden bedeutet nebulös hingegen, dass die Grenzen von semantischen Feldern fließend sein können, Wortfelder sich überschneiden können oder ein Wort in mehrere Felder eingeordnet werden kann. Mit einigen dieser Phänomene werden wir uns im nächsten Abschnitt befassen, der der Prototypentheorie gewidmet ist, als deren Begründerin Eleanor Rosch gilt, die jedoch zahlreiche Untersuchen und Erweiterungen auch anderer ForscherInnen nach sich gezogen hat.

2.2.2. Prototypensemantik Grundannahmen der Prototypentheorie

Die Grundannahmen der Prototypensemantik sind in einigen Bereichen nicht vereinbar mit jenen der Merkmalssemantik. So kann eine Theorie, die von binären Merkmalen ausgeht, nur diametral der Grundthese der Prototypensemantik entgegenstehen, dass es typische und weniger typische Vertreter einer Kategorie geben kann68 und somit zweipolige Kontraste abzulehnen hat. Um uns jedoch der Prototypentheorie zu nähern, müssen wir uns zuerst ein Bild von Kategorien machen, die hier – wie schon angedeutet – einen wichtigen Stellenwert einnehmen. Indem wir etwas kategorisieren, nehmen wir es als etwas von einer bestimmten Art wahr. Dies ist freilich ein hoch automatisierter Prozess, der uns nicht als aktive Tätigkeit ins Bewusstsein dringt. Sehen wir ein fotografiertes Portrait werden wir es in die Kategorie Foto einordnen, das, was darauf zu sehen ist, in die Kategorie „Gesicht“, die abgebildete Person wohl noch in die Kategorie „Frau“ oder „Mann“. Kategorien helfen uns, das, was auf uns einströmt, zu ordnen. Dies ist vor allem im Hinblick auf die weitere Interaktion mit bestimmten Dingen überaus sinnvoll. So scheint es angebracht eine Kategorie „Hund“ herauszubilden, die die Subkategorien „gefährlicher Hund“ und „ungefährlicher Hund“ einschließt – um mit Mitgliedern einer dieser beider Subkategorien69 im Hinblick auf unser weiteres unbeschadetes Überleben entsprechend umzugehen. Dabei ist immer zu unterscheiden zwischen Exemplaren (Elementen) und Kategorien (Mengen)70. Kategorien müssen durch ein Konzept repräsentiert sein, das potentielle Mitglieder der jeweiligen Kategorie charakterisiert. Vielen Kategorie- und Exemplarkonzepten entspricht dabei nicht unbe-

An dieser Stelle muss man allerdings unterscheiden zwischen AnhängerInnen einer strengen binären Aufteilung von semantischen Merkmalen (also WEIBLICH vs. MÄNNLICH; BELEBT vs. UNBELEBT, …), die behaupten würden, dass jede Merkmalsanalyse mit solchen streng binären Aufteilungen auskommen würde und AnhängerInnen eines moderateren Standpunkts, die lediglich eine Tendenz zu binären Unterscheidungen konstatieren würden (vgl. zu diesem Streitpunkt Cruse, 2006: 20). 69 Subkategorien sind Teilmengen. Das heißt, dass ein Mitglied der Kategorie „gefährlicher Hund“ auch ein Element der Kategorie „Hund“ ist. 70 Diese Unterscheidung führt eine ergänzende Erläuterung der Theorie der Semantischen Netzwerke von Quillian (1966) ein. Auch hier sind die Knoten der Netzwerke eigentlich Kategorie-Knoten, an denen noch spezielle Knoten für Entitäten in dieser Kategorie hängen, also bspw. ein Knoten für „mein kaputtes schwarzes Telefon in der Küche“ am Kategorienknoten „Telefon“. Auch hier gilt, dass die Entitäten die Merkmale der übergeordneten Knoten erben und selbst noch spezielle Merkmale (und Ausnahmen) aufweisen können. 68

- 42 -

Kapitel 2: Semantik

dingt eine Wortform, diese muss dann über syntaktische Konstruktionen hergestellt werden, bspw. „Hunde, vor denen ich Angst habe“ oder „Kaputte Telefone“71. Zweitens fallen auch für die Kategorien, für die wir Wörter haben, die Wortbedeutungen nicht einfach mit unseren Konzepten für die Kategorien zusammen. Zum Beispiel ist die Bedeutung des Wortes Fahrrad ein sehr abstraktes Konzept, gerade reichhaltig genug, um die Kategorie zu definieren, die aus allen denkbaren Fahrrädern besteht. Aber Sie selbst werden ein viel reichhaltigeres Konzept mit dem Wort Fahrrad verbinden, das auf Ihrem individuellen Wissen über Fahrräder und Ihren persönlichen Erfahrungen mit diesen Fahrgeräten beruht. Vieles von diesem Konzept ist nicht Allgemeingut, und selbst ein weniger umfassendes Fahrradkonzept, das weitgehend Allgemeingut ist, ist immer noch reichhaltiger als das schlanke Konzept ‚Fahrrad’, das als Bedeutung des Worts fungiert. [Hervorhebungen im Original, S.W.] (Löbner, 2003: 258).

Nach einem binären merkmalssemantischen Ansatz sind nun Kategoriengrenzen eindeutig und scharf, denn die Bedingungen für eine Mitgliedschaft sind entweder erfüllt oder nicht. Innerhalb der klar bestimmbaren Grenzen haben nun alle Mitglieder denselben Status – sie alle sind gleichberechtigte oder „gleich gute“ Mitglieder der Kategorie. Man kann nun die beobachtbaren Eigenschaften von Referenten sozusagen „abhaken“ um zu überprüfen ob ein bestimmter Referent Mitglied einer bestimmten Kategorie ist. Daher kann der merkmalssemantische Ansatz auch als „ChecklistModell“ bezeichnet werden (Aitchison, 1987: 43; zuerst verwendet bei Fillmore, 1975, zitiert nach Aitchison, 1987; Löbner, 2003: 259). Die Prototypentheorie hingegen geht davon aus, dass Kategorien eben nicht scharf umrissen sein müssen72 und dass die Mitgliedschaft zu einer Kategorie typischer oder untypischer sein kann. Das zieht auch eine weitere zentrale These nach sich: Es gibt den einen Vertreter einer Kategorie, der am besten passt, der sozusagen das Zentrum der Kategorie darstellt, der alle Eigenschaften auf sich vereinigt, die zu einer typischen Mitgliedschaft zu dieser Kategorie gehören. Um diesen Prototyp herum werden die anderen Mitglieder einer Kategorie angeordnet, sie sind quasi durch ihren Bezug zum Prototyp als Kategorienmitglieder definiert. Somit können zwei Kategorienmitglieder dem Prototyp gleich ähnlich sein ohne sich gegenseitig ähneln zu müssen. Was die Mitglieder untereinander verbindet ist das Prinzip der Familienähnlichkeit. Dabei stellt sich jedoch die Frage welche Art von Entitäten Prototypen eigentlich darstellen, denn die Definition als „bestes Beispiel“ seiner Kategorie lässt doch einiges an Genauigkeit vermissen. Dieser Ausdruck legt nahe, dass ein Mitglied einer Kategorie die Rolle des Prototyps übernimmt, mit dem alle potentiellen Neumitglieder abgeglichen werden müssen um zu entscheiden ob sie in die Kategorie gehören oder nicht. Wenn nun aber ein ganz bestimmter individueller Hund als Prototyp für die Kategorie „Hund“ gelten müsste, Interessant sind hier zwischensprachliche Vergleiche. So gibt es eine Menge Wörter in anderen Sprachen, die Kategorien bezeichnen, die im Deutschen umständlich umschrieben werden müssen: so beispielsweise „Koshatnik“ (russisch für „Händler, der gestohlene Katzen verkauft“), „waham“ (arabisch für „heftiges Verlangen nach bestimmten Nahrungsmitteln während der Schwangerschaft“) oder „varevare“ (Maori für „sehr jung und trotzdem schon ziemlich verzweifelt sein“). Alle Beispiele sind aus (de Boinod, 2005) entnommen. 72 In der englischsprachigen Literatur ist dies mit dem Stichwort „fuzzy boundaries“ gefasst. Es liegt also keine strenge Trennung zwischen Mitgliedern und Nicht-Mitgliedern von Kategorien vor. 71

- 43 -

Kapitel 2: Semantik

müsste jeder diesen einen Hund kennen – denn ohne die Kenntnis dieses einen Exemplars könnte man keine potentiellen neuen Hunde einordnen. Es muss also davon ausgegangen werden, dass es sich bei einem Prototypen auch um eine abstrakte Idee – also kein real existierendes Exemplar – handeln kann, die eben viele (oder alle) Eigenschaften auf sich vereinigt, die typisch für eine Kategorie sind. In bestimmten Fällen kann es dann natürlich geschehen, dass tatsächlich ein bestimmtes individuelles Exemplar dieser abstrakten Idee besonders ähnelt und (fast) Prototypenstatus einnimmt. Solche Eigenschaften (z.B. HAT FEDERN für die Kategorie „Vogel“) haben einen hohen Erkennungswert (cue validity), das heißt, dass fast alle Vertreter einer Kategorie diese Eigenschaft vorweisen können und (fast) alle Nicht-Mitglieder nicht. In besonders umfassenden Kategorien wie „Tier“ kann es überaus schwierig werden, gemeinsame Gestalt-, Verhaltens- oder sonstige maßgebliche Merkmale zu einem Prototyp zu kombinieren. Hier muss so etwas wie ein Ersatzmechanismus angenommen werden, nämlich insofern, dass Prototypen über Vertrautheit (in der Kategorie „Tier“ bspw. „Hund“) und nicht über repräsentative Eigenschaften herausgebildet werden. Ob solche „prototypischen Fälle“ (Löbner, 2003: 269) dann auch als Referenzfälle für die Kategorisierung geeignet sind, ist eher fraglich – kann man verifizieren ob eine Amöbe oder ein Manta-Rochen ein Tier ist, indem man sie mit einem Hund abgleicht? Der Grundsatz, dass ein Prototyp die Rolle eines Referenzfalles im Sinne eines Abgleichsinstrument einnimmt, muss also überdacht werden und kann nicht grundsätzlich für jede Art von Kategorie angenommen werden. Auch andere Eckpfeiler der Prototypentheorie können von der Art der Kategorie abhängen: So sind durchaus Kategorien denkbar, in denen die Zugehörigkeit eben doch durch ein System von notwendigen und hinreichenden Bedingungen bestimmt ist. Dies ist insbesondere bei künstlichen Kategorien wie beispielsweise „ungerade Zahl“ der Fall, hier ist die notwendige und hinreichende Bedingung eben einfach, dass eine Zahl ungerade ist. Hier ist auch keine graduelle Zugehörigkeit möglich: Entweder etwas ist eine ungerade Zahl oder eben nicht – Im Falle der Zahl 11,9999 hilft es wenig, dass sie der 12 in ihrem Wert sehr nahe kommt, sie ist und bleibt keine gerade Zahl. Es gäbe an dieser Stelle noch zahlreiche Aspekte der Prototypentheorie vorzustellen wie beispielsweise die interessante Konzeption der Basisebene („basic level“), die von „particular psychological and communicative significance“ (Cruse, 2006: 19) zu sein scheint (vgl. hierzu bspw. auch Linke et al., 2001: 347ff; Löbner, 2003: 272ff). Konzepte, die auf dieser Basisebene angesiedelt sind, sind die in der Alltagskommunikation am häufigsten verwendeten. Ebenso könnte man auf die Probleme der Prototypentheorie noch detaillierter eingehen (vgl. bspw. Aitchison, 1987: 60ff). Weiterführende Erläuterungen sollen jedoch an dieser Stelle zurückgestellt werden und wo es sich anbietet im weiteren Text an den relevanten Stellen aufgegriffen werden. Als eine frühe und wegweisende Studie zur psychologischen Realität von Prototypen gilt jene von Posner & Keele (1968), die Studien von Posner et al. (1967) vertieft. - 44 -

Kapitel 2: Semantik

Stattdessen soll an dieser Stelle eine klassische konnektionistische Studie vorgestellt werden, die unter Einfluss der Prototypentheorie entstanden ist und bereits angesprochen wurde, jedoch in diesem Abschnitt nochmals genauere Betrachtung verdient (McClelland & Rumelhart, 1985). McClelland & Rumelhart (1985): Prototypenextraktion in Autoassoziativspeichern

Sehr detaillierte Annahmen über die Repräsentation und Realisierung von Prototypen im menschlichen Gedächtnis machen (zumindest implizit) McClelland & Rumelhart (1985). Die Studie basiert auf einem autoassoziativen Speicher mit 24 Knoten. Die Architektur und die Eigenschaften eines Autoassoziators wurden im entsprechenden Abschnitt hinreichend erläutert. Hier sollen insbesondere jene Eigenschaften von Interesse sein, die das Modell bei der Herausbildung einer prototypischen Repräsentation mitbringt. Stellen wir uns folgende hypothetische Situation vor: A little boy sees many different dogs, each only once, and each with a different name. All the dogs are a little different from each other, but in general there is a pattern which represents the typical dog: each one is just a different distortion of this prototype. For now we will assume that the names of the dogs are all completely different. Given this experience, we would expect that the boy would learn the prototype of the category, even without ever seeing any particular dog which matches the prototype directly. (McClelland & Rumelhart, 1985: 167f)

Der Prototyp wird also genauso vertraut wirken wie jedes der tatsächlich gesehenen Exemplare und der Junge wird in der Lage sein, jedes Muster in Richtung des Prototyps zu vervollständigen. Dies erinnert einerseits an die Studie von Posner & Keele (1968), die gezeigt haben, dass der Prototyp (zumindest nach seiner ersten Präsentation in der Testphase) ebenso gut und schnell kategorisiert wird wie tatsächlich gesehene Muster. Andererseits referiert die Tatsache, dass der Prototyp hier kein real existierender Vertreter seiner Kategorie ist, auf die oben formulierte Einsicht, dass ein Prototyp auch eine abstrakte Idee darstellen kann – auch zu Beginn des Abschnitts über die Prototypentheorie wurde das Beispiel der Kategorie „Hund“ angeführt (vgl. auch Löbner, 2003: 267f). In der vorzustellenden Studie wird angenommen, dass die Präsentation eines Hundes ein visuelles Muster erzeugt, das aus 16 Merkmalen, d.h. Bits auf einem Input-Vektor, besteht. Acht zusätzliche Bits werden für die Kodierung des Namens des jeweiligen Hundes benutzt. Somit umfasst der Input-Vektor 24 Bits, sinnigerweise so viele wie der Autoassoziativspeicher Knoten hat (siehe Abbildung 14). Jedes visuelle Muster (also 16 Bits des Input-Vektors) ist nun von einem hypothetischen Prototyp abgeleitet indem zufälligerweise die Vorzeichen73 einzelner Bits des Vektors verName

Erscheinung

Abbildung 14: Darstellung eines Input-Vektors („Hund“), wie er von McClelland & Rumelhart (1985) verwendet wurde. Die ersten acht Bits wurden zufällig belegt und repräsentieren den Namen eines Hundes, die letzten 16 die Erscheinung. Hier ist die in der Studie verwendete, prototypische Erscheinung eines Hundes gezeigt (grau hinterlegt: +1; weiß hinterlegt: -1).

tauscht werden. Für jedes neue Muster wird dabei das Vorzeichen der einzelnen Bits mit einer Wahrscheinlichkeit von je 20% vertauscht. Der Abschnitt des Input-Vektors, der

Für den Input-Vektor sind deshalb nur die Vorzeichen von Wichtigkeit, weil es sich bei den einzelnen Bits immer entweder um eine -1 oder eine +1 handelt. 73

- 45 -

Kapitel 2: Semantik

den Namen der Hunde kodiert, wurde über eine vollkommen zufällige, jedoch stets verschiedene Anordnung von Vorzeichen realisiert. Dem Netz wurden fünfzig verschiedene Name-ErscheinungPaare (also 24-Bit-Vektoren) präsentiert, bei jedem Muster wurde abgewartet bis sich die Aktivationsmuster stabilisierten (das Muster also als „gelernt“ gelten konnte). Da ein Autoassoziator Korrelationsmuster zwischen verschiedenen Mustern durch die Anpassung der Verbindungsgewichte zwischen den Knoten lernt, liegt es sozusagen in der Natur der Sache, dass hier jenes Muster gelernt wird, von dem alle fünfzig „Hunde“ abgeleitet sind - detailliert wird dies in Abschnitt 1.2.2 erläutert. Das hier verwendete Netz ist also nicht nur in der Lage, das zuletzt gelernte Muster zu replizieren74, sondern kann auch den prototypischen Hund sehr gut identifizieren. Die Gewichte nach dem Lernen von fünfzig Hunden repräsentieren die Korrelationen zwischen den Werten des Prototyp-Musters. Was das Netz nicht gelernt hat, ist jegliche Beziehung zwischen dem prototypischen Muster und einem bestimmten Namen (acht Bits des Vektors). Dies liegt in den völlig zufälligen Assoziationen zwischen Namen- und Erscheinungsteil des InputVektors begründet. Wäre der Name jedes Hundes gleich gewesen (z.B. eine spezielle Repräsentation von „dog“) oder systematische Abweichungen davon, hätte das Netz auch diese Assoziationen gelernt. Dies korrespondiert mit der hypothetischen Situation, die zuvor dargelegt wurde: Ein Collie, ein Labrador und ein Schäferhund teilen sich wohl einige Merkmale ihres Aussehens, ihre Namen sind jedoch völlig arbiträr zugeteilt und stehen in keinerlei Beziehung zueinander. Das hier vorgestellte Netz fungiert sozusagen als eine Art „signal averager“ (McClelland & Rumelhart, 1985: 168), der die zentrale Tendenz in einer Menge an Mustern, die in einer gewissen Beziehung zueinander stehen, herausfinden kann. Um zu analysieren, ob es demselben Netz möglich ist, mehrere Prototypen zu extrahieren, deren Vektoren nicht orthogonal zueinander, also nicht maximal unähnlich, sind, wurden zwei weitere Prototypen eingeführt und somit die simulierte Situation um zwei Kategorien erweitert. Neben einem prototypischen „Hund“ wird nun auch eine typische „Katze“ und ein typischer „Bagel“ (nennen wir diesen auf Deutsch einfach „Lochbrötchen“). Natürlich ist eine Katze einem Hund ähnlicher als einem Lochbrötchen, so sind sich die Vektoren für den ProtoHund und für die Proto-Katze ähnlich, jedoch sind beide orthogonal zum prototypischen Lochbrötchen-Vektor. Die Namensteile der Vektoren sind nun nicht mehr zufällig gestaltet, sondern ebenfalls um einen jeweiligen Prototypen gestreut – sie unterschieden sich jedoch von den prototypischen Erscheinungsbildern dadurch, dass jeder Namensteil orthogonal, also maximal unähnlich, zu den jeweils anderen Namensteilen ist. Kurz gesagt: Hunde und Katzen sehen zwar ähnlich aus, heißen aber anders, wohingegen Lochbrötchen zu keinem der beiden in Beziehung stehen, weder

Dieses ist ja durch die letzte Anpassung der Gewichte noch am unmittelbarsten präsent. Man könnte dies insofern auffassen, dass der zuletzt präsentierte Hunde-Vektor dem Gedächtnis noch „präsent“ ist. Es sei auch hier darauf verwiesen, dass dies nicht die Folge eines eingebauten Arbeitsgedächtnismoduls oder ähnlicher Merkmale ist, sondern im Wesen der Architektur begründet ist. 74

- 46 -

Kapitel 2: Semantik

namentlich noch durch ihre Erscheinung. Einem Autoassoziator mit 24 Knoten wurden nun fünfzig Abweichungen von jedem Prototyp in Dreiergruppen aus je einem Name-Erscheinung-Paar vom Typ „Hund“, „Katze“ und „Lochbrötchen“ präsentiert. Nach Abschluss des Trainings wurde das Netz zuerst mit jedem Namen-Muster, dann mit jedem Erscheinungsmuster getestet75. Es musste, gemäß seiner Eigenschaft als Autoassoziator, das jeweilige Muster komplettieren – zu den Namen musste die Erscheinung repliziert werden und vice versa. Diese Aufgabe erfüllte das Netzwerk (siehe auch Tabelle 2 in McClelland & Rumelhart, 1985: 170). Dabei hatte es jedoch zu Beginn des Trainings mehr Schwierigkeiten, die Muster für Katzen und Hunde zu unterscheiden. Mit mehr Evidenz und somit einer zuverlässigeren Generalisierungsgrundlage verschwand jedoch dieses Problem (zu einer detaillierten Besprechung der Eigenschaften des Lernens in künstlichen neuronalen Netzen und teilweise auch als Ergänzung zu Abschnitt 1.2 der vorliegenden Arbeit vgl. Elman (1993: 85ff)). Präsentiert man in der Testphase ein visuelles Muster, das nicht zwischen Hunden und Katzen unterscheidet76, ist das Netzwerk selbstverständlich nicht in der Lage, eine sinnvolle Mustervervollständigung durchzuführen. Beide Probleme, die das Netzwerk mit der ähnlichen Erscheinungsform von Hunden und Katzen hat, sind intuitiv mit den Eigenschaften menschlichen Lernens vereinbar. Nebenbei bemerkt war das Modell auch dann in der Lage, die zentrale Tendenz der verschiedenen Inputmuster zu extrahieren wenn die Kategoriebezeichnungen (also die Streuungen um den jeweils prototypischen Klang von „Hund“, „Katze“ oder „Lochbrötchen“) weggelassen (die Bits auf 0 gesetzt) wurden. Präsentiert man dem Netzwerk dann in der Testphase lediglich einen Teil des Erscheinungsbereichs des Prototypen-Vektors, komplettiert das Netzwerk diesen77. Betrachten wir eine letzte hypothetische Situation, die eine weitere Eigenschaften des Netzwerks verdeutlichen soll: Ein Kind kennt den Hund „Rover“ seiner Großmutter und den Hund „Fido“ seines Nachbarn. Außerdem sieht es im Park viele Hunde, die von einem Elternteil als „Hund“ bezeichnet werden. Die analoge Modellsituation stellt sich folgendermaßen dar: Dem Netzwerk werden drei verschiedene Namensvektorteile gezeigt, einer für „Rover“, einer für „Fido“ und einer für „Hund“, die Erscheinungsteile für Rover und Fido sind feste Streuungen um den HundPrototyp, für die Hunde im Park wird der Erscheinungsteil immer geändert, jedoch auch um den Prototyp gestreut. Die Trainingsanordnung ist dieselbe wie im Katze-Hund-Lochbrötchen-Beispiel. Hier sind die drei Prototypen gemeint, von denen die gelernten Muster abgeleitet wurden. Dies wird dadurch realisiert, dass genau jene Bits im Test-Vektor angegeben werden, die in beiden Prototyp-Vektoren gleich sind. In der referierten Studie sind dies beispielsweise die ersten neun Bits des Erscheinungsteils des Prototyp-Vektors. 77 Selbstverständlich komplettiert es nur den Teil, der die Erscheinung des Prototyps kodiert. Um den Namen-Teil korrekt zu replizieren fehlt dem Modell in dieser Bedingung das nötige Trainingsmaterial. Übertragen auf die hypothetische Realwelt-Situation würde das heißen, dass ein Kind es wohl erkennen würde, dass essbare, runde Dinge mit einem Loch in der Mitte irgendwie ähnlich und wohl auch gemeinsam in eine Kategorie einzuordnen sind. Wenn aber diesem Kind niemand sagt, dass diese Kategorie die Bezeichnung „Bagel“ hat, wird es dies auch nie lernen. Dies erinnert an die zu Beginn dieses Abschnitts vorgestellten Kategorien, zu denen es keine Wortform gibt (vgl. bspw. de Boinod, 2005). 75 76

- 47 -

Kapitel 2: Semantik

Nach fünfzig Lerndurchgängen (also insgesamt 150 Vektoren) war das Modell in der Lage die korrekte Erscheinungsform für den entsprechenden Namen anzugeben. Bei „Hund“ gab es das extrahierte Prototyp-Erscheinungsmuster zurück, bei den beiden speziellen Exemplaren die entsprechenden Erscheinungsteile des Vektors. Wie im vorherigen Beispiel funktioniert dies auch in entgegengesetzter Richtung. Zusätzlich dazu antwortet das Netzwerk auch dann noch korrekt mit „Rover“ wenn dessen vorher erlerntes Erscheinungsbild sich in nur einem Bit von dem des ProtoHunds unterscheidet. „Because of the special importance of this particular element, the weights from this element to the units that distinguish Rover’s name pattern from the prototype name pattern are quite strong“ (McClelland & Rumelhart, 1985: 172). Auch die Vervollständigung von unvollständigen Erscheinungsmustern wird entsprechend der unterschiedlichen Exemplare vorgenommen. Außerdem ist es leicht vorstellbar, dass einige Prototypen und Spezialexemplare mehr in demselben Speicher abgelegt werden können – dies ist lediglich eine Frage der Kapazität. Abschließend sollen die Eigenschaften des vorgestellten Modells zusammengefasst aufgelistet werden, wie sie von McClelland & Rumelhart (1985: 173) formuliert werden: • • • • • • •

Das Netzwerk kann mehrere verschiedene Muster speichern. Es kann diese Muster vervollständigen. Es kann aus diesen die zentrale Tendenz, den Prototyp, extrahieren. Es kann das funktionale Äquivalent von Kategorien herausbilden. Dabei ist es egal ob diesen Kategorien eine Bezeichnung anhaftet oder nicht. Es erlaubt die Repräsentation von wiederholt präsentierten „Spezialexemplaren“ neben den entsprechenden Prototypen. Das Modell ist nicht nur als ein „Kategorisierer“ zu sehen. Vielmehr findet es die zugrunde liegende, verbindende Struktur „hinter“ einem Datensatz heraus – ob diese in Form von Prototypen beschreibbar ist oder nicht.

Die ersten zwei Punkte wurden bereits in Abschnitt 1.2 der vorliegenden Arbeit herausgestellt. Der dritte Punkt kann auch als Analogie zum Auflösen von verrauschtem Input gesehen werden: Die systematisch78 abweichenden Exemplare sind in dieser Hinsicht sozusagen „unscharfe“, verrauschte Versionen des zu erlernenden Prototyps. Der vierte Punkt ist dagegen insofern gewagt formuliert, als dass er eine bestimmte Konzeption des Begriffs Kategorie zugrunde legt; es scheint jedoch fraglich, ob bei allgemeineren Kategorien wie „Tier“ dieser Mechanismus auch funktionieren würde, da angenommen werden muss, dass in solchen Kategorien Prototypen anders herausgebildet werden und nicht bloße Mittelungen der einzelnen Exemplare darstellen (siehe die Ausführungen zu Beginn dieses Abschnitts). McClelland & Rumelhart (1985) gelang es, einige der Eigenschaften, die die Herausbildung von Prototypen aufweist, mit einem konnektionistischen Netzwerk zu realisieren. Sie zeigten dadurch,

Systematisch insofern, dass es eine gewisse Wahrscheinlichkeitsverteilung bei der Musterherstellung gibt und dass die Muster alle um einen Prototypen herum organisiert sind. Unsystematisch war somit die Zuweisung der „Namen“ in der ersten Stufe der Studie von McClelland & Rumelhart (1985).

78

- 48 -

Kapitel 2: Semantik

dass sich das konnektionistische Paradigma als Analyse- und Modellierungswerkzeug dazu eignet, bestimmte Aspekte menschlicher Kognition zu untersuchen. Insbesondere bei der Erforschung der Prototypentheorie scheinen künstliche neuronale Netze schon aufgrund ihrer grundlegendsten Architekturmerkmale das Mittel der Wahl zu sein. In einer weiteren Studie, die einen Vergleich zu empirischen Ergebnissen von Whittlesea (1983, zitiert nach McClelland & Rumelhart, 1985) anstellt, konnten sie außerdem zeigen, dass spezifischen Exemplaren eine größere Rolle bei einer Erkennungsaufgabe zukommt. So werden beispielsweise Exemplare, die näher an einem nicht präsentierten Prototypen liegen, in der Testphase schneller erkannt als solche, die weiter von diesem Prototyp entfernt sind. Es wurden außerdem noch viele andere Beziehungen zwischen Trainings- und Testmaterial untersucht, die hier aus Platzgründen nicht referiert werden können. Relevant ist hier die Erkenntnis, dass Whittleseas Ergebnisse durch ein künstliches neuronales Netz approximiert werden konnten.

2.3. Satzsemantik Die Satzsemantik unterscheidet sich grundlegend von der lexikalischen Semantik, dies verdeutlicht schon die einfache Alltagsbeobachtung, dass wir die Bedeutung von Wörtern (Lexemen) in Wörterbüchern nachschlagen können, wohingegen dies bei Gruppen von Wörtern (Phrasen) und Sätzen nicht möglich ist. Ein Grund hierfür ist die potentiell unendliche Anzahl von Sätzen, die ein Sprachsystem umfasst. Ein Grund hierfür ist die potentiell unendliche Anzahl von Sätzen, die ein Sprachsystem umfasst, wodurch wir in der Lage sind, immer neue komplexe Ausdrücke zu formen. Idealerweise verstehen andere Teilnehmer der Sprachgemeinschaft diese Sätze auch, was unsere Fähigkeit zeigt, dass wir auch die Bedeutung zu einem völlig neuen Satz zu konstruieren. Die Wissenschaft von der Satzsemantik braucht also Systeme, die dazu in der Lage sind, Regeln zu benennen, wonach sich die Bedeutung eines komplexen Ausdrucks aufbauen lässt. Die Bedeutung eines Satzes ist also auf gewisse Weise vorhersagbar und nicht arbiträr zugeordnet wie dies bei Lexemen der Fall ist (weshalb wir Wörterbücher benötigen). Das Kompositionalitätsprinzip, das besagt, dass sich die Bedeutung eines Satzes aus der Bedeutung der Teile und der Art des Aufbaus ergibt, bildet die Grundlage für eine Semantik von komplexen Ausdrücken. Tendenziell kann jedoch diese Bedeutungsbestimmung immer nur in mehr oder weniger guter Annäherung stattfinden, aber nicht in ganzem Umfang geklärt werden, dies ist das Phänomen der Unterdeterminiertheit79. Die Semantikansätze, die sich mit Sätzen beschäftigen, sind inzwischen vielfältig. Zunächst soll im Rahmen einer Begriffsklärung das Konzept der „Proposition“ überprüft werden. Die Proposition Diese Unterdeterminiertheit kann im Extrem zu idiomatischen Wendungen und Phraseologismen führen, bei denen die Bedeutung des Ganzen auf keine Weise (oder nicht mehr) durch die Teile und die Konstruktion motiviert ist. Beispiele für komplexe Ausdrücke, bei denen sich die Arbitrarität wieder durchsetzt, sind „durch die Lappen gehen“, „ins Fettnäpfchen treten“, „in die Nesseln setzen“, „den Vogel abschießen“ und vielerlei mehr. 79

- 49 -

Kapitel 2: Semantik

als sprachunabhängige Bedeutungsrepräsentation wird in vielen Theorien und Modellen anders aufgefasst. Hierbei sind nuancenartige Unterschiede ebenso zu finden wie grundlegende Differenzen. Es soll die traditionelle Auffassung von Propositionen referiert werden sowie die Frage angerissen werden, welche und wie viele Informationen in diesen Konstrukten repräsentiert werden. Nach einer kurzen Einordnung in die Mögliche-Welten-Semantik wird der Ansatz der Minimal Recursion Semantics (nach Copestake et al., 1995; 2001) vorgestellt, der unter anderem mit der Motivation erarbeitet wurde ein berechenbares – also auf Computersystemen implementierbares – System der semantischen Repräsentation und Produktion zu erstellen.

2.3.1. Propositionen als sprachunabhängige Bedeutungsrepräsentationen80 Eine der bekanntesten Arbeiten, die sich mit Propositionen beschäftigt – besser: darauf basiert – ist das Construction-Integration-Modell von Kintsch (vgl. bspw. 1988; 1998), aber auch andere Ansätze beziehen sich auf eine Art von Propositionen, Minsky & Papert (1972, zitiert nach Kosslyn & Pomerantz, 1992) sprechen in diesem Zusammenhang von „symbolischer“ Repräsentation. Eine Proposition wird als „der grundlegende Bestandteil einer Wissensstruktur“ (Grabowski, 1991: 30) verstanden, dieses Prinzip wurde von Kintsch schon in früheren Arbeiten dargelegt (Kintsch, 1974; Kintsch & van Dijk, 1978). In ihrer Urform besteht eine Proposition aus einem Prädikat sowie einem oder mehreren Argumenten, die über das Prädikat in Beziehung zueinander gesetzt werden. Dies erinnert an Ansätze wie jenen von Fillmore (1968), bei denen ein Prädikat eine Reihe semantischer Rollen definiert, die dann durch Argumente ausgefüllt (oder instanziert) werden. Propositionen weisen jedoch über diesen linguistischen Kontext hinaus. Sie gelten nicht als Einheiten sprachlicher Bedeutung, sondern als „vorsprachliche (prä-verbale) kognitive Bedeutungsstrukturen“ (Grabowski, 1991: 30f). Somit können Propositionen auf zweierlei Art als sprachunabhängig gelten: einerseits weil sie nicht – wie eben erwähnt – an eine Repräsentation der sprachlichen Form gebunden sind, andererseits sind sie somit natürlich auch unabhängig von einem bestimmten Sprachsystem zu verstehen – es ist also egal ob eine Proposition über das Deutsche, das Englische oder das Japanische herausgebildet wird. Natürlich befinden sich Forschende hier wiederum in dem grundsätzlichen Dilemma der Linguistik, dass das Beschreibungsmedium gleich dem zu Beschreibenden ist. Das Construction-Integration-Modell umfasst, wie der Name nahe legt, zwei Prozessschritte: Im ersten wird eine Textbasis erstellt, die sich aus den aus dem Text extrahierten Propositionen zusammensetzt (Konstruktion), der Integrationsschritt beruht auf dem Constraint-SatisfactionPrinzip, wobei inhibitorische Verbindungen zwischen alternativen Propositionen angenommen Zum Streit darüber, ob Wissensrepräsentation im Gehirn über propositionale oder analoge (bildhafte) Repräsentationen realisiert ist, vgl. u.a. Pylyshyn (1973) sowie Kosslyn & Pomerantz (1992). Mentale Modelle (nach Johnson-Laird, 1983, 1995) und Situationsmodelle (nach van Dijk & Kintsch, 1983) enthalten beides. 80

- 50 -

Kapitel 2: Semantik

werden. Somit sind die Propositionen in einem Netz organisiert81, das jedoch eine streng lokalistische Repräsentationsform aufweist (für eine ausführliche Darstellung solcher propositionaler Netzwerke vgl. Anderson, 2001: 150). Jeder Knoten in diesem Netzwerk bezeichnet eine Proposition, ist also semantisch interpretierbar, was dieses Netzwerk nicht mit jenen Netzen vergleichbar macht, die wir in vorliegender Arbeit bisher kennen gelernt haben. Die Darstellungen von Propositionen sind äußerst vielfältig jedoch alle als isomorph zueinander zu verstehen. Ein kleiner Überblick über alternative Darstellungsweisen: P1a: (LIEBEN, KLAUS, HILDE) P1b: LIEBEN (KLAUS, HILDE) P1c: [Relation: LIEBEN (Agent: KLAUS; Patient: HILDE)] Es ist Geschmackssache, welcher Form man sich hier anschließt, denn das Grundschema bleibt das gleiche: Prädikat und Argumente sind in allen Fällen unabhängig von der sprachlichen Form. In empirischen Untersuchungen (Anderson & Bower, 1973; Bransford & Franks, 1971; Grabowski, 1991: 121ff; Kintsch & Keenan, 1973; Ratcliff & McKoon, 1978) konnten klare Effekte nachgewiesen werden, die auf eine solche Auffassung von Propositionen zurückzuführen sein könnten. Trotzdem gibt es einige Probleme theoretischer Natur. Insbesondere die Unterscheidung von Typen (Begriffen, Kategorien und Klassen) und Individuen (Exemplare, konkrete Objekte) scheint in dieser Art der Repräsentation problematisch. Betrachten wir die Proposition P3a: (HAT-FARBE, TELEFON, SCHWARZ) oder wahlweise P3b: (IST-SCHWARZ, TELEFON) müssen wir uns fragen ob hier ein bestimmtes Telefon schwarz ist, oder ob die Proposition ausdrückt, dass alle Telefone schwarz sind. Es liegen Lösungsansätze für dieses Problem vor, die aber hier nicht näher besprochen werden sollen. Löbner (2003) definiert die Proposition eines Satzes über die Differenzierung zwischen der Referenzsituation eines Satzes und der Proposition eines Satzes (29f). Die Referenzsituation eines Satzes kann demnach nur dann bestimmt werden (liegt nur dann vor) wenn der Satz im gegebenen Äußerungskontext wahr ist. Die Proposition eines Satzes hingegen stellt ein Konzept für alle potentiellen Referenzsituationen dar, „[d]as sind alle Situationen, auf die die mentale Beschreibung, die die Satzbedeutung ergibt, zutrifft, das heißt alle Situationen, für die der Satz war wäre“ (ebd.). Weiter schreibt Löbner (2003): „Auch funktionale Elemente wie Pronomen, Artikel oder das Tempus, eine grammatische Form, leisten einen Beitrag zur Proposition“. Leider gibt Löbner kein explizites Bei-

Die Verknüpfungen in einem solchen Netzwerk aus Propositionen geschehen durch Argumentüberlappung und Einbettung. Argumentüberlappung liegt vor wenn zwei oder mehr Propositionen dasselbe Konzept an einer Argumentstelle aufweisen. Das Prinzip der Einbettung sieht vor, dass eine Proposition in einer anderen als Argument fungieren kann. So beschreibt das Propositionenpaar P1: (LIEBEN, KLAUS, HILDE); P2: (WISSEN, UTE, P1) beispielsweise den natürlichsprachlichen Satz „Ute weiß, dass Klaus Hilde liebt“. Die Schreibweise in Kapitälchen drückt hier wiederum aus, dass es sich um von einer Wortform unabhängige mentale Repräsentationen (Konzepte) handelt. 81

- 51 -

Kapitel 2: Semantik

spiel dafür, wie ein solcher „Beitrag“ aussieht wenn er einmal in einer Proposition steckt. Diese doch recht leichtfertige und nicht näher spezifizierte Aussage Löbners zieht tiefgreifende Konsequenzen nach sich: Gegeben den Fall, dass grammatische Informationenen wie Tempus in Propositionen aufgenommen werden, ist es überaus schwierig ein Ende zu finden. Oder als Fragen formuliert: Welche grammatischen Informationen finden Eingang in die Proposition, welche nicht? Wie sieht grammatische Information in Propositionen aus? Hebt nicht die Aufnahme von grammatischen Informationen in Propositionen ein Stück weit die Trennung von Syntax und Semantik auf und macht somit die Proposition abhängig von der Wortform (und evtl. auch von der verwendeten Sprache)? Welche Folgen ein solches Zugeständnis an die Aufnahme grammatischer Information in Propositionen nach sich ziehen kann werden wir im Abschnitt über Rohdes CSCP-Modell sehen. Die Auffassung von Propositionen, die in dieser Arbeit vertreten werden soll, gestaltet sich also folgendermaßen: Im Sinne der zahlreichen Arbeiten von Kintsch (mit anderen) wird eine Proposition als eine sprachunabhängige Bedeutungsrepräsentation verstanden, die sich aus einem Prädikat und (gegebenenfalls mehr als) einem Argument zusammensetzt. Sprachunabhängig bedeutet auch, dass grammatische Informationen nicht in diesen Propositionen repräsentiert sind, und dass Propositionen als sprachuniversell gelten können. Propositionen können untereinander durch Einbettung und Argumentüberlappung verbunden sein. Das heißt, sie sind in einer Art Netz miteinander verbunden, das jedoch nicht die Charakteristika eines künstlichen neuronalen Netzes aufweisen muss, wie wir sie bisher kennen gelernt haben. Propositionen sind theoretische Konstrukte, die einigen empirischen Erkenntnissen gut entsprechen82. Annahmen über die Konstruktion von Propositionen, also der semantischen Interpretation der Oberflächenstruktur eines Satzes oder Textes, werden zu diesem Zeitpunkt nicht gemacht83, auch in den zahlreichen Arbeiten Kintschs (mit anderen) wird keine Modellierung bzw. Implementierung dieser Vorgänge angestrebt.

2.3.2. Satzsemantik: Mögliche-Welten-Semantik Ein Ansatz, der auf den Mathematiker und Logiker Richard Montague (vgl. bspw. Montague, 1970, zitiert nach Löbner, 2003) zurückzuführen ist, ist die Mögliche-Welten-Semantik84, die hier in ihren Grundzügen besprochen werden soll. Es soll auch in gebotener Kürze dargelegt werden, in-

82 Unter anderem konnten auch Ergebnisse gefunden werden, die die Idee der „Makropropositionen“ unterstützen (vgl. Kintsch & van Dijk, 1978). Demnach können durch Generalisierung, Löschung (von für die Interpretation des übrigen Textes irrelevanten Propositionen) sowie Integration (Ersetzung mehrerer Propositionen durch eine andere, die ebenfalls direkt aus dem Text extrahiert werden kann) und Konstruktion (Ersetzung mehrerer Propositionen durch eine neue) Makropropositionen herausgebildet werden. 83 Kintsch & Greeno (1985) nehmen an, dass eben diese Umsetzung der Textoberfläche in geeignete Propositionen die Hauptschwierigkeit beim Lösen von Textaufgaben im Mathematikunterricht sei. In diesem Bereich ist auch die bis dato einzige Implementierung des Kintsch’schen propositionalen Ansatzes erfolgt. 84 Es sind auch Ausdrücke wie „wahrheitskonditionale“, „logische“, „formale“ oder „modelltheoretische Semantik“ im Umlauf. Eine feine Distinktion dieser Termini soll hier nicht vorgenommen werden.

- 52 -

Kapitel 2: Semantik

wiefern dieser Ansatz für die weitere Arbeit einerseits wichtig, andererseits jedoch auch unzulänglich ist, bzw. in welcher Hinsicht hier eine andere Richtung verfolgt werden muss In diesem Semantikansatz wird versucht, Konzepte der formalen Logik für die Semantikbeschreibung natürlicher Sprachen fruchtbar zu machen. Wenn Ludwig Wittgenstein den einfachen aber deshalb nicht minder aussagekräftigen Satz „Einen Satz verstehen, heißt wissen, was der Fall ist, wenn er wahr ist.“ (Wittgenstein, 1921: Absatz 4.024) formuliert, heißt das, dass man nicht zu wissen braucht, ob ein Satz wahr ist um ihn zu verstehen. Es reicht zu wissen, welche Bedingungen erfüllt sein müssen, wie die Welt, auf die sie sich beziehen, beschaffen sein müsste, um den semantischen Inhalt eines Satzes zu verstehen. Man kann also Bedingungen aufstellen, die erfüllt sein müssen um einen Satz mit dem Wahrheitswert „wahr“ zu versehen. Diese Wahrheitsbedingungen machen gemäß der Theorie der wahrheitskonditionalen Semantik den semantischen Inhalt eines Satzes aus. Jeder Satz beschreibt also Kraft seiner Semantik eine Welt, in der er wahr ist. Diese Welt kann durch die Wahrheitsbedingungen des Satzes beschrieben werden. Aus dieser Auffassung heraus kommt der Terminus „Mögliche-Welten-Semantik“. „Eine mögliche Welt ist die Summe aller Festlegungen, oder Bedingungen von denen der Wahrheitswert mindestens eines Satzes abhängen kann. […] Mögliche Welten sind […] ein theoretisches Konstrukt für die Gesamtheit aller Faktoren, von denen der Wahrheitswert von Sätzen abhängen kann.“ (Löbner, 2003, 352f). Die formal-logische Notationsform dieser Welten und Wahrheitsbedingungen soll hier nicht referiert werden, da es erstens zu viel Raum einnehmen, andererseits vom eigentlichen Thema der Arbeit weg führen würde. Betrachten wir stattdessen einige ausgewählte Bedeutungsrelationen zwischen Sätzen, sehen wir, dass sie sich auch durch dieses Modell formulieren lassen. Wenn zwei Sätze die gleichen Wahrheitsbedingungen aufweisen, es also keine mögliche Welt gibt, in der der eine Satz wahr, der andere aber falsch ist, sind diese Sätze synonym – „Intensionsgleichheit ist logische Äquivalenz“ (Löbner, 2003: 362). Kontradiktorisch oder komplementär sind zwei Sätze wenn bestimmte Bedingungen, die den einen Satz wahr machen, in einer Welt, auf die sich beide Sätze beziehen, den anderen gleichzeitig falsch machen. Gleichzeitig muss gelten, dass Bedingungen, die den einen Satz falsch machen, den anderen gleichzeitig wahr machen. Die Bedeutung von Wörtern kann im Rahmen dieser Theorie dadurch erfasst werden, indem analysiert wird, inwiefern ein Wort die Wahrheitsbedingungen des Satzes verändert. Was die Mögliche-Welten-Semantik also leistet, kann daran bemessen werden, welche Begriffe für einen Satz in diesem Rahmen definierbar sind: Es kann die Bedeutung eines Ausdrucks, seine Intension, angegeben werden, außerdem der jeweilige Äußerungskontext (im Sinne Löbners, 2003), desweiteren kann der (gegebenenfalls potentielle) Referent eines Ausdrucks (die Extension) im Beschreibungsmodus der Wahrheitsbedingungen angegeben werden. Das Verfahren der Bedeutungsbeschreibung, besser: der Beschreibung der Bedeutungskomposition, über eine formale Logiksprache bietet also eine Bedeutungsrepräsentation, die hochtransparent ist. „Damit ist - 53 -

Kapitel 2: Semantik

dann eine präzise Erfassung und Überprüfung der logischen Eigenschaften von und Beziehungen zwischen natürlichsprachlichen Sätzen möglich“ (Löbner, 2003: 361). Selbstverständlich bringt auch eine solch strikt formal-logische Auffassung von Bedeutung Probleme mit sich. So können beispielsweise auch in diesem Rahmen Konnotationen nur schwer gefasst werden. Die Wahrheitsbedingungen für „Er ist gestorben.“, „Er ist verreckt.“, „Er ist draufgegangen.“, „Er hat ins Gras gebissen.“ und „Er ist von uns gegangen.“ sind beispielsweise alle dieselben, die Sätze wären also laut dieser Semantikkonzeption synonym. Kann man das aber von der Bedeutung in ihrem ganzen Umfang behaupten? Oder wie ist es vorstellbar, prototypikalische Effekte in einer solchen Semantik zu realisieren? Alle nicht-deskriptiven oder sozialen Bedeutungsaspekte lassen sich auch in einem solchen Ansatz nicht fassen. Das größte Manko, das der Mögliche-Welten-Semantik jedoch von vielen Seiten vorgeworfen wird ist jenes, dass alle logisch wahren Sätze (z.B. Bedeutungspostulate wie „Ein Bagel ist ein Brötchen mit einem Loch in der Mitte“) ein und dieselbe Bedeutung erhalten: die Funktion, die zu jeder möglichen Welt den Wert „wahr“ ergibt. Dass aber Sätze mit identischen Wahrheitsbedingungen nicht unbedingt bedeutungsgleich sein müssen, ist schon intuitiv leicht erfassbar. Dieses Problem tritt jedoch nicht nur bei logisch wahren Sätzen auf, sondern auch kontingente Sätzen mit offensichtlich unterschiedlichen Bedeutungen können identische Wahrheitsbedingungen haben, wodurch diese für eine Mögliche-Welten-Semantik ebenfalls ununterscheidbar werden. Die zyklische Beziehung der Wochentage ist ein gutes Beispiel für diesen Umstand (Löbner, 2003: 364): „Gestern war Montag.“ und „Morgen ist Mittwoch.“ sind im Sinne der Mögliche-Welten-Semantik semantisch gleichbedeutend, intuitiv und alltagssprachlich würde man das wohl nicht behaupten85. Die Mögliche-Welten-Semantik ist Ausgangspunkt für einige logikbasierte Semantikkonzeptionen, zu denen unter anderem auch die Diskursrepräsentationstheorie (Kamp, 1981; Kamp & Reyle, 1993) gehört.

2.3.3. Minimal Recursion Semantics (MRS) Ausführlicher soll nun der Bereich der Minimal Recursion Semantics (MRS) beleuchtet werden. Diese Konzeption greift ebenfalls auf logikbasierte Semantikkonzeptionen (und teilweise auch auf die eben zitierte Diskursrepräsentationstheorie) zurück, bietet aber noch einige zusätzliche Möglichkeiten und Eigenschaften die insbesondere für eine Implementierung überaus wünschenswert sind. Minimal Recursion Semantics gilt als ein Ansatz, der sowohl das semantische Parsing als auch die Generierung von semantischen Strukturen unterstützen soll. Explizit gilt MRS als ein anwendungsbezogener Semantikansatz: ins Auge werden „multiple applications, including natural languaEin weiteres – zugegebenermaßen recht schwaches – Argument gegen eine auf formal-logischen Regeln basierende Semantik (zumindest gegen deren psychische Realität) wäre, dass Menschen ausgesprochen schlechte Logiker sind. Für Syllogismen haben dies beispielsweise Rips & Marcus (Rips & Marcus, 1977) gezeigt. Auch die klassische Wason-Aufgabe (vgl. bspw. Wason & Johnson-Laird, 1972, zitiert nach Anderson, 2001) schlägt in diese Kerbe. 85

- 54 -

Kapitel 2: Semantik

ge interfaces of various sorts and machine translation“ (Copestake et al., 2001: 2) gefasst. Die Hauptqualitätskriterien für einen komputationalen Semantikansatz, als der MRS auch zu verstehen ist, können wie folgt zusammengefasst werden (vgl. ebd.): (1) Expressive Adäquatheit, das heißt die linguistische Bedeutung muss korrekt ausgedrückt oder wiedergegeben werden können; (2) Grammatikalische Kompatibilität, das bedeutet, dass die semantischen Repräsentationen auf gewisse Weise mit grammatikalischen Informationen verbunden sein muss (hauptsächlich aus dem Bereich der Syntax); (3) Berechenbarkeit: Es muss auf effektive Weise möglich sein, den semantischen Gehalt zu berechnen, Äquivalenz schnell zu überprüfen und Beziehungen zwischen semantischen Repräsentationen einfach und direkt auszudrücken. Dieser Punkt bezieht sich ausdrücklich auf die Implementierungsebene. (4) Unterspezifiziertheit, das heißt, dass semantische Repräsentationen Unterspezifikation zulassen müssen, dass aber auch eine Möglichkeit existiert, diese partiellen semantischen Repräsentationen aufzulösen. Oft sind in diesem Viereck bestimmte Opfer in eine Richtung dieser vier Kriterien zu bringen. So muss man zu Gunsten der Berechenbarkeit beispielsweise gewisse Eingeständnisse bei der expressiven Adäquatheit hinnehmen – insbesondere bei der Generierung natürlicher Sprache und automatisierter Übersetzung ist dies oft der Fall gewesen (vgl. Copestake et al., 2001: 2). In Bezug auf Skopusinterpretation (eine Aufgabe, die außerordentlich schwer (zu berechnen) sein kann) versucht MRS zu realisieren, dass der Quantorenskopus ignoriert werden kann wenn er nicht benötigt wird und gegebenenfalls auch (re)konstruiert werden kann. Minimal Recursion Semantics versteht sich explizit nicht als eine semantische Theorie, „but can most simply thought of as a meta-level language for describing semantic structures in some underlying object language” (ebd., 3). Die kleinsten Bausteine der MRS sind die sogenannten „elementaren Prädikationen” (elementary predications, EP), einzelne Relationen mit den entsprechenden Argumenten, z.B. beyond(x,y) für „X ist hinter Y.“ – im Allgemeinen korrespondiert eine EP mit einem Lexem. EPs sind niemals untereinander eingebettet, was MRS den Status einer „flachen“ Semantikrepräsentation einbringt. Flache Formen der semantischen Repräsentation bieten den Vorteil, dass sie keine (auch keine impliziten) Informationen über die syntaktische Struktur von Sätzen mit einschließen, was wiederum für Übersetzungen gewisse Vorteile bietet (vgl. hierzu Copestake et al., 2001: 4). Doch eine allzu strenge, flache Repräsentationsart bringt auch Probleme mit sich. Dies illustriert die flache Umschreibung der möglichen NP „Weißes, müdes Pferd“ in die überaus einfache Form weiß(x), müde(x), Pferd(x)86. Diese Verknüpfung ist zwar überaus einfach, bringt aber Probleme mit sich, die auf der Hand liegen. Insbesondere die Weglassung von Skopus-Repräsentationen ist semantisch inadäquat. So wür-

Einer der Vorteile dieser Repräsentationsart ist auch, dass es völlig unerheblich ist, welche EP an welcher Stelle genannt wird. Somit ist die syntaktische Abfolge der Elemente für die semantische Repräsentation egal.

86

- 55 -

Kapitel 2: Semantik

de die semantische Repräsentation des Satzes „Jedes weiße Pferd ist müde.“ folgendermaßen aussehen: jedes(x), Pferd(x), müde(x), weiß(x) Diese extrem flache Repräsentation könnte aber auch in „Jedes müde Pferd ist weiß.“ zurückübersetzt werden, was eindeutig falsch ist. Es muss also möglich sein, aus der semantischen Repräsentation unzweideutig87 den korrekten, natürlichsprachlichen Satz herauszufinden. Sollte dies nicht möglich sein, weist die Repräsentationsform klare Unzulänglichkeiten auf: „Representations which completely omit scope lose too much information for some applications […]. They are also clearly inadequate from the perspective of theoretical linguists“ (Copestake et al., 2001: 6). Gewünscht ist also ein Ansatz, der ausreichende Skopus-Informationen bereitstellt, damit alle und nur die logisch möglichen Lesarten des Satzes repräsentiert werden können. Dabei ist es – wie schon erwähnt – außerdem von Interesse, dass auf Skopus-Informationen zugegriffen werden kann wenn diese für die Interpretation des Satzes relevant sind andererseits jedoch auch ignoriert werden können wenn sie irrelevant sind. Dies (und anderes) kann über die Unterspezifizierung von Quantorenskopen erreicht werden. Es soll hier nicht im Detail besprochen werden, wie dies in MRS realisiert ist, doch eine Strategie der Verflachung herkömmlicher logischer Repräsentationsarten ist die Einführung von sogenannten „Handles“88, die festlegen an welchem Knoten in einer Baumrepräsentation (vgl. Copestake et al., 2001: 7ff) eine bestimmte EP hängt. Wird ein Handle an mehrere EPs vergeben, bedeutet dies, dass sie durch eine logische Konjunktion verbunden sind, Copestake et al. (2001) sprechen dann von einem EP-Beutel („bag“)89. Der Satz „Jedes große weiße Pferd schläft.“ würde nun folgendermaßen repräsentiert90, wobei ein Handle immer mit dem Buchstaben h und einer Zahl bezeichnet wird: h0: jedes(x, h1, h2), h1: groß(x), h1: weiß(x), h1: pferd(x), h2: schlafen(x)

87 Zumindest der hier genannte Beispielsatz ist natürlichsprachlich nicht ambig und sollte dies deshalb auch in der MRS-Repräsentation nicht sein. Natürlich sollte eine Repräsentationsart auch natürlichsprachliche Ambiguitäten fassen können, dazu jedoch später mehr. 88 Mir ist keine Übersetzung für diesen Begriff bekannt. Am ehesten könnte „handle“ mit „Handhabe“ übersetzt werden, „since they can be thought of as enabling us to grab a hold of an EP“ (Copestake et al., 2001: 9). Ich habe mich in vorliegender Arbeit dafür entschieden, den englischen Begriff beizubehalten und im Folgenden groß zu schreiben. 89 „Our use of groups of EPs is reminiscent of the use of sets of conditions in Discourse Representation Theory“ (Copestake et al., 2001: 8). 90 Zur besseren Illustrierung der durch die Handles verbundenen EPs sind diese durch Verbindungslinien visualisiert.

- 56 -

Kapitel 2: Semantik

Wir sehen also, dass die EP mit dem Handle bzw. Label91 h0 in den Argumentpositionen des Quantors „jedes“ Handles verlangt (nämlich h1 und h2). h1 ist ein Beutel von EPs weil drei EPs denselben Handle tragen. h2 bezeichnet lediglich eine EP. So wird gewährleistet, dass der Satz nur in der vorgesehenen Lesart verstanden werden kann. Interpretationen wie „Jedes große, schlafende Pferd ist weiß.“ sind nicht mehr möglich. Doch eine Repräsentationsform mit Handles birgt noch weitere Vorteile. Hier kommen wir auf die Möglichkeit der Unterspezifizierung zurück. Auf diese Weise können mehrere Skopen durch eine Repräsentation ausgedrückt werden indem die verbindenden Handles in Argumentpositionen (so wie in obigem Beispiel h1 und h2 hinter „jedes“) unterspezifiziert sind. Die unterspezifizierten Handle-Positionen können nun (unter Beachtung gewisser „Linking Constraints“) durch andere Handles ausgefüllt werden. Eine Satz-Oberflächenform kann also mehrere Lesarten beinhalten, diese können durch eine MRS-Struktur ausgedrückt werden, die ihrerseits wiederum mehrere Übersetzungsmöglichkeiten in eine formal-logische Repräsentationsart haben. Ein Beispiel dieser Repräsentationsart soll dies illustrieren (vgl. Mayberry, 2003: 36): Wollen wir den Satz „Jeder Mann liebt eine Frau.“ in einer MRS-Struktur darstellen, sieht dies folgendermaßen aus (zur besseren Übersichtlichkeit sind die verschiedenen EPs hier in einer Liste dargestellt): •

h1: jeder(x, h4, h6)



h2: eine(y, h5, h7)



h3: lieben(x,y)



h4: mann(x)



h5: frau(y)

Wir sehen hier, dass sowohl h6 als auch h7 nicht existieren, jedoch in h1 und h2 in Argumentpositionen verlangt werden. Dies ist die besagte Unterspezifizierung, wobei h6 und h7 auch als hA und hB notiert werden können um dies deutlicher zu machen (vgl. Copestake et al., 2001). Die erste (wohl plausiblere) Lesart des Satzes „Jeder Mann liebt eine Frau.“ ist jene, dass es für jedes einzelne Exemplar der Klasse „Mann“ eine Vertreterin der Klasse „Frau“ gibt, die dieser liebt. Bei dieser Lesart fällt das „eine“ in den Skopus von „jeder“. h6 würde hier durch h2 ersetzt. Für die zweite Lesart (nämlich die, dass es genau eine bestimmte Frau gibt, die von allen Männern geliebt wird) würde h1 die Stelle von h7 einnehmen. Somit würde „eine“ einen Skopus aufspannen, in den auch „jeder“ fällt. Sowohl vom Standpunkt der Berechenbarkeit als auch von psycholinguistischen Überlegungen her birgt MRS den Vorteil, dass während des inkrementellen Aufbaus einer Semantikrepräsentation Ambiguitäten so lange unaufgelöst bleiben können bis desambiguierende Informationen hinzugeCopestake et al. (2001) unterscheiden zwischen Handles und Labels, wobei Handles in den Argumentpositionen einer Skopus-EP stehen und Labels die Bezeichnungen einer EP sind, m.E. trägt diese Unterscheidung nicht signifikant zum Verständnis der MRS bei, weshalb ich sie nicht vornehme. 91

- 57 -

Kapitel 2: Semantik

fügt werden. Auch wenn ein Satz nie vollständig desambiguiert wird, ist dies durch eine Repräsentationsstruktur darstellbar. Anhand des obigen Beispiels wurde kurz gezeigt wie die verschiedenen möglichen Skopen von „jeder“ und „eine“, sozusagen die verschiedenen Bereiche des Universums auf die die Wörter sich beziehen, über eine einzelne Struktur repräsentiert werden können. Ebenso können andere Arten von Ambiguitäten realisiert werden („Der Junge schlägt das Mädchen mit der Puppe.“). Der MRS-Ansatz scheint also äußerst gut für das automatisierte Parsen von semantischen Strukturen geeignet zu sein – dafür wurde er schließlich auch entwickelt (vgl. bspw. Copestake et al., 1995). Andererseits zeigt die soeben erfolgte Darstellung ebenfalls, dass auch MRS nicht ohne vorhergehende Annahmen über die Bedeutung auf der Wortebene auskommt (was in der einschlägigen Literatur jedoch nicht thematisiert wird) und zudem scheint es nur sehr schwer möglich zu sein, ohne symbolische Repräsentationsarten von semantischen Inhalten auszukommen. Auf den einführenden Abschnitt (2.3.1) über Satzsemantik und Propositionen Bezug nehmend muss jedoch positiv konstatiert werden, dass MRS-Strukturen zwar inkrementell von der Syntax her aufgebaut werden (aus welcher Quelle sollten die zu extrahierenden Informationen auch sonst stammen) jedoch keinerlei syntaktischen Informationen enthalten. Außerdem ist kein Rückschluss mehr auf die syntaktische Struktur möglich92 (das heißt die Abfolge der EPs ist unerheblich). Auf die Konzeption der Minimal Recursion Semantics wird auch bei der folgenden Besprechung des INSOMNet-Modells (Mayberry, 2003; Mayberry & Miikkulainen, 2003) zurückgegriffen werden.

2.4. Zusammenfassung Die Merkmals- oder Komponentialsemantik, deren Analysemethoden auf die Phonemanalyse zurückgeführt werden können, geht davon aus, dass die Bedeutung von Lexemen aus mehreren Bestandteilen zusammengesetzt werden kann. Auch prominente kognitionswissenschaftliche Theorien wie jene der Semantischen Netze von Quillian (Quillian, 1966) gehen von der Existenz semantischer Merkmale aus. Offenbar kommt einigen Merkmalen ein Sonderstatus zu, die sogenannten „Marker“ vereinigen einige positive Eigenschaften, die Seme mitbringen können, auf sich. Zusammenfassend kann formuliert werden, dass jeder Marker und jeder Distinguisher ein semantisches Merkmal (Sem) ist, aber nicht jedes Sem ein Marker oder Distinguisher. Es wurde mit Rückgriff auf die Besprechung der Elman-Netze gezeigt, wie das Prinzip der sprachlichen Motivierung unter konnektionistischem Blickwinkel zu verstehen sein kann. Die Grundaussage der Prototypentheorie ist einfach: Der typischste Vertreter einer Kategorie ist der Prototyp, dieser bildet das Zentrum der Kategorie. Ein konnektionistischer Ansatz (McClelland

Es sind syntaktisch-semantische Charakteristika denkbar, die dadurch nicht erfassbar sind. Wird beispielsweise ein Wort bewusst am Satzanfang genannt um es zu betonen, kann dies nicht durch eine MRS-Struktur erfasst werden. 92

- 58 -

Kapitel 2: Semantik

& Rumelhart, 1985), der diese Eigenschaften und sich daraus ergebene Implikationen modelliert, wurde vorgestellt und im Ansatz evaluiert. Im Abschnitt über die Satzsemantik wurden zunächst grundlegende Prinzipien (Kompositionalität, Unterdeterminiertheit) geklärt bevor in das Prinzip der Propositionen als grundlegende Bestandteile von Wissensstrukturen eingeführt wurde. Dies ist einerseits angesichts der vielfältigen und unterschiedlichen Verwendung von propositionalen Repräsentationsformen notwendig, andererseits auch im Hinblick auf die folgende Besprechung konnektionistischer Ansätze zur Semantikverarbeitung. Es konnte gezeigt werden, dass Propositionen im ursprünglichen Sinne auf zweierlei Weise als sprachunabhängig (prä-verbal) gelten: Einerseits sind sie nicht an eine Repräsentation der sprachlichen Form, an syntaktische Merkmale, gebunden, andererseits auch nicht an eine einzelne Sprache. Das Construction-Integration-Modell (u.a. in Kintsch, 1998) nimmt an, dass Propositionen in einem Constraint-Satisfaction-Netz organisiert sind. Eine solche und ergänzende Annahme/n kann/können als Erklärung vielfältiger empirisch-psychologischer Phänomene gelten, einen exzellenten Überblick hierüber bietet ebenfalls Kintsch (1998). Als erster Semantikansatz, der sich tatsächlich auf die Satzebene bezieht, wurde kurz in die Mögliche-Welten-Semantik eingeführt. Es wurde gezeigt, inwiefern man sich formal-logische Beschreibungsprinzipien für die Bedeutungsbeschreibung von Sätzen zu Nutze machen kann und auch welche Probleme damit verbunden sein können. Schließlich zeigte eine Beschreibung der Minimal Recursion Semantics, inwiefern der logisch-formale Ansatz weiterentwickelt werden kann um semantische Verarbeitung berechenbar zu machen. Dieser aus der Computerlinguistik stammende Ansatz realisiert über sogenannte Handles Ambiguitätsphänomene und stellt mehrere Interpretationsmöglichkeiten eines Satzes durch eine gemeinsame MRS-Struktur dar. Auch dies wird im Hinblick auf das nächste Kapitel von Interesse sein. Sicherlich war die vorliegende Besprechung lediglich dazu geeignet, grobe Schneisen in den Dschungel der Semantikforschung zu schlagen, es ist aber ansatzweise klar geworden, welche überaus herausfordernden Fragen noch zu klären sind und auf was bei der Modellierung von semantischer Verarbeitung im konnektionistischen Paradigma zu achten ist.

- 59 -

Kapitel 3: Vorstellung und Evaluation erfolgreicher Ansätze

3. Vorstellung und Evaluation erfolgreicher Ansätze Dieses dritte Kapitel führt erstmals viele der bereits angesprochenen Aspekte zusammen und wird zwei ambitionierte Ansätze zur semantischen Verarbeitung in künstlichen neuronalen Netzen vorstellen und evaluieren. Erfolgreich ist in diesem Zusammenhang so zu verstehen, dass es mit beiden Architekturen gelungen ist, semantische Inhalte mit einem konnektionistischen System zu verarbeiten93 und dabei vielfältige Phänomene zu simulieren, die bei der semantischen Verarbeitung in vergleichbarer Form auch beim Menschen auftreten, dies soll jedoch im jeweiligen Abschnitt genauer besprochen werden.

3.1. Incremental Nonmonotonic Self-Organization of Meaning Network (INSOMNet) INSOMNet wurde unter der Maßgabe zweier genereller Ziele entwickelt: Einerseits sollte das Modell dazu in der Lage sein, einen Satz in eine diskrete konzeptuelle Struktur zu übersetzen (Kompetenzaspekt), andererseits sollten dabei bestimmte kognitive Eigenschaften (Fehlermuster, Schwierigkeiten bei bestimmten Konstruktionen usw.) nicht verloren gehen (Performanzaspekt). Ein weiteres Ziel formuliert Mayberry folgendermaßen: „INSOMNet must scale up beyond toy grammars to the large corpora that have traditionally been the province of statistical and symbolic approaches“ (Mayberry, 2003: 41). Die Bezeichnung von nicht-natürlichen Korpora als „Spielzeuggrammatiken” ist als ein klarer Seitenhieb auf einige zuvor entstandene Modelle zu verstehen. Natürliche Korpora waren, wie oben schon erwähnt, bis zu diesem Zeitpunkt hauptsächlich die Domäne symbolisch orientierter Ansätze und solcher, die statistische Auswertungen annotierter Korpora vornehmen (bspw. Charniak, 1997, 2000). Recht hat Mayberry sicherlich mit der Aussage, dass „[t]he a priori specification of a grammar places hard constraints on what can be modeled“ (Mayberry, 2003: 41). Dass INSOMNet also tatsächlich natürliche Korpora semantisch verarbeiten kann, ist in der Tat eine erstaunliche Errungenschaft. Wie dies geschieht und vor allem welche Architektur dahinter steckt, wird im folgenden Abschnitt erläutert.

Gesetzt den Fall man teilt gewisse Vorannahmen der Forschenden, beispielsweise zur Repräsentation der semantischen Inhalte. 93

- 60 -

Kapitel 3: Vorstellung und Evaluation erfolgreicher Ansätze

3.1.1. Die INSOMNet-Architektur Mayberrys Architektur baut auf drei Komponenten94 auf, die im Folgenden detaillierter besprochen werden sollen: (1) einem System zur inkrementellen Satzverarbeitung, dem „Sequence ProSequence Processor SRN & SARDNet

Frame Selector Frame Node Modulator Map & Frame Node Indicator Map

Semantic Frame Encoder/Decoder Frame Map & Frame Node Decoder

Abbildung 15: Eine Übersicht über die Architektur von INSOMNet (vgl. Mayberry, 2003: 41ff).

cessor“, (2) einem System, das den Großteil der semantischen Verarbeitung übernimmt, dem „Semantic Frame Encoder/Decoder“ und (3) einer Art Hilfskomponente, deren Funktionsweise später genauer erläutert werden soll, dem „Frame Selector“. Abbildung 15 zeigt eine Übersicht dieser Architektur. Die einzelnen Komponenten sind lediglich benannt und die Teile aus denen sie sich zusammensetzen sind ebenfalls vermerkt. Der „Sequence Processor“

Der Sequence Processor besteht (wie aus Abbildung 15 ersichtlich) aus einem Simple Recurrent Network nach Elman und einem SARDNet (vgl. hierzu Mayberry & Miikkulainen, 1999). Einfach ausgedrückt erfüllt das SRN hier die Aufgabe, für die es entwickelt wurde, nämlich die sequentielle Verarbeitung des Inputs, der Sätze. Das SARDNet ist so etwas wie ein TuningElement für das SRN: The SardNet Map is an enhancement to the basic Simple Recurrent Network that forms the core processing component of the Sequence Processor; its purpose is to help the network retain longdistance dependencies by keeping token identities of input words explicit whenever possible (Mayberry, 2003: 47).

Auf die architektonischen Eigenschaften dieser SARDNet-Komponente soll hier nicht näher eingegangen werden. Nur soviel: Es kann als eine Art selbstorganisierende Karte (vgl. Kohonen, 1990, 1995; Mayberry, 2003: 25f) verstanden werden, die insofern verändert wurde, dass sie Sequenzen verarbeiten und Sequenzinformation explizit speichern kann. Ähnliche Sequenzen resultieren auch in ähnlichen Mustern auf dieser Karte. Diese Komponente wurde deshalb in die Ar-

Die Verwendung des Terminus Modul wäre wohl etwas zu weit gegriffen. Mayberry bezeichnet das Architekturprinzip von INSOMNet als „loosely modular“ (Mayberry, 2003: 64). 94

- 61 -

Kapitel 3: Vorstellung und Evaluation erfolgreicher Ansätze

chitektur aufgenommen weil sie die Schwierigkeiten der SRNs bei weit reichenden, syntaktischen Abhängigkeiten auszugleichen vermag. Das SARDNet ist in das SRN eingebaut, das heißt es wird als zusätzlicher Input

Sequence Processor

für den Hidden-Layer

SARDNet

des Input

SRNs

benutzt

(zusätzlich zum Con-

Context

text-Layer) und bekommt seinen Input Hidden

ebenfalls vom Input-

zu Frame Map & Frame Node Modulator

Layer des SRNs. Ab-

Abbildung 16: Der Sequence-Prozessor des INSOMNet-Modells. Der Input Layer gibt Aktivation an das SARDNet und den Hidden Layer weiter. Der Context Layer enthält die Aktivation des Hidden Layers zum letzten Zeitschritt. Der Hidden Layer gibt seinen Output an die anderen Komponenten von INSOMNet weiter (vgl. Mayberry, 2003: 47f)

bildung 16 zeigt diese Konstellation.

Semantic Frame Encoder/Decoder

„The Frame Map is the primary innovation of INSOMNet“ (Mayberry, 2003: 48), die eine dynamische Instantiierung der semantischen Interpretation einer Input-Sequenz ermöglicht. Im hier vorgestellten Modell besteht diese Frame-Karte aus 12 mal 12 Frame-Knoten. Die Frame-Karte kann als ein weiterer Hidden-Layer verstanden werden, der rasterartig organisiert ist. Ein Resultat der sequentiellen Verarbeitung des Inputs ist die Aktivation einiger dieser Frame-Knoten. Diese Aktivationsmuster kodieren die semantische Interpretation des aktuellen Satzes, die eine Struktur nach den Prinzipien der Minimal Recursion Semantics darstellt. Welcher Frame-Knoten hier welchen MRS-Konstituenten repräsentiert, ist nicht im Design des Netzwerks festgelegt, „rather, INSOMNet must learn to associate nodes with frames having similar semantic structure“ (Mayberry, 2003: 48f). Die Frame-Karte ist ebenfalls eine selbstorganisierende Karte, in der ähnliche Frames95 (die Konstituenten der MRS-Struktur) ähnliche Bereiche auf der Karte einnehmen. So liegen beispielsweise Determinierer in ähnlichen Regionen, die verschiedenen Verbtypen liegen beieinander und ebenso die verschiedenen Arten von Nomen. Dabei ist zu beachten, dass auch wenn jeder Frame-Knoten auf bestimmte Typen von Frames zugeschnitten wird – wohlbemerkt vom Netzwerk selbst –, dies nicht heißt, dass ein bestimmter Frame-Knoten nur einen bestimmten Frame repräsentiert. Viel eher passen sich die Frame-Knoten durch unterschiedliche Aktivationsmuster den Anforderungen des aktuellen Input-Satzes an.

95

Genauer: Kompressionen von Frames.

- 62 -

Kapitel 3: Vorstellung und Evaluation erfolgreicher Ansätze

Der Frame-Knoten-Dekoder übernimmt die Aufgabe, die jeweiligen Frame-Knoten in der Frame-Karte in eine interpretierbare MRS-Struktur zurück zu übersetzen. Abbildung 17 macht die Funktionsweise dieser INSOMNet-Komponente klarer. Die zehn Elemente, die im unteren Teil der Abbildung dargestellt sind, stellen einen dekodierten MRS-Frame dar. Um einen besseren Einblick in die Funktionsweise von INSOMNet zu erhalten, soll hier kurz die von MRS abgeleivom Hidden Layer des Sequence Processors Frame Node Encoder/Decoder Frame-Karte

1-zu-1-Verbindungen mit dem Frame Selector

Frame-Knoten

Dekomprimierter MRS-Frame (Frame Node Decoder) Abbildung 17: Der Frame Node Encoder/Decoder von INSOMNet (vgl. Mayberry, 2003: 48f).

tete semantische Repräsentationsweise vorgestellt werden, auch wenn dies vom Thema Architektur kurz wegführen sollte. Die Frames sind immer wie folgt kodiert (in Abbildung 17 von links nach rechts): (1) bezeichnet den Handle. Dieser kann in anderen Frames an den Argumentstellen verlangt werden, was eine Abhängigkeit zweier Frames bedeutet. Uns begegnete dieses Beispiel bereits im Abschnitt über MRS; (2) enthält die Wortform, hier muss nicht zwingend etwas enthalten sein, es gibt bestimmte dekodierbare, semantische Inhalte, die keine korrespondierende Wortform im Input-Satz haben. Auch dies wurde in früheren Abschnitten angesprochen; (3) bezeichnet die semantische Relation, hier wird ein bestimmtes Kodierungssystem für die Bezeichnung der semantischen Beziehungen des jeweiligen Wortes verwendet, diese hängt eng zusammen mit dem (4) Subkategorisierungstyp, der anzeigt, welche Argumentrollen in einer jeweiligen semantischen Relation ausgefüllt sein müssen. (5) – (10) ist eine Liste von Argumenten, in der nicht jeder Slot ausgefüllt sein muss (dies hängt vom Subkategorisierungstyp ab). Ein dekodierter MRS-Frame für ein Wort könnte folgendermaßen aussehen (vgl. Mayberry, 2003: 42): | h1 hit _arg13_rel A0A1A3DMEV _ x0 x1 _ e0 _ |

- 63 -

Kapitel 3: Vorstellung und Evaluation erfolgreicher Ansätze

Dieser bezeichnet das Wort „hit” im Satz „the boy hit the girl with the doll“. Der Handle hat die Bezeichnung h1, eine Wortform ist auch angebbar, die semantische Relation zeigt an, dass „hit“ ein transitives Verb ist. Der Subkategorisierungstyp zeigt, dass drei Argumente verlangt werden, hier ist A1 der Agent und A3 der Patient, „EV“ ist der Verweis darauf, dass es sich um ein Ereignis handelt, „DM“ bezeichnet die Dimension. DM ist nicht vorhanden, was durch einen Unterstrich (das hier verwendete Nullsymbol) an der entsprechenden Argumentstelle (Nr. 4) gekennzeichnet ist. x0 referiert auf „boy“, x1 auf „girl“ (dies geht aus der gesamten MRS-Struktur für diesen Satz hervor, siehe Mayberry, 2003: 43). Wir sehen hier auch, dass im Frame von „hit“ noch nicht die strukturelle Ambiguität von „with the doll“ repräsentiert wird. Dies wird über zwei Frames für „with“ realisiert, von denen einer den Handle h1 zugewiesen bekommt (womit dieser an den eben vorgestellten Frame gebunden wird, die Puppe wäre hier das Schlaginstrument) und der andere an den Frame für das Mädchen gebunden wird. Wie der Semantic Frame Encoder/Decoder mit dem Sequence Processor zusammenarbeitet wird in einem der folgenden Abschnitte erläutert. Zunächst, um die Besprechung der Architektur abzuschließen, wenden wir uns dem Frame Selector zu. Frame Selector

Der Frame Selector ist aus der Frame Node Modulator Map (FNMM) und der Frame Node Indicator Map (FNIM) zusammengesetzt. Erstere befindet sich in 1-zu-1-Verbindung (im Gegensatz zu vollverbundenen Layern) zur Frame-Karte und spiegelt die vom Netzwerk erwarteten Aktivationswerte der verschiedenen Frame-Knoten in der Frame-Karte wider96. Somit kann die graduelle Natur der Frame-Auswahl untersucht werden, was für die Untersuchung von psycholinguistischen Effekten wie Erwartungen, Standardannahmen, semantisches Priming oder die Koaktivierung mehrerer Interpretationsmöglichkeiten eines Satzes benutzt werden kann. Mit jedem Wort, das dem Sequence Processor präsentiert wird, wird die Frame Selector Komponente aktiviert um die entsprechenden Frame-Knoten (in der Frame-Karte) zu aktivieren, die gemeinsam die aktuelle Satzinterpretation ergeben. Doch warum wird nicht einfach die Frame-Karte dementsprechend trainiert, dass diese die Aktivationswerte für die Frame-Knoten selbst kontrolliert? Die Antwort gibt Mayberry (2003: 51) selbst: The Frame Selector module was developed for the practical reason that it saved training time. The weights connecting the hidden layer of the Sequence Processor to each node in the Frame Map could have been trained to control the level of activation of the Frame Node patterns themselves, but doing so introduces the inefficiency of having to train the majority of nodes to be null vectors […], since only a fraction of the 144 nodes would be activated for any sentence. The result is a

Eine geringere Aktivation eines Knotens in der FNMM kann dahingehend interpretiert werden, dass sich das Netzwerk weniger „sicher“ ist, dass der entsprechende Knoten in der Frame-Karte aktiviert ist. Ein höherer Aktivationswert in der FNMM bedeutet also, dass es für das Netzwerk wahrscheinlicher erscheint, dass der korrespondierende Knoten in der Frame-Karte aktiviert ist. 96

- 64 -

Kapitel 3: Vorstellung und Evaluation erfolgreicher Ansätze

strong bias toward the null vector, which had been found to hinder training for those nodes that should be activated.

Die FNIM ist ebenfalls 1-zu-1 mit der Frame-Karte verbunden und wird hauptsächlich für das Training der Frame-Karte und der FNMM eingesetzt. Dies wird im nächsten Abschnitt besprochen. Um einen kompletten Überblick über Mayberrys Architektur zu ermöglichen, zeigt Abbildung 18 alle Komponenten und die Verbindungen untereinander. Training

INSOMNet zu trainieren (und auch die Beschreibung dessen) ist aufgrund der vielen einzelnen Komponenten äußerst kompliziert, die Interdependenzen sind vielfältig und manchmal auch Sequence Processor SARDNet

Input

Context

Hidden

Frame Selector

Frame Node Encoder/Decoder

FNMM

Frame Map

Decoder

FNIM

Dekomprimierte MRS-Struktur

Abbildung 18: INSOMNet im Überblick. Gestrichelte Pfeile zeigen 1-zu-1-Verbindungen an. Das Resultat des Dekodierungsprozesses (hier: „Dekomprimierte MRS-Struktur“) ist in Abbildung 24 detaillierter dargestellt und an der entsprechenden Textstelle beschrieben.

undurchsichtig. Es wird hier versucht, eine möglichst einfache und dennoch erschöpfende Beschreibung dessen zu geben, was während des Trainings geschieht.

- 65 -

Kapitel 3: Vorstellung und Evaluation erfolgreicher Ansätze

Der Sequence Processor wird mit dem Backpropagation-through-Time-Lernalgorithmus97 trainiert und erhält Fehlersignale vom Semantic Frame Encoder/Decoder und vom Frame Selector (das folgt schon daraus, dass der Hidden-Layer des Sequence Processors mit beiden anderen Komponenten verbunden ist, siehe Abbildung 18). Als Quelle des Fehlersignals (oder Teachingsignal) aus dem Semantic Frame Encoder/Decoder wird die korrekte semantische Repräsentation des gerade am Sequence Processor anliegenden Wortes verwendet. Diese „Target-Frames“ werden mit dem dekodierten Output des Frame-Knotens verglichen, der den entsprechenden komprimierten Frame enthält. Dadurch ergibt sich ein Fehler, der bis zum Sequence Processor hindurch propagiert werden kann. Das Fehlersignal aus dem Frame Selector wird dort intern durch einen Vergleich der FNMM mit der FNIM generiert. Die FNIM ist ebenfalls ein selbstorganisierender98 Bestandteil von INSOMNet, der mit komprimierten Repräsentationen der MRS-Frames trainiert wird. Die Herstellung der komprimierten MRS-Frames, die später mit dem Umweg über die FNIM in der Frame-Karte gespeichert werden sollen, übernimmt ein externes Netzwerk: ein rekursiver Autoassoziationsspeicher (Recursive Auto-Associative Memory, RAAM), der von Pollack (1990, zitiert nach Mayberry, 2003) entwickelt wurde und die Eigenschaft besitzt, zwei oder mehr Substrukturen in einer repräsentieren zu können. Diese hat dieselbe Größe wie jede ihrer Konstituenten. Ein RAAM kann also (natürlich mit gewissen Grenzen) Strukturen erzeugen, die sehr komprimiert sind, deren Bestandteile jedoch später wieder dekodiert werden können um die ursprünglichen Inputs zu erhalten99 – genau das, was für die komprimierte Repräsentation der MRS-Frames benötigt wird. Diese komprimierten Frames werden der FNIM „beigebracht“, die in 1-zu-1-Verbindung mit der Frame-Karte steht, welche somit ebenfalls diese komprimierten MRS-Frames übernimmt. Wie oben schon angedeutet ist das Training durch diesen „Umweg“ über die FNIM schneller abgeschlossen. Hat man diese komprimierten MRS-Frames vorliegen, kann man sie nicht nur dem Netzwerk beibringen, sondern auch als Handle für die Frames benutzen, die sie kodieren. Da man diesen Handle als Füller eines Slots in einem anderen Frame verwenden kann, ist ein solcher Handle Backpropagation-through-Time stellt eine spezielle Art des Backpropagation-Algorithmus (vgl. Abschnitt 1.2.4 der vorliegenden Arbeit) dar, bei dem die Fehlersignale bis zu einem gewissen Punkt aufsummiert werden und die resultierende Gewichtsanpassung auf einmal durchgeführt wird. 98 Selbstorganisierende Karten (SOMs) benötigen kein Fehlersignal zum Training, sie lernen unüberwacht (unsupervised learning). Sie bilden eine zweidimensionale Repräsentation ihres hochdimensionalen Inputs heraus, indem sie ähnliche Inputmuster auf nahe beieinander liegenden Knoten auf der Karte abbilden. Dabei bezieht sich die Ähnlichkeit nicht nur auf die Oberfläche des Outputs, sondern es können komplexe Interdependenzen unter Inputmustern herausgefunden werden. 99 Da typischerweise die erzeugte, komprimierte Struktur dieselbe Größe wie jeder ihrer Konstituenten hat, kann man auch mehrere dieser komprimierten Strukturen wiederum auf eine noch komprimiertere abbilden. Dieses Vorgehen hat natürlich seine Grenzen da ab einer bestimmten Komprimierungstiefe der ursprüngliche Input nicht mehr verlustfrei wiederhergestellt werden können. 97

- 66 -

Kapitel 3: Vorstellung und Evaluation erfolgreicher Ansätze

(und ausschließlich der Handle) ein inhaltsadressierbarer Verweis auf den Frame-Knoten, der den kompletten Frame kodiert. Da Frames über ihre Handles ineinander verschachtelt sein können, muss beim Training darauf geachtet werden, dass zuerst jene Frames komprimiert und gelernt werden, die nirgends eingebettet sind (in einem Baumdiagramm, das die Interdependenzen zwischen den Frames abbildet, sind das jene Frames, die die Blätter des Baumes bilden). Dann muss der Baum eines jeden Input-Satzes einfach nach oben abgearbeitet werden um alle MRS-Frames und die Interdependenzen zwischen diesen zu kodieren. Die FNMM in der Frame-Selector-Komponente ist verbunden mit der FNIM, die – wie oben erwähnt – ebenfalls die komprimierten MRS-Frames beinhaltet. Die Aktivationsmuster in der FNMM werden mit jenen aus der FNIM verglichen, der entstehende Fehler wird durch den Hidden-Layer des Sequence Processors zurück propagiert. „In this way, the Modulator output comes to represent the network’s confidence that the activated frames are part of the semantic interpretation of the input” (Mayberry, 2003: 55). Wichtig hierbei ist, dass diese Komponente erst dann trainiert werden darf wenn der Prozess der Selbstorganisation innerhalb der FNIM abgeschlossen ist. Betrachtet man nun Architektur und Trainingsprozesse fällt auf, dass hier viele verschiedene Komponenten, die grundlegend unterschiedliche Eigenschaften (bspw. selbstorganisierend vs. feed-forward) haben und somit auch unterschiedlich trainiert werden, in einer Architektur zusammengefasst sind. Die Frage, die man sich aus psycholinguistischer Sicht stellen muss, ist wohl jene nach der Plausibilität dieser hochkomplexen Architektur. Können noch grundlegende, falsifizierbare Hypothesen aus einem solchen Modell abgeleitet werden? Wie viele freie Parameter gibt es in einem solchen Modell? Warum verhält es sich so, wie es sich verhält? Die Komplexität, die diese Architektur mit sich bringt, zieht eben leider auch eine entsprechende Intransparenz der darin ablaufenden Prozesse nach sich. Eine Überprüfung der Ergebnisse, die INSOMNet hervorbringt (insbesondere jene, die aus der Perspektive der Psycholinguistik interessant erscheinen), soll Licht auf diese Aspekte werfen.

3.1.2. Evaluation: Allgemeine Leistungsmaße Um die Trennung von Parsing und Verstehensfähigkeit (also die Auswahl der richtigen Frames und die Dekodierungsleistung des Netzwerks) aufzuheben100, können Leistungsmaße herangezogen werden, die beides kombinieren. Das strengste dieser Maße ist das „Exact Parse Match“Kriterium, bei dem nur komplett korrekt dekodierte Frames und vollständig korrekt geparste Sätze als richtig gezählt werden. Das heißt, ein Satz und seine Interpretation wird nur dann nicht

Verstehensfähigkeit und semantisches Parsing wurden auch getrennt voneinander analyisert (vgl. hierzu Mayberry, 2003: 67ff).

100

- 67 -

Kapitel 3: Vorstellung und Evaluation erfolgreicher Ansätze

als falsch gewertet, wenn er in seiner Gesamtheit korrekt dekodiert wird, alle Zielframes über und alle Nicht-Zielframes unter dem Schwellenwert liegen. Während im Trainingsset der Prozentsatz korrekt geparster und dekodierter Sätze noch relativ hoch ist (ca. 70% bei einem Schwellenwert von 0,1 bis 0,3), fällt dieser Wert beim Testset extrem ab (auf unter 30%). Beim aus Präzision und Abruf hervorgehenden F-Wert101 stellt sich ein ähnliches Bild dar: Während für das Trainingsset bei einem Schwellenwert von 0,4 der F-Wert bei knapp über 0,7 liegt, fällt er beim Testset auf 0,31 zurück (bei einem Schwellenwert von 0,5). Diese schlechten Leistungsmaße sind natürlich einerseits dem strengen Bewertungskriterium geschuldet102, andererseits wiederum der „graded nature“ (Mayberry, 2003: 74) der Frame-Selector-Komponente: Die meisten Sätze ziehen Interpretationen nach sich, bei denen ein Nicht-Zielframe über und/oder ein Zielframe unter dem Schwellenwert aktiviert ist. Interessanterweise gilt für alle Kriterien der Fehlererhebung, dass mehr als die Hälfte der Fehler aus einer Ungenauigkeit in den Argumentpositionen der Frames stammt. Dies ist einerseits nicht überraschend da dieses Feld in der Mehrheit der Frames mehrere Male auftaucht (Positionen (5) bis (10) in den dekodierten Frames sind für Argumente reserviert, siehe auch den vorhergehenden Abschnitt). Andererseits sind es auch die Argumentstellen, die ein hohes Maß an Komplexität beinhalten, da durch sie auf andere Handles verwiesen werden kann (die wiederum andere Handles in den Argumentstellen verlangen können usw.). Viele dieser Argument-Verweisfehler (ca. 35%) rühren daher, dass auf einen Frame-Knoten verwiesen wird, der fast genau denselben Handle enthält wie der, der korrekt wäre (oft besteht nur in einer Position ein Unterschied). Dies zeigt, dass es auf jeden Fall zu einer Verbesserung der Gesamtleistung des Netzwerks führen würde, wenn man die Genauigkeit der Argumentkomponente verbessern würde (vgl. Mayberry, 2003: 75). Unter dem „Exact Pointer Match“-Kriterium wurde außerdem untersucht wie INSOMNet mit verschiedenen Rauschquellen umgeht. Ein Charakteristikum konnektionistischer Netzwerke ist – wie wir in den entsprechenden Abschnitten aus Kapitel 1 gesehen haben – die Robustheit gegenüber verrauschtem Input. Mayberry (2003: 88ff) untersuchte dies anhand von Rauschquellen, die

101 Für eine detaillierte Erläuterung des F-Werts vgl. Mayberry (2003: 65f). Dieser setzt sich aus dem Maß für die Präzision (Anzahl der korrekt positiv aktivierten Frames geteilt durch alle positiv aktivierten Frames) und der Erinnerung (korrekt positiv aktivierte Frames geteilt durch die Summe von positiv aktivierten Frames und falsch negativ aktivierten Frames (misses)) zusammen. 102 Es werden auch weniger strenge Maße berechnet: Im „Exact Pointer Match“-Kriterium wird untersucht, wie gut die einzelnen Komponenten des Netzwerks zusammen arbeiten. Hierbei ist egal ob die Frames, auf die von den anderen Komponenten verwiesen wird, Zielframes sind oder nicht. Beim „Exact Frame Match“-Kriterium verursacht jeder Dekodierungsfehler (auch nur eines Framekonstituenten) einen Fehler für den gesamten Frame. Außerdem werden hier Nicht-Zielframes ebenfalls als Fehler behandelt.

- 68 -

Kapitel 3: Vorstellung und Evaluation erfolgreicher Ansätze

auf zwei Ebenen ansetzten103. Der sprachliche Input wurde natürlicher gestaltet indem statt des Oberflächensignals in Form der Schriftsprache transkribierte, gesprochene Sprache eingegeben wurde. Folgende Störquellen gegenüber dem erlernten Input ergeben sich daraus104: (1) Ungrammatischer Input: „here is some clues“, „hier ist einige Hinweise“; (2) Akzente oder dialektal gefärbter Input: „uhm that ist no good“, „ähm das isch nich gut“; (3) Verkürzungen: „# # uh how `bout some time #“105, „äh hast ma’n bisschen zeit“; (4) unflüssiger Input: „I am free # from ah that # from nine until # oh # six“, „ich hab frei … von äh dass … von neun bis … oh … sechs“. Nachdem einige grobe Kennwerte der Netzwerkleistung vorgestellt wurden, ist nachvollziehbar, dass es durchaus möglich ist, konnektionistische Modelle auch auf Grammatiken anzuwenden, die einem realistischen Korpus zugrunde liegen. Andererseits muss auch konstatiert werden, dass – sofern man ein strenges Fehlermaß anlegt – doch ein großes Maß an Ungenauigkeit vorhanden ist, was das Parsing und die Verstehensleistung angeht. Einige dieser Ungenauigkeiten sind wohl Architekturprinzipien (z.B. der Selbstorganisation) geschuldet, andere jedoch auch der Komplexität des zugrunde liegenden sprachlichen Materials.

3.1.3. Evaluation: Umgang mit Ambiguitäten Einleitung und Material

In diesem Abschnitt werden als abschließende Evaluation INSOMNets Charakteristika beim Auflösen von Ambiguitäten beleuchtet. Anhand der Aktivationsmuster in der FNMM im Frame Selector können wir sehen, welche Frame-Knoten wie stark aktiviert sind – bzw. wie sicher sich das Netzwerk an der gegenwärtigen Stelle im Satz ist, dass ein bestimmter Frame zur semantischen Interpretation des augenblicklichen Satzes gehört. Es handelt sich hier also um ein Modell des mehrfachen (oder parallelen) Zugriffes beim Auflösen von Ambiguitäten, das sich von kontext-abhängigen und einfachen Zugriffsmodellen dadurch unterscheidet, dass mehrere Interpretationen, die zum dargebotenen Satz passen, parallel aufrecht erhalten werden bis eine (oder mehrere) Interpretationsmöglichkeiten durch neu hinzugekommene Wörter wegfallen. Das einfache (oder serielle) Zugriffsmodell unterstützt hingegen die Annahme, dass zu jedem Zeitpunkt nur eine Interpretation aktiv aufrechterhalten wird und bei neu hinzukommender, desambiguierender Information zugunsten einer anderen, passenden, fallen gelassen werden muss. Hier wird meist Die zweite Ebene ist die normalverteilte Verrauschung des Inputs mit verschieden großen Standardabweichungen, das Modell zeigt hierbei eine hohe Toleranz für den verrauschten Input (Mayberry, 2003: 88ff). Es wird hier lediglich die erste Verrauschungsart näher vorgestellt. 104 Die deutschen Beispiele sind nahe liegende Übersetzungen oder Phänomene im Deutschen, die Ähnlichkeiten mit den Originalbeispielen aufweisen. 105 Das Rautenzeichen wird hier für verbale und nonverbale Äußerungen gebraucht, die nicht in die Satzstruktur gehören. Dazu gehören beispielsweise Lachen, Schlucken, Husten oder Räuspern. 103

- 69 -

Kapitel 3: Vorstellung und Evaluation erfolgreicher Ansätze

angenommen, dass das Auswahlkriterium für eine bestimmte Interpretation die Frequenz ist, mit der sie für dieses Wort benutzt wird. Kontextabhängige Modelle (die ebenfalls zu den seriellen Modellen zu zählen sind) würden dem Kontext – also der bisher herausgebildeten Satzinterpretation106 – den Vorzug vor der Verwendungsfrequenz geben. Das heißt ein Wort wird so interpretiert wie es in den Kontext passt, sollte dies die falsche Interpretation sein, muss sie fallen gelassen werden und nach einer neuen gesucht werden. Zur Diskussion, inwieweit alternative semantische Interpretationen (sogar im globalen Satzkontext unmögliche) aufrechterhalten, abgerufen oder mitverarbeitet werden, vgl. bspw. Konieczny (2005; Konieczny et al., 2006). Doch die Architektur INSOMNets legt – wie schon angedeutet – ein mehrfaches, paralleles Zugriffsmodell nahe. „Multiple sense co-activation is an underlying cognitive assumption of the model that is used to account for how ambiguity and its resolution are treated […]” (Mayberry, 2003: 96). Da unterschiedliche Interpretationen von Sätzen durch die Aktivation verschiedener Frame-Knoten, also der Bedeutungskonstituenten, deutlich werden, kann man relativ einfach sehen, welche Interpretationen für einen bestimmten Satz INSOMNet zu einem gegebenen Zeitpunkt aufrechterhält. Das Material für die Studie zur Ambiguitätenauflösung wurde anhand von 19 „Satzschablonen“ („templates“) erstellt. Ein kleiner Auszug dieser Schablonen zeigt, wie Ambiguitäten in diesem Korpus realisiert werden: Original The breaker broke the fragileObject. The animal broke the fragileObject. The human hit the human with the possession. The human hit the human with the hitter.

Übersetzung Der Zerbrecher zerbrach das zerbrechliche Objekt. Das Tier zerbrach das zerbrechliche Objekt. Der Mensch schlug den Menschen mit dem Besitz. Der Mensch schlug den Menschen mit dem Schlagwerkzeug.

Beispielsatz, Original The bat broke the window. The bat broke the window. The boy hit the girl with the doll. The boy hit the girl with the bat/rock/ball.

Bsp.satz, Übersetzung Der Baseballschläger zerbrach das Fenster. Die Fledermaus zerbrach das Fenster. Der Junge schlug das Mädchen mit der Puppe. Der Junge schlug das Mädchen mit dem Baseballschläger/Stein/Ball.

Wir sehen bereits, wie die Herstellung der Ambiguitäten in diesem Korpus funktioniert: Einige Wörter passen in mehrere Kategorien („bat“ bspw. in die Kategorien „Breaker“, „Possession“, „Hitter“ und „Animal“) und rufen so eine lexikalische Ambiguität hervor (Zeile 1 und 2 der oben dargestellten Tabelle). Andere Schablonen produzieren globale Ambiguitäten wie wir sie schon kennen gelernt hatten – die Präpositionalphrase kann sowohl an „schlagen“ als auch an den geschlagenen Menschen gebunden werden (Zeile 3 und 4). Wenn man beachtet, welche Frames in der Frame-Karte aktiviert werden, kann analysiert werden welche Agent-Patient-InstrumentStrukturen das Modell im Augenblick parallel aufrechterhält. Der erste Beispielsatz hat einen impliziten Agenten (jemanden, der mit dem Baseballschläger schlägt), ein explizites Instrument (den Da INSOMNet ausschließlich auf der Satzebene und nicht auf der textuellen Ebene arbeitet, kann Kontext hier nicht im Sinne der bis dato aufgebauten Textinterpretation verstanden werden.

106

- 70 -

Kapitel 3: Vorstellung und Evaluation erfolgreicher Ansätze

Baseballschlager selbst) und einen expliziten Patienten (das Fenster). Satz 2 hingegen kein Instrument, dafür aber einen Agenten (die Fledermaus). Beide Interpretationen sollten aktiviert sein – gleiches gilt entsprechend für die Sätze 3 und 4. Nicht zu vernachlässigen sind dabei die Frequenzen, mit denen die verschiedenen Sätze im Korpus107 auftauchen. Die Wortkette „the boy hit“ taucht im Trainingskorpus 182 Mal mit einer instrumentell interpretierbaren und nur 27 Mal mit einer modifizierenden PP auf. Die Wortkombination „the boy hit the girl“ jedoch taucht insgesamt 14 Mal im Korpus auf, sieben mal mit einer PP im instrumentellen Sinn und sieben Mal mit einer Modifizierer-PP für „the girl“. Das bedeutet, dass INSOMNet bis zur Eingabe der zweiten NP „the girl“ die instrumentelle Lesart präferieren sollte. Hiernach jedoch sollten die Aktivationswerte für beide Interpretationen auf demselben Niveau sein. Ergebnisse

Die Gesamtergebnisse für diese psycholinguistischen Tests sind überaus gut: in 95,5 %108 der Fälle erkennt INSOMNet die Ambiguitäten. Doch die interessanten Details kommen dann zum Vorschein, wenn man die Performanz des Modells auf die parallele Aktivation mehrerer Interpretationen, Ambiguitätenauflösung, Defaultannahmen, Erwartungen und semantisches Priming hin analysiert.

Der Korpus besteht für diese Analyse aus 1475 Sätzen, welche aus 30 Wörtern gemäß der Satzschablonen gebildet wurden (Mayberry, 2003: 97f). 108 Hier gilt wiederum das oben vorgestellte „Exact Pointer Match“-Kriterium. 107

- 71 -

Kapitel 3: Vorstellung und Evaluation erfolgreicher Ansätze

Abbildung 19 zeigt einen Überblick über die Aktivationsverläufe während des Lesens der verschiedenen Sätze. Abgetragen sind die Aktivationen der verschiedenen „with“-Frames. Diese realisieren die verschiedenen Interpretationsmöglichkeiten der PP „with the doll/rock/ball/bat“ dadurch, dass sie dieselben Handles wie „hit“ (für die instrumentelle Interpretation) oder „the girl“ (für die modifizierende Interpretation) haben. Nur die zwei unteren Schaubilder zeigen die Aktivationsmuster für ambige Sätze (gut daran zu

Abbildung 19: Aktivations- und Auflösungsmuster alternativer Interpretationsmöglichkeiten. Die FNMM kontrolliert die Aktivationsstärke der Frame-Knoten in der Frame-Karte. Hier sind die Aktivationsmuster während eines Satzes für zwei verschiedene Frames für „with“ dargestellt. In diesen Frames wird die Anbindung von „with“ entweder an „hit“ oder an „girl“ realisiert (aus Mayberry, 2003: 103).

erkennen, dass sich keine Interpretation eindeutig durchsetzt). Die anderen sind (für uns) ebenso mehrdeutig, doch wie aus der Minigrammatik des verwendeten Korpus (vgl. Mayberry, 2003: 97) hervorgeht, wurde „doll“ niemals als Schlaginstrument („hitter“) benutzt und „rock“ nicht als Besitztum („possession“). Das Netzwerk hat also keinerlei Evidenz dafür, dass „mit der Puppe“ im instrumentellen Sinn oder „mit dem Stein“ im modifizierenden Sinne interpretiert werden könnte. Diese Wörter sind (bei diesem Korpus) desambiguierend, was daran zu erkennen ist, dass die nicht-passende Interpretation nach der Nennung von „doll“ oder „rock“ im Gegensatz zur richtigen, die noch einen leichten Aktivationsschub erhält, weit abfällt.

- 72 -

Kapitel 3: Vorstellung und Evaluation erfolgreicher Ansätze

Das Gegenteil ist bei den Wörtern „ball“ und „bat“ der Fall – von den parallelen Interpretationen fällt keine entscheidend zurück. Und mit einem Blick in die Minigrammatik wird klar warum: „ball“ kann ebenso wie „bat“ sowohl „hitter“ als auch „possession“ sein109. Auch die oben genannte Verschiebung der Interpretation von Instrument-PP zu Modifzierer-PP kann in den Schaubildern abgelesen werden. Erst mit dem Wort „girl“ gewinnen beide Interpretationen denselben Stellenwert, in allen Fällen wird der modifizierenden Lesart gar ein leichter Vorteil zugesprochen, bevor das (hier) desambiguierende Nomen die Interpretationsart entscheidet. Doch was geschieht, wenn keine solch eindeutige Desambiguierung möglich ist wie in den unteren zwei Fällen dargestellt. Hier ist wiederum die Frequenz der beiden Lesarten ausschlaggebend. Die Wortkette „with the ball“ taucht 114 Mal als modifizierende PP und nur 16 Mal als instrumentell interpretierbare. Es ist hierbei zu beachten, dass die Kette „the girl with the ball“ – wie sie hier vorkommt – jedoch in beiden Interpretationsarten gleich oft vorkommt. Doch trotzdem setzt sich die modifizierende Lesart knapp durch (siehe Schaubild links unten). Für den Satz, der mit „bat“ endet, gilt das Gegenteil, die Aktivationsverläufe sind zwar bis zum letzten Wort dieselben, doch mit dem EOS-Signal, dem Punkt, setzt sich die Interpretation für die instrumentelle Lesart knapp durch110.

Abbildung 20: Aktivationsmuster verschiedener Frame-Knoten für verschiedene Wörter während INSOMNet die Sätze „the boy hit the gril with the doll.“ und „the boy hit the girl with the ball.“ präsentiert werden (aus Mayberry, 2003: 104).

109 M.E. muss jedoch zwischen diesen beiden Fällen differenziert werden. Während der Satz mit „bat“ eine echte globale, lexikalische Ambiguität darstellt (das Mädchen könnte sowohl eine Fledermaus als auch einen Baseballschläger haben; geschlagen werden kann sie nur mit einem Baseballschläger), ist der andere Satz zumindest nicht auf lexikalischer Ebene ambig („ball“ kann auf keinen Fall als Tanzveranstaltung interpretiert werden). 110 Es bleibt jedoch m.E. fraglich, warum dies erst mit dem Punkt geschieht. Betrachtet man die oberen Schaubilder sieht man, dass die Reaktion des Modells bereits beim fraglichen Wort einsetzt und nicht ein Wort später. Außerdem liegt keine Satzschablone vor, die eine Fortsetzung des Satzes zulässt. INSOMNet hätte also schon zum Zeitpunkt der Präsentation von „bat“ die nötigen Informationen um sich für die instrumentelle Lesart zu entscheiden.

- 73 -

Kapitel 3: Vorstellung und Evaluation erfolgreicher Ansätze

Abbildung 20 zeigt Erwartungen und Default-Annahmen während der Satzverarbeitung zweier Sätze. Es ist gut zu sehen, wie die Aktivationsstärken verschiedener Frame-Knoten, die die jeweiligen Wörter beinhalten, fluktuieren. Gegen Satzende – wenn das tatsächliche Wort genannt wird – setzt sich selbstverständlich dessen Frame-Knoten durch und die anderen fallen weit ab – sie sind nicht mehr Teil der aktuellen Interpretation des Satzes. Betrachten wir den Aktivationsverlauf für „sheep“ im linken Schaubild, sehen wir, dass die Aktivation dessen Frame-Knotens bereits mit der Präsentation von „girl“ rapide abfällt. Dies ist insofern verständlich, weil „sheep“ laut der Minigrammatik weder als Schlaginstrument noch als Besitztum (also als Modifizierer für „girl“) fungieren kann. Die einzige Möglichkeit wäre gewesen, dass der Junge das Schaf schlägt (was laut der Grammatik möglich gewesen wäre). Da jedoch an dieser Stelle „girl“ präsentiert wird, fällt die Aktivation für „sheep“ ab111. Die Frage, die sich jetzt stellt, ist warum mit den Aktivationsmustern von „dog“ (rechtes Schaubild) dasselbe geschieht. Dies ist unverständlich, dass „dog“ als Besitztum von „girl“ zulässig wäre und die Aktivation deshalb eigentlich nicht in gleicher Weise wie jene von „sheep“ abfallen dürfte112. Wir sehen an den Schaubildern vor allem eines: Das Modell hat offenbar gelernt, dass bestimmte Rollen in Sätzen vorkommen können und aktiviert die Frame-Knoten für Wörter, die diese Rollen ausfüllen können. Hiernach wird die Aktivation entsprechend dem Satzverlauf angeglichen / moduliert. Die ständige Revision von Interpretationen wird so zu einem aus der Architektur ableitbaren Prinzip. Auf diese Weise bildet INSOMNet sozusagen Erwartungen heraus, welches Wort am wahrscheinlichsten als nächstes im Satz folgt. Diese Erwartungen basieren einerseits auf den Prinzipien der Satzschablonen und der Minigrammatik, die grundlegend für die Erstellung des Korpus sind, andererseits auch auf der Frequenz der einzelnen Wörter in bestimmten Kontexten – hier nutzt INSOMNet die klassische Stärke konnektionistischer Ansätze.

3.1.4. Zusammenfassung und Kritik INSOMNet stellt sich als eine ausgereifte konnektionistische Architektur dar, die offenbar grundsätzliche Probleme beim Mapping von syntaktischem Input auf semantischen Output lösen kann. Ausschlaggebend ist hier einerseits eine semantische Konzeption, die auf den Prinzipien der Minimal Recursion Semantics beruht. Diese realisiert über die wissenschaftliche Hilfskonstruktion der Handle-Zuweisung zu bestimmten semantischen Inhalten (den Frames) eine flache Semantikrepräsentation. Die dekodierten Frames repräsentieren zusammen genommen die se-

Die Aktivation fällt für alle Wörter ab, im linken Schaubild auch für das korrekte. Mayberry (persönliche Kommunikation) macht dafür die Tatsache verantwortlich, dass ein Knoten nicht ein Wort repräsentiert, sondern mehrere, die ähnlich sind (also ähnlichen Kategorien zugehören, in ähnlichen Kontexten verwendet werden, usw.). „dog“ und „sheep“ sind offenbar zwei solche Wörter, die auf einem Knoten „abgelegt“ sind.

111 112

- 74 -

Kapitel 3: Vorstellung und Evaluation erfolgreicher Ansätze

mantische Interpretation des syntaktischen Inputs, der am Sequence Processor anliegt. Hierbei ist unter Rückbezug auf Abschnitt 2.3.1 der vorliegenden Arbeit zu konstatieren, dass diese MRSStruktur sehr nahe an dem angestrebten Entwurf der Proposition ist. Insbesondere muss als Vorzug geltend gemacht werden, dass die Strukturen, die der Frame Node Decoder produziert, keine syntaktische Information enthalten und auch nicht strikt an eine Wortform gebunden sind. Die Vergabe von Handles sorgt außerdem dafür, dass die Reihenfolge, in der die Frames dekodiert werden, irrelevant für das Gesamtergebnis ist. Dies ist insofern wünschenswert, als dass eine nicht sinnverändernde Umstellung von Wörtern in einem Satz113 keinen Einfluss auf die semantische Interpretation nach sich zieht. Die Tatsache, dass INSOMNet in der Lage ist, seine Aufgabe mit einem realistischen Korpus zu erfüllen114 ist einerseits bewundernswert, andererseits sorgt vermutlich gerade dieses „large scale“-Charakteristikum dafür, dass die detaillierten Abläufe innerhalb der Architektur kaum mehr zu analysieren sind. Allein schon die Anwendung von vier selbstorganisierenden Komponenten (das SARDNet im Sequence Processor, die Frame Node Modulator Map und die Frame Node Indicator Map im Frame Selector sowie die Frame-Map) zieht nach sich, dass es wohl für die meisten Forschenden sehr schwierig sein wird, die Abläufe tatsächlich auf der Implementierungsebene (vgl. zu diesem Begriff Marr, 1982) zu untersuchen und nachzuvollziehen. Auch wenn Mayberry zeigen konnte, dass sein Modell für einen realistischen Korpus beachtliche Ergebnisse erzielen kann, wurde die Studie zum Umgang mit Ambiguitäten leider doch mit einer „toy grammar“ durchgeführt. Dass hier die Chance auf eine „large scale“-Untersuchung von semantischen Phänomenen (die ja Mayberry selbst fordert) verpasst wurde, ist bedauernswert. Auch ein grundsätzliches Problem bei der Erstellung eines konnektionistischen Modells zur semantischen Verarbeitung tritt zu Tage: Offenbar ist insbesondere die Art der semantischen Repräsentation stark mit ausschlaggebend dafür, ob ein Modell die ihm gestellten Aufgaben lösen kann. Welches der größere Faktor beim Zustandekommen des Erfolgs ist – die Architektur oder die semantische Repräsentationsart – ist im Nachhinein nicht mehr entscheidbar, aber es ist doch zu vermuten, dass die hier verwendeten MRS-Strukturen einen erheblichen Anteil am Gelingen des Unterfangens haben, einem konnektionistischen Modell Semantik „beizubringen“115. Dies gilt natürlich nicht nur für die soeben vorgestellte Architektur Mayberrys, sondern ist ein grundlegendes Problem des Modellierens (nicht nur im konnektionistischen Paradigma) von semantiZugegeben: Nahezu jede Umstellung zieht auf einer gewissen Ebene eine Veränderung der Satzbedeutung nach sich. Hier sollen jedoch Konnotationen, Betonungen oder ähnliches nicht eingeschlossen sein. 114 Dies gilt – wie wir gesehen haben – auch für Input, der auf verschiedene Weise verrauscht wurde. 115 Die Verwendung einer gewissen semantischen Konzeption macht natürlich auch umfangreiche Vorannahmen zur im Hintergrund liegenden Semantiktheorie. Grundsätzlich von der implizit vorausgesetzten semantischen Theorie abweichende Konzeptionen werden so nicht berücksichtigt und implizit ausgeschlossen. 113

- 75 -

Kapitel 3: Vorstellung und Evaluation erfolgreicher Ansätze

scher Verarbeitung. Worauf basiert der Erfolg eines bestimmten Modells? Auf der Architektur oder auf den eingesetzten semantischen Repräsentationen? Wir erinnern uns an den in Abschnitt 1.1.4 formulierten Grundsatz, dass ein Modell immer eine Funktion aus den verwendeten Repräsentationen und den modellierten Prozessen ist. Wünschenswert wäre sicherlich, diese Interaktion so überschaubar wie möglich zu halten. Weitere Forschung sollte und muss dieses Problem berücksichtigen um aussagekräftige Theorien herausbilden zu können. Das nächste Modell, das im Rahmen dieser Arbeit vorgestellt werden soll, bewegt sich ebenfalls ausschließlich auf satzsemantischer Ebene. Im Gegensatz zu INSOMNet ist es aber in der Lage, bei gegebener Semantik einen korrespondierenden Satz zu produzieren – eine wünschenswerte Eigenschaft, die auch die Auswertungsmöglichkeiten des Modells erweitert. Es wird außerdem zu sehen sein, wie unterschiedlich verschiedene Modelle die Aspekte der semantischen Verarbeitung auf der Satzebene angehen, auch wenn beide dem konnektionistischen Paradigma angehören.

3.2. Connectionist Model of Sentence Comprehension and Production (CSCP) 3.2.1. Die CSCP-Architektur Das CSCP-Modell (Rohde, 2002) besteht aus zwei Hauptkomponenten, dem Verstehens/Produktionssystem („comprehension/production system“) einerseits und dem Message116Kodierungs-/Dekodierungssystem oder dem Semantiksystem („message encoding/decoding system“), das im folgenden vorgestellt werden soll, andererseits. Der Besprechung der Architektur und der Trainingsprozeduren soll eine Vorstellung der Propositionen, wie Rohde sie verwendet, folgen. Das CSCP-Semantiksystem

Abbildung 21 zeigt das Semantiksystem. Die linke Hälfte übernimmt die Kodierung der Propositionen, die in komprimierter Form im Message-Layer gespeichert werden. Dies geschieht zunächst denkbar einfach: Die Propositionen, die gemeinsam die Satzbedeutung konstituieren, werden nach und nach – eine pro Zeitschritt – am Propositionen-Input-Layer angelegt, die Zwischenschicht zwischen Propositionen-Input und Message-Layer nimmt erste Veränderungen (erste Verarbeitung, Rekodierung in eine nützlichere Form) am Input vor.

Da „Nachricht“ eine unzulängliche Übersetzung dafür wäre, was Rohde unter „message“ versteht, wird dieser Terminus nicht übersetzt. Die Message eines Satzes ist eine komprimierte Form der Propositionen, die die Satzbedeutung konstituieren. 116

- 76 -

Kapitel 3: Vorstellung und Evaluation erfolgreicher Ansätze

Der Message-Layer schließlich kann als das Gedächtnis des Systems bezeichnet werden (vgl. Rohde, 2002: 132). Hier müssen alle Propositionen gespeichert werden, die bis zu diesem Zeitpunkt im Satz eingegangen sind. Da für jede Proposition 293 Knoten verwendet werden, könnte nur eine Proposition ganz im Message-Layer (500 Knoten) gespeichert werden, hier ist u.U. ein hohes Maß an Kompression nötig um alle Propositionen für einen Satz speichern zu können. Der Dekodierungsprozess findet im rechten Teil des Semantik-Systems statt. Eine Proposition muss hier erfolgreich aus der komprimierten Repräsentation im Message-Layer extrahiert werden. Der Mechanismus, den Rohde verwendet, ist in Anlehnung an die Arbeiten von St. John & McClelland (1988; 1990; 1992) entstanden und funktioniert über das sogenannte querying. Hierbei wird am Proposition-Query-Layer eine unvollständige Proposition angelegt, welche vom Modell vervollständigt werden muss. Das bedeutet, dass am Proposition-Response-Layer mit der kompletten Proposition als Output „geantwortet“ werden muss. Hierbei muss der Query-GestaltLayer die Information der angefragten Proposition mit den Inhalten des Message-Layers integrieren. Die so entstandene Repräsentation117 der Antwort (also der vervollständigten Proposition) erfährt im zwischenge-

Dekodierer

schalteten Proposition Response

Kodierer

293

Hidden-

Layer letzte Modifikationen und wird dann zum

Proposition Input 300

293

Antwort-Layer

weitergeleitet. Für das Training wird das

Query Gestalt 500

300

Semantiksystem

vom Rest der Architektur abgekoppelt. Das

Proposition Query 293

Fehlersignal

für

Kodierungsteil Message

den des

Systems stammt aus

500

Abbildung 21: Das „Message Encoder and Decoder System“ (Semantiksystem) des CSCP-Modells. Layer ohne Bezeichnungen sind einfache Hidden Layer. Der gebogene Pfeil, der vom Message Layer zurück auf den Message Layer zeigt, stellt eine rekurrente Verbindung dar. Die Zahlen rechts unten in jedem Layer ist die Anzahl an Knoten im jeweiligen Layer (aus Rohde, 2002: 132).

dem

Anfragemecha-

nismus im Dekodierungsteil. „Thus, the encoder and decoder

interact in developing the representations of sentence meaning used in the message layer” (Rohde, 2002: 133). Die Propositionen werden nach und nach präsentiert und kodiert. Nach jeAuch hier muss das Wort „Repräsentation“ natürlich mit der in konnektionistischen Modellen gebotenen Vorsicht verwendet werden. Dies wurde in Abschnitt 1.3.2 ausführlich besprochen.

117

- 77 -

Kapitel 3: Vorstellung und Evaluation erfolgreicher Ansätze

der eingegangenen Proposition werden der Dekodierungskomponente alle möglichen Fragen über alle Propositionen gestellt, die bis jetzt im Message-Layer gespeichert sind. Das heißt aber auch, dass die erste Proposition viel öfter überprüft wird als die zuletzt eingegebene, denn auch schon abgefragte Propositionen werden nochmals abgefragt sobald eine neue hinzugekommen ist118. Für die Abfrage der Propositionen werden die Aktivationsmuster des Message-Layers eingefroren. Der Fehler, der am Antwort-Layer ensteht, wird durch alle Komponenten hindurchpropagiert bis zum Propositionen-Input119. Um kurz auf den Anfragemechanismus zurückzukommen, der für das Message

Erlernen der Propo-

500

sitionen Production Gestalt

Comprehension Gestalt 500

500

unablässig

ist: Sicherlich wird diese Art der Abfrage zu dem Ergebnis führen,

250

100

dass

jene

Propositionen,

die

sehr oft abgefragt Prediction

Word Input 169

160

werden (die ersten) auch besser behalten

Abbildung 22: Das „comprehension, prediction, and production (CPP) system“ des CSCP-Modells. Layer ohne Bezeichnungen sind einfache Hidden Layer. Die Zahlen rechts unten in jedem Layer ist die Anzahl an Knoten im jeweiligen Layer. Der gestrichelte Pfeil von Prediction zu Wort-Input stellt eine Wiedereinschleifung der Wörter aus dem Vorhersage-Layer dar (aus Rohde, 2002: 137).

werden. Auch bei später präsentierten Propositionen

(den

letzten) ist zu vermuten, dass sie gut erinnerbar sind weil deren Repräsentationen im Message-Layer die am wenigsten verrauschten sein müssten. Eine U-förmige Leistungsverteilung ist daher anzunehmen – ebenso wie in einigen Befunden in der Gedächtnisforschung beim Menschen. Ob dieser Effekt beim Menschen allerdings auf den gleichen Mechanismus wie im CSCP-Modell zurückzuführen ist, muss als äußerst fraglich gelten.

Für einen Beispiel-Satz, dessen Bedeutung sich aus drei Propositionen zusammensetzt, werden also 18 Anfragen gestellt: drei für die erste Proposition (da Propositionen aus drei Komponenten bestehen und jeweils eine Komponente weggelassen wird), im zweiten Schritt wiederum drei Anfragen für die erste und weitere drei für die zweite Proposition und schließlich im letzten Schritt neun Anfragen. 119 Aus Geschwindigkeitsgründen wird der Dekoderteil (rechts) mit Standard-Backpropagation trainiert und der Kodierteil mit Backpropagation through time. Den Flaschenhals stellt die Berechnung des Inputs für den „Query Gestalt“-Layer dar, der Input von 500 Knoten aus dem Message-Layer und 293 Knoten aus dem Anfrage-Layer erhält. Durch einige Vereinfachungen bei der Berechnung dieses Inputs (vgl. Rohde, 2002: 134) konnte die Berechnungszeit herabgesetzt werden. 118

- 78 -

Kapitel 3: Vorstellung und Evaluation erfolgreicher Ansätze

Das Verstehens-, Vorhersage- und Produktionssystem120

Abbildung 22 zeigt das CPP-System. Der Message-Layer stellt das Interface zwischen beiden Komponenten dar. Dies wird jedoch in einer Gesamtbetrachtung des CSCP-Modells deutlicher. Wie unschwer zu sehen ist, wird der Input in dieser Komponente am Layer rechts unten angelegt. Die Wörter sind jedoch nicht – wie bei den Studien Elmans – rein lokalistisch repräsentiert, sondern durch eine verteilte, an der Phonologie orientierte Repräsentation121 (vgl. hierzu Rohde, 2002: 116f), die es dem künstlichen neuronalen Netz ermöglichen soll, Vorteile aus den Informationen zu ziehen, die der Klang von Wörtern bereithält: „The sound pattern of the words in a language is a strong, but not perfectly reliable, indicator of semantic and syntactic regularities.“ (Rohde, 2002: 116). Die verschiedenen Bestandteile der Wörter werden hierbei nicht inkrementell dargeboten. Das Wort in seiner Gesamtheit wird am Wort-Input präsentiert – egal wie viele Silben bzw. Morpheme es enthält. Aktivation fließt nun durch einen Hidden-Layer, wird dadurch rekodiert und kommt im „Comprehension Gestalt“-Layer an. Den Terminus „Gestalt“ verwendet Rohde nach eigener Aussage für Layer, die „encode the sentence as a whole, including syntactic, lexical, and semantic aspects“122. Der „Comprehension Gestalt“-Layer empfängt jedoch nicht nur die Aktivation vom Wort-Input, sondern auch über eine rekurrente Verbindung von sich selbst sowie vom Message-Layer. Damit fällt ihm die Aufgabe zu, das augenblickliche Wort in die sich entwickelnde Interpretation des Satzes „einzubauen“, er stellt sozusagen die Brücke von Syntax zu Semantik dar weil die in ihm herausgebildeten Repräsentationen notwendigerweise syntaktische und semantische Aspekte enthalten müssen. Das Ziel des Verstehensprozesses muss im CCP-Teil des CSCP-Modells sein, dass im Message-Layer dieselben Repräsentationen herausgebildet werden wie wenn die den Wortformen entsprechenden Propositionen eingegeben wer-

Diese Komponente wird in Referenz auf die englischen Ausdrücke im Folgenden mit CPP-System abgekürzt. 121 Auf diese phonologische Kodierungsart soll nicht im Detail eingegangen werden. Eine Wortrepräsentation besteht am Wort-Input grob gesagt aus drei Teilen (Silben/Morphemen). Wörter mit mehr als drei Silben werden so gekürzt, dass die morphologischen Flexionen erhalten bleiben. „realizing“ wird so bspw. zu „re-liz-ing“. Die Wortrepräsentation für die Vorhersage und Produktion ist eine andere und wird kurz an der entsprechenden Stelle beschrieben. 122 Dies gilt jedoch m. E. nicht für den „Query Gestalt“-Layer während der Trainingsphase des Semantiksystems, dem zu diesem Zeitpunkt noch keinerlei syntaktische oder lexikalische Information vorliegen kann da das Semantiksystem vom Rest des Modells abgekoppelt trainiert wird. 120

- 79 -

Kapitel 3: Vorstellung und Evaluation erfolgreicher Ansätze

den123. Der Zielvektor des Comprehension-Teils, der am Message-Layer anliegt, ist die Repräsentation, die im vorhergehenden Semantik-Training herausgebildet wurde124. Während der Verstehensprozess abläuft, macht das Modell auch Annahmen darüber, wie das nächste Wort des Satzes lauten kann. Dies geschieht dadurch, dass Aktivation von „Comprehension Gestalt“- und Message-Layer weitergegeben wird an den „Production Gestalt“-Layer, der zusätzlich rekurrenten Input von sich selbst erhält. Von dort aus fließt die Aktivation wiederum durch einen Hidden-Layer zum Vorhersage-Layer („prediction layer“). Dieser produziert einen distribuierten Vektor, der für jedes Wort angibt, für wie wahrscheinlich das Modell es hält, dass es an der nächsten Stelle im Satz steht125. Dies gilt für den Verstehensprozess, der vom Produktionsprozess zu unterscheiden ist. Dies sind sozusagen zwei verschiedene „Arbeitsmodi“ des CPPSystems. Äußerst interessant ist die Hinzunahme der zuvor im Semantiksystem erstellten Semantikrepräsentationen im Message-Layer und die Realisierung dieser Hinzunahme. Einerseits fungieren diese als Target-Vektor für das CPP-System, andererseits fließt die semantische Repräsentation allerdings auch in den Vorhersageprozess mit ein, dies geschieht durch sogenanntes „Clamping“126. Das bedeutet, dass die Aktivationsmuster, die der Message-Layer eigentlich weitergeben würde, in Richtung der korrekten semantischen Interpretation des Satzes (die wir im Semantik-System hergestellt haben) beeinflusst werden. Diese Beeinflussung kann man über einen zwischen 0 und 1 variierenden Parameter stärker oder schwächer ausfallen lassen. Eine Clamping-Stärke von 0,25 würde bedeuten, dass der letztendliche Output des Message-Layers in Richtung des „Production Gestalt“-Layers zu 25% aus dem korrekten und zu 75% aus dem Output besteht, den die Berechnungen des CPP-System hervorgebracht haben. Bei einer Clamping-Stärke von 1 hingegen würde lediglich der korrekte Output weitergegeben. Die Clamping-Stärken wurden variiert, um dem Modell nicht zu erlauben, sich lediglich auf die korrekten semantischen Repräsentationen zu beziehen. Ein solches Vorgehen zieht natürlich implizite theoretische Annahmen nach sich. Es wird hiermit behauptet, dass die korrekte semantische Interpretation (bspw. einer Situation) Wie in Abbildung 22 zu sehen ist, verfügt der Message-Layer während des Trainings des CPP-Systems über keine rekurrente Verbindung mit sich selbst. Diese wird über den „Comprehension Gestalt“-Layer realisiert. Dies führt dazu, dass sich das Netzwerk beim Herausbilden der „Message“ hauptsächlich auf den Bottom-Up-Input aus dem „Comprehension Gestalt“-Layer verlässt. Diese „indirekte Rekurrenz“ zwingt sozusagen das Modell dazu, die Informationen aus dem „Comprehension Gestalt“-Layer mit semantischem Inhalt zu integrieren. 124 Das heißt natürlich auch, dass eine Grundannahme des Modells darin besteht, dass die korrekte Semantikrepräsentation schon vor dem Verstehensprozess vorhanden sein muss. 125 Die Wortrepräsentation ist hier – wie schon erwähnt – eine andere als am Wort-Input. Hier besteht ein Wort aus Stamm und Endung, die jeweils 1-Bit-kodiert sind (wie die ganzen Wörter in den Inputvektoren der Elman-Netze). Die Endung kann entweder nicht vorhanden sein (in diesem Fall wäre lediglich ein Bit im Vektor für den Stamm aktiviert) oder -d, -ing, -ly, -n, -o oder -z lauten. 126 Da es hierfür m. E. keine zufrieden stellende Übersetzung gibt, behalte ich diesen Terminus bei. „Clamping“ kann grob als „festklemmen“ übersetzt werden. 123

- 80 -

Kapitel 3: Vorstellung und Evaluation erfolgreicher Ansätze

schon vor dem Satzverstehen vorhanden ist – sonst könnte sie nicht beim Verstehen helfen – und nicht unbedingt aus dem Hören eines Satzes heraus entsteht. Dies macht es schwierig zu rechtfertigen, wie dann abstrakte Sachverhalte kommuniziert werden können, bei denen keine konkrete Situation verfügbar ist, die implizite, für die Verstehensleistung wichtige Semantikinformationen bereitstellen könnte. Der zweite Arbeitsmodus des CPP-Systems ist die Produktion. Wenn der Message-Layer „hard clamped“ ist, das heißt die Clamping-Stärke 1 beträgt und somit der Message-Layer mit der korrekten semantischen Repräsentation bestückt ist, ist es eine wünschenswerte Eigenschaft eines Modells, dass es die entsprechende Wortform hervorbringt. Man könnte auch sagen, das Modell beschreibt die Situation, die es semantisch bereits erfasst hat. Genau das wird im Produktionsmodus nachempfunden. In der freien Produktion wird lediglich ein Start-Symbol präsentiert, und das Modell kann selbstständig damit beginnen, einen Satz zu formulieren. Da im Message-Layer die komplette Semantikrepräsentation vorliegt, wird es zuerst ein Wort vorhersagen, das den Anfang der Situationsbeschreibung darstellt. Dieses Wort wird nun wieder als nächster Wort-Input eingeschleift127, was das Modell dazu veranlassen wird, das zweite Wort im Satz vorherzusagen und so weiter. Dieser Vorgang dauert so lange bis das Netzwerk das EOS-Symbol vorhersagt (produziert) oder eine gewisse Anzahl an Wörtern erreicht ist. Mit diesem Ablauf der freien Produktion folgt Rohde (2002) einem Architekturmerkmal, das bereits in den Arbeiten von Dell und anderen (1999; 1993) benutzt wurde. Während das Netzwerk frei produziert, überwacht es sich praktisch selbst und versucht zu verstehen, was es „sagt“. Dieser Produktionsmechanismus muss nicht einzeln trainiert werden. Es genügt das Training von Verstehens- und Vorhersageleistung, die beide mit und ohne semantischen Input trainiert werden. Das CPP-System wird über zwei Target-Vektoren trainiert: einem am Message-Layer, der die korrekte Message des Satzes repräsentiert und einem zweiten, der – analog zu den ElmanNetzen – das jeweils nächste Wort im Satz repräsentiert. Auch diese Komponente wird mit dem „Backpropagation throuth time“-Algorithmus trainiert.

Hierbei ist zu beachten, dass eine gewisse Übersetzung des Wortes nötig ist, weil die Repräsentationsart der Wörter am Vorhersage-Output (Stamm, Endung) und am Wort-Input (phonologische Kodierung) unterschiedlich ist. 127

- 81 -

Kapitel 3: Vorstellung und Evaluation erfolgreicher Ansätze

Abbildung 23 zeigt das gesamte CSCP-Modell auf einen Blick. Es wird hier nochmals deutlich, dass der Message-Layer die (einzige) Verbindung zwischen dem Semantik- und dem CPP-System darstellt. Wie bereits erwähnt werden die Systeme getrennt trainiert. Das CPP-System benutzt bis Proposition Response 293

Proposition Input 300

293

Query Gestalt 500

300

Proposition Query 293

Message 500

Production Gestalt

Comprehension Gestalt 500

500

250

100

Prediction

Word Input 169

160

Abbildung 23: Ein Gesamtüberblick über das CSCP-System. Hier ist gut zu sehen, dass der Message-Layer das einzige Interface zwischen Semantik- und CPPSystem darstellt.

zu einem gewissen Grad die im Message-Layer gespeicherten Semantikrepräsentationen. Trainiert wurde das Modell mit insgesamt vier Millionen Trainingssätzen (16 Epochen à 250 000 Sätze128), die sich aus 350 Wörtern zusammensetzten. Dieser Korpus wurde mit dem sogenannten „Simple Language Generator“ (SLG) erstellt, einem Tool, das – grob gesagt – aus einem gegebenem Vokabular und gewissen Constraints (wenn man so will, den grammatikalischen Regeln) eine KunstGewichtsanpassungen werden in der Trainingsphase lediglich nach fünf aufeinander folgenden Sätzen vorgenommen (die sogenannte „batch size“ beträgt 5). Die Fehlerwerte werden über diese fünf Sätze hin akkumuliert da Änderungen nach jedem Satz dazu führen können, dass in der überaus komplexen Fehlerlandschaft zuviel Zeit darauf verwendet werden könnte, unnötige kleine Änderungen an den Gewichten vorzunehmen. Die „batch size“ darf andererseits auch nicht zu groß sein, da ansonsten zuwenige Gewichtsanpassungen vorgenommen würden.

128

- 82 -

Kapitel 3: Vorstellung und Evaluation erfolgreicher Ansätze

sprache erstellt (vgl. Rohde, 1999). Solche Kunstsprachen erreichen nicht die Komplexität natürlicher, können jedoch – insbesondere bei einer solch umfangreichen Kunstsprache wie hier – viele Merkmale nachbilden. Der Propositionen-Entwurf im CSCP-Modell

Da bereits bei der Vorstellung INSOMNets erwähnt wurde, wie wichtig es u.U. sein kann, welche Art der semantischen Repräsentation gewählt wird, soll hier der Propositionenentwurf dargestellt werden, wie er im CSCP-Modell verwendet wird. Eine Diskussion dessen wird im Evaluationsabschnitt vorgenomen. Eine Proposition besteht in Rohdes Konzeption grundsätzlich aus drei Komponenten129, die mit Inhalten aus folgenden vier semantischen Kategorien gefüllt sein können: Handlung, Beziehung, Objekt und Eigenschaft. Eine Beziehung nimmt immer die Mittelposition der Proposition ein und stellt die Verbindung dar, die zwischen den anderen beiden Konstituenten besteht (analog zum in Abschnitt 2.3.1 verwendeten Prädikat). Sinnigerweise ist anzunehmen, dass Handlungen durch Verben und Objekte durch Nomen repräsentiert werden. Doch hier muss eine scharfe Unterscheidung vorgenommen werden: Handlungen und Objekte bezeichnen lediglich die semantischen Konstituenten einer Proposition, sind sozusagen Klassifikationen semantischer Elemente. Verben und Nomen sind hingegen Bezeichnungen, die lediglich Linker Teil Handl./Obj. Handlung Handlung Handlung Handlung Handlung Handlung Handlung Handlung Handlung Handl./Obj.

Beziehungsteil Rechter Teil PROPERTY Eigenschaft AND/BUT130 Handlung IF Handlung BECAUSE Handlung WHILE Handlung ALTHOUGH Handlung SC Handlung AGENT Objekt EXPERIENCER Objekt GOAL Objekt LOCATION Objekt … EMPHASIS, RC, THAT, WHOICH, PP

auf syntaktischer Ebene angewendet werden (dürfen). Rohde (2002: 121) dazu: „It just so happens that verbs tend to be used to denote actions and nouns tend to be used to denote objects.” Außerdem ist anzumerken, dass die Ausdrücke „Handlung“ und „Objekt“ leicht missverständlich sein können. Beide sind im weiteren Sinne zu verstehen, so fallen tatsächliche, physische Handlungen (bpsw. KILL131), mentale (bspw. THINK), sensorische (bspw. SEE) oder Kombinationen

davon auch unter den Begriff der Handlung. Dasselbe gilt für die Objekte, denen auch Menschen, Tiere und Plätze (bspw. PARK) angehören. Der Beziehungsteil kodiert die semantische Relation, die zwischen erstem und drittem Teil besteht. Dieser wird lokalistisch repräsentiert, das

Daher auch die angedeutete Dreiteilung an jenen Komponenten des Modells, wo direkt Propositionen ein- oder ausgegeben werden. 130 Die AND- und die BUT-Beziehung sind in Penglish synonym. Dies geht auf einen Fehler in der Programmierung zurück, hat jedoch keinen Einfluss auf experimentelle Ergebnisse (vgl. Rohde, 2002, 121). 131 Wiederum wird die Kapitälchenschreibweise benutzt um anzuzeigen, dass es sich semantischen Gehalt handelt. 129

- 83 -

Kapitel 3: Vorstellung und Evaluation erfolgreicher Ansätze

heißt, nur eines von 25 (die Menge an semantischen Relationen, mit denen CSCP arbeitet) Bits im Mittelteil des Propositionenvektors ist aktiviert. Die Tabelle zeigt einige der semantischen Relationen, die kodiert werden können und welche Kombinationsmöglichkeiten mit Handlungen und Objekten vorhanden sind. Um Adjektiv- oder Adverbmodifikationen zu kodieren, wird die PROPERTY-Beziehung verwendet, lediglich in diesem Fall kann im rechten Teil der Proposition eine Eigenschaft stehen. Die folgenden sechs Beziehungen bringen Handlungen in verschiedenen Teilsätzen in Verbindung und sind soweit selbsterklärend: AND/BUT drückt die Beziehung zwischen zwei Hauptsätzen zum Ausdruck, IF bedeutet, dass die Handlung, die links vermerkt ist, nur dann eintreten kann, wenn jene auf der rechten Seite eintritt und so weiter. SC repräsentiert, dass die Handlung, die rechts kodiert ist, der Kopf eines Satzkomplementes für die Handlung, die links steht, ist. Alle Beziehungen von IF bis SC stellen Verbindungen zwischen einem Haupt- und einem Nebensatz her. Im dritten Abschnitt der Tabelle ist ein Auszug132 an Beziehungen dargestellt, die thematische Rollen oder thematische Beziehungen zwischen Handlungen und einer ihrer Konstituenten darstellt, außerdem können (bpsw. über die hier nicht dargestellte POSSESSION-Relation)

Beziehungen zwischen Objekten dargestellt werden. Die fünf Relationen, die in der

letzten Zeile der Tabelle dargestellt sind, stellen gewisse „Extra“-Bits dar, die in Verbindung mit einigen anderen auftauchen können. EMPHASIS kann in Verbindung mit einer der handlungsverbindenden Beziehungen verwendet werden und gibt an, ob ein Nebensatz vor oder nach einem Hauptsatz steht. Außerdem kann die EMPHASIS-Beziehung zur Markierung des Subjekts verwendet werden. Das RC-Bit wird verwendet, um in einer Handlung/Objekt-Beziehung zu markieren, dass das Verb, das die Handlung denotiert, den Kopf eines Relativsatzes bildet, der das objektdenotierende Nomen modifiziert. THAT und WHOICH zeigen zusätzlich dazu an, ob der Nebensatz mit einem „that“ oder mit einem „who“ bzw. „which“ eingeleitet wird. Wenn ein Objekt durch eine Präpositionalphrase modifiziert wird, wird das PP-Bit mit diesem Modifizierer zusammen verwendet. Objekte werden in den CSCP-Propositionen durch eine Mischung aus geteilten und einmaligen semantischen Merkmalen kodiert. 34 Bits werden hierbei im Sinne einer verteilten Repräsentation verwendet, um Eigenschaften zu kodieren, die von mehr als einem Objekt geteilt werden können. Darunter sind bspw. OBJECT, PLACE, LIVING, ABSTRACT. Die meisten Objekte „benutzen“ in diesem Abschnitt nur eines der Merkmale, ein Buch bspw. ist jedoch sowohl ein Objekt als auch ein Abstraktum. Weitere geteilte Merkmale kodieren Unterkategorien der oben genannten: VEHICLE,

HUMAN, FOOD; wieder andere kodieren auffällige Eigenschaften der Objekte: LONG,

OLD, HARD. Manche Objekte sind lediglich durch diese geteilten semantischen Merkmale defi-

132

Die vollständige Liste umfasst 13 Relationen und ist in Rohde (2002) auf Seite 122 abgebildet.

- 84 -

Kapitel 3: Vorstellung und Evaluation erfolgreicher Ansätze

niert, so wird BOY bspw. durch LIVING HUMAN SMALL YOUNG MALE repräsentiert. Andere wiederum benutzen einzigartige „Identifikationsbits“ wie bspw. ein Bit für Anwälte, Vögel oder Trompeten. Außerdem enthalten Objekte noch Bits, die bestimmte Angaben über den Typ des Objekts machen. Dazu gehören bspw. PLURAL (was ausdrückt, dass mehr als eines von diesem Objekt vorhanden ist), THIS, THAT (die ausdrücken, dass das Objekt demonstrativ spezifiziert wurde) und SOME (was anzeigt, dass das Objekt mit „some“ quantifiziert wurde). Ähnlich wie die Objekte werden auch die Handlungen semi-distribuiert repräsentiert. Vier Hauptklassen von Handlungen werden unterschieden: ACTION (für physische Handlungen), MENTAL (für Verben des Mentalen wie „denken“ oder „glauben“), SENSE (für Verben des sinnlichen Rezipierens wie „sehen“ oder „fühlen“) und STATE (für Verben, die einen bestimmten Zustand ausdrücken wie „haben“, „involvieren“ oder „bestehen“). Auch hier gibt es Wörter, die gegebenenfalls mehrere dieser Basisklassen umfassen, so fällt „fragen“ beispielsweise sowohl in ACTION als auch in MENTAL, „lesen“ in SENSE und MENTAL. Geteilte „Modifizierer-Bits“ treten gegebenenfalls zur Repräsentation hinzu, dazu gehören bspw. GIVING, GETTING, UNWILLED, SPOKEN und AFFECTING. Außerdem haben – wie bei den Objekten – viele Aktionen einzigartige Identifizierer wie BITE oder EXAMINE. Bei den Aktionen treten außerdem Bits hinzu, die den Tempus einer Aktion signalisieren (PAST, PRESENT, FUTURE, …). Auch die Eigenschaften werden (sehr bedingt) verteilt repräsentiert. GOD und BAD133 werden für Adjektive und Adverbien verwendet, die eindeutig in einem der beiden Sinne wertend verwendet werden können. Ansonsten werden die meisten Eigenschaften durch ein einzigartiges Bit kodiert. Viele dieser Eigenschaftsbits (BIG, MEAN, OLD, …) werden auch für die Kodierung von Objekten verwendet (siehe den vorletzten Absatz). Die penglische Semantik wird aus der Syntax erzeugt, die wiederum vom SLG erzeugt wird. Dadurch ist nicht nur die syntaktische Oberflächenstruktur verfügbar, sondern auch ein gewisses Maß man syntaktischer Tiefenstruktur, aus der die Semantikrepräsentationen erzeugt werden können. Die Reihenfolge der Propositionen ist insofern unwichtig, dass einige sehr syntaxnahe Informationen in ihnen stecken, die den richtigen Ort der Proposition im Satz identifizieren. Andererseits bringt das natürlich auch den Nachteil mit sich, dass man sich mit einem solchen Entwurf von Propositionen doch schon recht weit vom klassischen, sprachunabhängigen Konzept der Proposition entfernt – dazu jedoch in einem späteren Abschnitt mehr. Man könnte eine solche Kodierung in Zusammenhang mit der Osgoodschen Theorie der Semantischen Differentiale bringen, wo Wörter (nicht nur Adjektive und Adverbien) im Hinblick auf einige ausgewählte Eigenschaften hin von Vpn bewertet werden sollen und so ein Raum aufgespannt werden kann, in dem verschiedene Wörter gegeneinander verortet werden können (vgl. Osgood et al., 1967). Hierbei können die Bewertungen in drei übergeordnete Kategorien eingeordnet werden: Evaluation (gut/böse), Stärke (stark/schwach) und Aktivität (aktiv/passiv). Auch in neueren Studien (vgl. bspw. Reik & Skrandies, 2006) wird diese Methode noch angewandt.

133

- 85 -

Kapitel 3: Vorstellung und Evaluation erfolgreicher Ansätze

3.2.2. Evaluation: Allgemeine Leistungsmaße Zunächst soll angemerkt werden, dass bei der Performanz bei bekannten (also im Trainingsset enthaltenen) und neuen Sätzen keinerlei signifikanter Unterschied festzustellen ist (Rohde, 2002: 161f). Das Modell scheint also keinesfalls die Trainingssätze memoriert zu haben, vielmehr hat es die für konnektionistische Modelle typische Generalisierungsleistung gezeigt. Auch Rohde (2002) setzte verschiedene Kriterien zur Auswertung an, hier sollen hauptsächlich die Ergebnisse für das „strict criterion“ besprochen werden, bei Abbildung 24: En- und Dekodierungsleistung des SemantikSystems des CSCP-Modells (aus Rohde, 2002: 158).

dem die Aktivationswerte aller jeweils überprüften Knoten auf der „richtigen“ Seite von 0,5 liegen müssen (darüber für „an“, darunter für „aus“)134. Die Performanz des CSCP-Modells lässt sich am besten durch eine getrennte Betrachtung der einzelnen Komponenten analysieren. Abbildung 24135 zeigt den Prozentsatz von falschen Antworten am „Proposition Response“-Layer während das Se-

Abbildung 25: Verstehensleistung des gesamten CSCP-Netzwerks (aus Rohde, 2002: 158).

mantik-System versucht, eine semantische Gesamtrepräsentation eines Satzes

(die „Message“) im Message-Layer aufzubauen und dazu über den Anfragelayer befragt wird. Es ist zu sehen, dass die Leistung des Netzwerks in den ersten Trainingsepochen rapide zunimmt (bzw. der Fehler rapide sinkt) und nach 38% Fehlerrate nach einer Epoche ungefähr eine Fehlerrate von 11,8% nach 16 Epochen erreicht (2,9 % für das Multiple-Choice-Kriterium). Doch dieses Schaubild zeigt lediglich die Leistung des Netzwerks beim Erstellen der „Message“ und beim Außerdem gibt es noch das sog. „multiple-choice criterion“, bei dem die Aktivation der jeweiligen Knoten am nächsten zur korrekten Antwort liegen muss – im Vergleich zu vier „Distraktoren“, die derselben semantischen Klasse angehören wie die korrekte Antwort. Wenn also die korrekte Antwort ein Objekt ist, sind auch die vier Distraktoren Objekte, wenn möglich solche, die im selben Satz vorkommen. 135 In den folgenden Abbildungen sind immer drei Linien knapp übereinander abgetragen. Diese stammen von verschiedenen Netzwerken („Adam“, „Bert“ und „Chad“), die Rohde (2002) getrennt voneinander trainiert und getestet hat. Da jedoch keine signifikanten Unterschiede entstehen, wird hierauf nicht mehr eingegangen. 134

- 86 -

Kapitel 3: Vorstellung und Evaluation erfolgreicher Ansätze

Beantworten der Anfragen. Interessant(er) ist jedoch die Verstehensleistung, bei der das Netz den Satz liest oder hört und daraus eine „Message“ extrahieren muss. Danach kann die Leistung durch denselben Anfragemechanismus analysiert werden. Idealerweise würde das Verstehenssystem natürlich dieselben Repräsentationen herausbilden wie das Kodier-System. Doch der Umweg über die syntaktische Oberflächenform ist doch etwas zu weit, um dieses Ziel zu erreichen. Trotzdem zeigt sich ein ähnliches Bild für die Verstehensleistung (siehe Abbildung 25). Setzt man das strenge Kriterium an, macht das Modell nach einer Epoche noch in 55,4% (Multiple-Choice: 28,1%) der Fälle einen Fehler, nach 16 Epochen noch immer in 22,8% (7,8%) der Fälle. Doch wie so oft sind diese sehr allgemeinen Leistungsmaße wenig aussagekräftig. Es wird eine detailliertere Analyse brauchen um die Leistung des Netzwerks zu analysieren. Diese soll im Folgenden vorgestellt werden, beginnend mit einer Betrachtung der Fehlermuster bei steigender Anzahl an Propositionen pro Satz (siehe Abbildung 26). Das Modell macht mit ansteigender Anzahl an Propositionen pro Satz mehr Fehler – was wenig überraschend ist. Interessanterweise sinkt die Leistung des „Comprehension“-Systems jedoch nicht durchgehend, sondern erst ab 2-propSätzen136. Die Leistung bei 1-prop-Sätzen ist sogar noch schlechter als jene bei 3-prop-Sätzen. Dieses Fehlermuster ist lediglich bei Maßgabe des strengen Kriteriums zu beobachten. Um dies zu erklären muss tiefer in die Frequenzen im Korpus137 eingestiegen werden: Der Fehler für 1-prop-Sätze wird hauptsächlich durch die Verarbeitung von intransitiven Sätzen hervorgerufen, die für das CSCP-Modell offensichtlich schwerer zu verarbeiten sind als transitive 2-propSätze138 (vgl. Rohde, 2002: 166f). Dies erscheint zunächst kontraintuitiv, beruht Abbildung 26: Leistung des Netzwerks nach dem strengen Kriterium im Zusammenhang mit der Anzahl der Propositionen pro Satz. Das obere Schaubild zeigt die Enkodierungs- das untere die Verstehensleistung (aus Rohde, 2002: 160).

jedoch auf den Frequenzmustern von transitiven und intransitiven Verben im Korpus. Es gibt kaum Verben, die keine

transitive Lesart haben (also obligatorisch intransitiv sind). Die größte Gruppe (25) bilden jene Verben, die optional transitiv sind, und bei über der Hälfte dieser Verben (16) ist die transitive

Dieser Terminus wird von Rohde (2002) übernommen. Hierbei gibt die Zahl vor „prop“ die Anzahl der Propositionen an, die die semantische Interpretation des Satzes umfasst. 137 Die Frequenzen des Trainingskorpus wurden anhand des „Penn Treebank“-Korpus (vgl. Kingsbury et al., 2002; M. P. Marcus et al., 1994; M. P. Marcus et al., 1993) berechnet. 138 Sätze mit einem transitiven Verb benötigen mindestens zwei Propositionen. Eine für die Beziehung zwischen Agent und Verb und eine für die Beziehung zwischen Patient und Verb. 136

- 87 -

Kapitel 3: Vorstellung und Evaluation erfolgreicher Ansätze

Lesart die üblichere. Ein prototypischer Satz für dieses Problem ist „Die Mutter sah.“ – was geschieht nun während des Verstehensprozess im CSCP-Modell? Die Wortkette „Die Mutter sah“139 wird eingelesen, im Message-Layer wird eine entsprechende Repräsentation davon aufgebaut und da das Netzwerk auch bestimmte Erwartungsmuster mit in die Verarbeitung einbezieht, wird es höchstwahrscheinlich eine Fortsetzung des Satzes in einem transitiven Sinne erwarten. Es wird also eine Repräsentation in diesem Sinne herausbilden und als nächstes Wort das EOSSymbol lesen, was für das Modell bedeutet, dass es seine Interpretation schnell und abschließend ändern muss – es steht also zu vermuten, dass dieser eine Zeitschritt zu wenig für das Modell ist, um von einer transitiven zu einer intransitiven Lesart zu wechseln. Unterstützung für diese Erklärung, warum intransitive Sätze schwieriger sind, liefert das Wort „bellen“, das obligatorisch intransitiv ist und bei dem diese Fehlermuster nicht zu erkennen sind. Ebenfalls weniger Probleme hat das Netzwerk mit Sätzen wie dem obigen, die jedoch von einem Modifizierer beendet werden, hier hat das Netzwerk offenbar genug Zeit, die Interpretation des Satzes von einer transitiven zu einer intransitiven zu transformieren. Doch all diese Ausführungen sollten lediglich erklären, warum das Netzwerk beim Verstehensprozess von 1-prop-Sätzen im Vergleich zu 2- und 3prop Sätzen so schlecht abschnitt – zurück zur abfallenden Performanz bei Sätzen mit mehr Propositionen. Dies scheint ein Problem der semantischen Kapazität zu sein, denn bei 8-propSätzen ist sowohl die Leistung des Verstehens- als auch des Kodierungsprozesses relativ dürftig. Ein kleiner Blick soll auch auf die „Lesezeiten“ des CSCP-Modells geworfen werden. Diese Lesezeiten werden über die „Simulated Reading Time“ (SRT) approximiert, die jedoch weit von einem tatsächlichen, realen Lesezeitenmaß entfernt ist. In die SRT gehen einerseits die Vorhersagefehler für Stamm und Endung ein (wir erinnern uns, dass am Prediction-Layer eine Vorhersage für Stamm und Endung des nächsten Wortes herausgebildet wird). In gewisser Weise spiegelt dieses Maß die lexikalische Häufigkeit (sowohl auf den ganzen Korpus als auch auf den bisherigen Satzkontext bezogen) des jeweiligen Stammes und der jeweiligen Endung wider. Ein weiteres Maß, das in die SRT eingeht, ist die Veränderung im Message-Layer, die durch ein bestimmtes Wort ausgelöst wurde140. Diese Veränderung der augenblicklichen Message umfasst wohl mehrere Faktoren außer der Veränderung der semantischen Repräsentation: Die Einfachheit der semantischen Integration der Bedeutung des augenblicklichen Wortes sowie die eventuelle Aufrechterhaltung paralleler Interpretationsarten und Kohärenzebenen des Satzes141. Außerdem dürften

Wohlbemerkt fehlt hier noch der Punkt, das EOS-Symbol, das auch hier die Rolle eines zusätzlichen „Wortes“ spielt. 140 Dies ist die euklidische Distanz der Zustände im Repräsentationsraum des Message-Layers vor und nach dem „Lesen“ oder „Hören“ des augenblicklichen Wortes. 141 Außerdem kann – dies wird von Rohde (2002) jedoch nicht so formuliert – die Veränderung der Message wohl auch als ein Maß der Entropiereduktion gesehen werden. 139

- 88 -

Kapitel 3: Vorstellung und Evaluation erfolgreicher Ansätze

auch Kapazitätsbeschränkungen des Message-Layers eine Rolle spielen. Die letzte Komponente, die Einzug in die SRT hält, ist die durchschnittliche Aktivation des Message-Layers. Dies ist insofern plausibel, dass der Message-Layer des CSCP-Modells die Eigenschaft hat, dass die Aktivation im Verlauf eines Satzes immer höher wird – die Repräsentation wird also, im Hinblick auf alle Units des Message-Layers, immer dichter. Es ist anzunehmen, dass sich die Komplexität und Dichte der Message-Repräsentation, ausgedrückt durch den durchschnittlichen Aktivierungsgrad, negativ zur Flexibilität der Repräsentation verhält: Je komplexer die Repräsentation, desto mehr muss bei der Restrukturierung darauf geachtet werden, dass alte Information nicht verloren geht – dies kann unter Umständen auch Zeit kosten. Der Wortstamm-Vorhersagefehler geht zu 22% in die Berechnung der SRT mit ein, der Endungsvorhersagefehler zu 3%142, die Veränderung der Message zu 50% und die durchschnittliche Aktivation des Message-Layers zu 25%. Es ist offensichtlich, dass diese „simulierten Lesezeiten“ lediglich eine grobe Nährung an tatsächliche Lesezeiten darstellen und einige Annahmen voraussetzen, die nicht explizit im Modell stecken – außerdem ist das Maß natürlich näher an Komplexität als an Lesezeit, zwei Konstrukte zwischen denen jedoch leicht eine gewisse Verbindung angenommen werden kann. In Abbildung 27 sind die SRTs für transitive und intransitive Sätze zu sehen. Das höhere SRTMaß beim EOS-Signal des intransitiven Satzes bestätigt die Vermutung, warum intransitive Sätze überraschenderweise schwieriger für das Modell sind als intransitive – dafür spricht insbesondere auch die eindeutig erhöhte Veränderung der Message (die ja zu 50% in die SRT eingeht) am Satzende. Interessant ist die Abbildung 27: SRT sowie die konstituierenden Maße für transitive und intransitive Sätze (aus Rohde, 2002: 184). Die Maße wurden über eine Vielzahl an Sätzen gemittelt, die Sätze unter den Schaubildern sind lediglich repräsentativ für die Klasse von Sätzen.

Entwicklung

der

durchschnittlichen

Message-Aktivation, die bei den intransitiven Sätzen eindeutig gegen Ende des Satzes zurückgeht. Es ist davon auszuge-

hen, dass das Modell den Message-Layer bereits so organisiert hat, dass komplexere Konstruktionen repräsentiert werden können. Mit dem EOS-Symbol ist jedoch klar, dass der Satz in seiner einfachsten Form vorliegt und die Repräsentation der Message vereinfacht werden kann (das heißt nicht so dicht repräsentiert werden muss). Im Schaubild sind auch die Peaks für die Vor-

M.E. wurde die Endung lediglich zu 3% in die Rechnung mit einbezogen weil die Fehler oft „violent spikes“ (Rohde, 2002: 183) in den Schaubildern (ebd., 184) verursachen. Würde der Vorhersagefehler stärker in das SRT-Maß mit eingehen würde wohl in einigen Fällen die SRT „explodieren“.

142

- 89 -

Kapitel 3: Vorstellung und Evaluation erfolgreicher Ansätze

hersagefehler der Wortendung zu sehen, die m. E. nicht ausreichend aufgeklärt sind (und evtl. auch aus diesem Grund nur eine kleine Rolle bei der Errechnung der SRT spielen). Betrachten wir nun noch die simulierten Lesezeiten für endrekursive und zentral eingebettete Relativsätze. Abbildung 28 zeigt zwei Graphen, (a) für einen endrekursiven Objektrelativsatz und (b) für einen zentral eingebetteten Subjektrelativsatz. Wir sehen, dass die Vorhersage des Hauptverbs (im Beispiel: „knew“) insbesondere in Fall (b) sehr schwierig ist. Der Vorhersagefehler für Stamm und insbesondere wieder die Endung ist extrem hoch, was darauf schließen lässt, dass das Netz Probleme damit hat, den Agenten für das Verb zu finden – wiederum ist davon auszugehen, dass die Distanz zwischen Agent und Verb (dazwischen liegen vier Wörter) ausschlaggebend hierfür ist. Interessanterweise ist das Maß für die Message-Veränderung in beiden Fällen für das „that“ am höchsten – was vermuten lässt, dass das Modell sich auf einen nun folgenden Relativsatz „vorbereitet“ (vgl. Rohde, 2002: 183) – evtl. durch eine Reorganisation der bisher aufgebauten Message um den folgenden Relativsatz darin „unterzubringen“. Folgt man der (unbestätigten aber wahrscheinlichen) Hypothese, dass die durchschnittliche Aktivation des Message-Layers die Dichte der Repräsentation widerspiegelt, sollte man jedoch davon ausgehen, dass sich dies insbesondere bei einem zentral eingebetteten Relativsatz bemerkbar macht, da in diesem Fall Informa-

Abbildung 28: Die simulierten Lesezeiten sowie die konstituierenden Maße für (a) rechtsrekursive Objektrelativsätze und (b) zentral eingebettete Subjektrelativsätze (aus Rohde, 2002: 186f).

tionen (bspw. der Numerus des Nomens) über weite Distanzen im Satz aufrecht erhalten werden müssen. Die Vermutung ist nicht richtig, die durchschnittliche Aktivation im Message-Layer nimmt während des eingebetteten Relativsatzes nicht zu, sondern bewegt sich auf einer Ebene. Zwei Erklärungsmöglichkeiten wären hierfür denkbar: Einerseits ist es möglich, dass die durchschnittliche Aktivation des Message-Layers eben nicht das geeignete Maß für die Komplexität der semantischen Repräsentation ist. Andererseits wäre es auch möglich, dass sich bei einer zusätzlichen Einbettungsebene doch noch ein Effekt zeigt. Mit Einbettungsarten (endrekursiv vs. zentral eingebettet) und Bezugnahme (Subjekt- vs. Objektrelativsätze) beschäftigt sich Rohde (2002) in

- 90 -

Kapitel 3: Vorstellung und Evaluation erfolgreicher Ansätze

Kapitel 11 (235ff) seiner Arbeit. Diese Ergebnisse sind zwar ebenfalls hochinteressant, jedoch nicht mehr in diesem Rahmen vorzustellen.

3.2.3. Evaluation: Umgang mit Ambiguitäten Wie geht das CSCP-Modell mit Ambiguitäten um? Dies wird im Bereich der Präpositionalphrasenanbindung gezeigt werden. Versteht die CSCP-Architektur Sätze der Art „Der Spion sieht den Polizisten mit dem Fernglas.“ um? Im Verstehensprozess wird sich das Modell wohl oder übel für eine Interpretationsart entscheiden müssen: Hat der Spion das Fernglas oder der Polizist? Wird also die Präpositionalphrase modifizierend an das letztgenannte Nomen gebunden oder in instrumenteller Lesart an das Verb des Satzes? Nochmals soll kurz auf die vielfältigen Ebenen von Wahrscheinlichkeitsverteilungen eingegangen werden, die alle gemeinsam die Entscheidung für eine bestimmte Interpretation beeinflussen: (1) Die insgesamt gesehene Wahrscheinlichkeit für eine bestimmte Präposition, dass sie ein Verb oder Nomen modifiziert, (2) die insgesamt gesehene Wahrscheinlichkeit dafür, dass eine bestimmte Präposition eine bestimmte thematische Rolle einleitet (hier das „mit“ die Rolle „Besitz“ oder „Instrument), (3) die Wahrscheinlichkeiten für verschiedene Nomen und Verben von bestimmten Präpositionalphrasen modifiziert zu werden (gegeben ein bestimmtes Wort oder eine bestimmte thematische Rolle). Diese Aufzählung ist bei weitem nicht vollständig, die Menge der Frequenzverteilungen im Korpus und somit der Wahrscheinlichkeitsverteilungen, die alle Ausschlag gebend sind für die Entscheidung für eine und gegen eine andere Interpretation, ist unüberblickbar. Eine überaus interessante Frage ist auch für Rohde (2002: 182): „Is it [= the model, S.W.] able to resolve attachments that are only disambiguated by the object of the proposition”? Ein Beispiel hierfür wäre freilich der Satz „Der Spion sah den Polizisten mit einem Revolver.“ wo der Revolver eben kein geeignetes Instrument des Sehens darstellt. Die syntaktische Oberflächenform jedoch ist dieselbe wie in syntaktisch global ambigen Sätzen, die sich auch durch die Semantik nicht zweifelsfrei auflösen lassen (bspw. einer der Beispielsätze bei Mayberry, 2003: „Der Junge schlägt das Mädchen mit der Puppe.“). Ob das CSCP-Modell semantische Informationen zur Auflösung von globalen Ambiguitäten ausnutzen kann143, kann aufgrund des Anfrage-Mechanismus relativ leicht überprüft werden, indem man dem Netz einfach die Frage stellt (also den Teil der Anfrage-Proposition frei lässt, der

Hier muss einschränkend angemerkt werden, dass es sich hier nicht um so etwas wie „Weltwissen“ handelt, auf das das Modell zurückgreift. Das Modell „weiß“ also nicht, dass man Revolver nicht als Instrument des Sehens verwenden kann und warum, sondern schließt dies aus Frequenzen, also wie oft und wann Wörter im Korpus gemeinsam auftauchen. Letztlich kommt es auf die Definition von (Welt-)Wissen an, ob man ein detailliertes Wissen von Koinzidenzen auf vielerlei Ebenen auch als „Weltwissen“ gelten lassen will. Eine Möglichkeit wäre Weltwissen als Struktur zu begreifen, die das Ziehen von Brückeninferenzen ermöglicht.

143

- 91 -

Kapitel 3: Vorstellung und Evaluation erfolgreicher Ansätze

die Antwort enthalten soll), was denn das Objekt144 der Präposition modifiziert – die mögliche Antwort ist entweder die Aktion („sehen“) oder das direkte Objekt („Polizist“) des Satzes. Abbildung 29 visualisiert die Probleme, die das Modell für verschiedene Arten dieser Sätze hat. Als „unambiguous“ gelten Sätze, die über die Präposition desambiguiert werden. Das heißt, dass in ihnen Präpositionen vorkommen, die im Penglischen entweder NPs oder VPs modifizieren können, nicht aber beide. Beispiele für Präpositionen, die lediglich NPs modifizieren können, wären „by“ und „of“, für VPs sind es „to“ und „in“ (vgl. Rohde, 2002: 182). Sowohl für nicht-ambige VP- als auch NPModifikationen ist die Leistung des Modells überaus überzeugend (ein Fehler von 0,5% für die VP-Bedingung und 4% für die NPBedingung). Das Modell scheint eine leichte Abbildung 29: Fehlermuster des CSCP-Modells bei der Anbindung einer satzendständigen PP für nicht ambige, lokal ambige und global ambige Sätze (aus Rohde, 2002: 183).

Präferenz für die VP-Anbindung zu haben, worauf der kleinere Fehler hindeutet. Erwartungsgemäß sind die Fehler für lokal

ambige Sätze (also jene, die mit der letzten NP semantisch desambiguiert werden) höher, doch ein vollständiger Einbruch der Performanz ist nicht festzustellen. Für global ambige Sätze ordnet das Netzwerk in noch etwa 74% der Sätze die PP dem richtigen Satzteil zu. Nun haben es global ambige Sätze per definitionem nun mal so an sich, dass sie keine „korrekte“ Anbindungsart haben, man kann sich also fragen, inwiefern hier überhaupt ein Fehlermaß zugewiesen werden kann. Auch hier war es der Fall, dass die Sätze offensichtlich in beide Richtungen interpretiert werden konnten, allerdings aufgrund der Frequenzverteilungen im Korpus eine Lesart bevorzugt werden kann – diese wurde als die korrekte angenommen145. Nebenbei bemerkt können hier Fehler nicht nur auf eine falsche Anbindung zurückgehen, sondern beispielsweise auch auf die Beantwortung mit einem falschen Objekt oder einer falschen Aktion. Offensichtlich scheint das Netzwerk in der Lage zu sein, mit sowohl global als auch lokal ambigen Sätzen umzugehen. Im ersten Fall nutzt es (u.U. sehr) schwache statistische Hinweise über

„Objekt“ ist in diesem Zusammenhang nicht syntaktisch zu interpretieren, sondern bezieht sich auf den Propositionenkonstituenten, wie er im entsprechenden Abschnitt besprochen wurde. 145 Dies wäre beispielsweise die instrumentelle Lesart der Präpositionalphrase im Satz „Der Spion sieht den Polizisten mit dem Fernglas.“. Hier kann das Fernglas zweifelsohne auch im Besitz des Polizisten sein, eine zuverlässige semantische Desambiguierung ist nicht möglich (wie es beispielsweise bei Ersetzung von „Fernglas“ durch „Revolver“ der Fall wäre), weshalb dieser Satz nicht als lokal, sondern als global ambig eingestuft wurde. 144

- 92 -

Kapitel 3: Vorstellung und Evaluation erfolgreicher Ansätze

Verteilungen im Korpus, im zweiten macht es sich semantische Informationen für die Auflösung von strukturellen Ambiguitäten zu Nutze.

3.2.4. Zusammenfassung und Kritik Das CSCP-Modell Rohdes (2002) tritt als ein umfassendes Erklärungsmodell auf der satzsemantischen Ebene an. Offensichtlich ist es in der Lage, Schlüsselaspekte der semantischen Verarbeitung zu simulieren146 und mit der Kenntnis von semantischem Gehalt bestimmte Probleme zu lösen147. Wir sehen jedoch wiederum, dass die Konstruktion der semantischen Repräsentationen, mit der das Modell arbeitet, hochkomplex ist. Dabei bleibt wiederum die Rolle ungeklärt, die die Propositionen in ihrer verwendeten Form bei der Lösung des Problems spielen. Die Frage, die man sich stellen muss, ist diese: Würde es diese Architektur auch schaffen, die ihr gestellten Aufgaben zu bewältigen wenn die semantischen Repräsentationen anders aussehen würde? Und folgerichtig muss man sich fragen: Wenn schon – unterstellen wir das einmal – die semantischen Repräsentationen eine solch wichtige Rolle spielen, welche Probleme könnte es mit dieser Art von Propositionen geben? Zunächst einmal kommen sie im Gewand der klassischen Propositionen daher – mit einer Prädikat-Argument-Struktur. Das Prädikat ist hier der Mittelteil der Proposition, der die beiden Außenteile (die Argumente) miteinander verbindet. Doch wie viel bleibt vom klassischen Propositionenbegriff noch übrig, wenn wir ins Detail blicken? Ein Grundsatz, der sich für Propositionen praktisch aus der Natur der Sache ergibt, ist, dass Propositionen syntaxunabhängig sind. Propositionen sind rein semantische Repräsentationsvehikel, die per definitionem keine syntaktische Information beinhalten. Dies ist nicht der Fall bei den Propositionen, mit denen das CSCP-Modell arbeitet. Syntaktische Informationen finden hier bereits im wichtigen Mittelteil Einzug, insbesondere durch die Zusatzbits EMPHASIS, RC, THAT, WHOICH und PP. Ersteres gibt bspw. an ob ein Nebensatz vor oder nach einem Hauptsatz steht – eine Information, die in Propositionen nicht von Bedeutung ist148. Das RC-Bit ist rein syntaktisch zu interpretieren149, das WHOICH-Bit auf jeden Fall nur auf die Wortform bezogen (nämlich ob ein Nebensatz mit einem „that“ oder mit einem „who“ bzw. „which“ eingeleitet wird). Auch das PP-Bit, das zusammen mit einem Modifizierer angibt, ob dieser ein Objekt durch eine PP modifiziert, ist rein syntaktisch zu interpretieren. Auch wenn man über die seltsame Unterscheidung zwischen geteilten und einzigartigen seNur ein Bruchteil der durchgeführten Simulationen wurde referiert. Der Genauigkeit halber bleibt anzumerken, dass der Fokus des CSCP-Modells auf der Integration von Verstehen und Produktion (und nicht ausschließlich auf semantischer Verarbeitung) liegt. Diesem Fokus sind viele Merkmale der Architektur und der Simulationen geschuldet. 148 Sicherlich ist es mit architektonischen Gründen zu erklären warum es ein solches Bit gibt. Dies erklärt jedoch nicht die Verletzung der theoretischen Grundannahmen zum Begriff der Proposition. 149 Zur Erklärung des RC-Bits vgl. Abschnitt 3.2.1. 146 147

- 93 -

Kapitel 3: Vorstellung und Evaluation erfolgreicher Ansätze

mantischen Merkmalen in der Objekt-Semantik hinwegsieht, trifft man auch hier auf syntaktische Informationen wie beispielsweise das THIS- oder THAT-Bit, die ausdrücken ob ein Objekt demonstrativ spezifiziert wurde. Offenbar wurde dieses Bit in die semantische Repräsentation aufgenommen, um bei der Produktion der Wortform den exakt richtigen Satz zur jeweiligen semantischen Information zu erhalten. Die Frage, die man sich in diesem Zusammenhang stellen kann, ist, wie wichtig es der/dem jeweiligen ForscherIn ist, dass das Modell exakt den Satz produziert, der eine gegebene semantische Repräsentation (wenn man so will: eine dargebotene Situation) perfekt beschreibt. Versteht man eine semantische Repräsentation als die Repräsentation einer wahrgenommenen, strukturierten Situation, wird auch deutlich wie problematisch die Aufnahme eines rein syntaktisch zu interpretierenden RC- oder PP-Bits in den Propositionenentwurf wird. Wie soll ein/e RezipientIn aus einer Situation eine solche Information extrahieren? Dies würde in letzter Konsequenz bedeuten, dass man – sobald man eine Situation „verstanden“ hat – auch schon syntaktische Aspekte von Sätzen „mitdenkt“, die diese Situation beschreiben. Auch bei der Kodierung der Aktionen fließen syntaktische Aspekte mit ein, hier in Form der Tempus-Bits PAST, PRESENT, FUTURE und so weiter. Hier wird ein anderer Aspekt des Prinzips der sprachlichen Unabhängigkeit von Propositionen verletzt, denn hier werden auch TempusAspekte durch eigene Bits kodiert, die typisch für das Englische sind (bspw. SIMPLE, CONTINUOUS, PERFECT)

150

.

Bleiben wir bei den Propositionen, muss außerdem angemerkt werden, dass die Erstellung dieser semantischen Repräsentationen komplett „von außen“ erfolgt. Die Semantik des Penglischen ist praktisch schon fertig – das Modell also bloßer Konsument von vorgefertigten Repräsentationen151. Reizvoller wäre die Idee, es zu schaffen, ein Modell zu erstellen, das seine „eigene“ Semantik entwickeln kann, auch unter Zuhilfenahme der Sprache. Aus architektonischer Sicht muss zum CSCP-Modell noch angemerkt werden, dass der Anfrage-Mechanismus („Query“) zwar für das Training und diverse Testverfahren gut geeignet scheint, jedoch auf theoretischer Ebene als überaus fragwürdig einzustufen ist. Ursprünglich wurde dieser Mechanismus implementiert, um den Problemen mit sogenannten „proposition banks“ zu entgehen (vgl. Rohde, 2002: 129f), bei denen eine Reihe von Slots bereit steht, die durch Propositionen ausgefüllt werden können. Ein 4-prop-Satz würde hierbei die ersten vier Slots der „bank“ ausfüllen, die restlichen würden leer bleiben. Das Problem liegt auf der Hand: Ein Satz dürfte nur so-

Dies stellt Rohde (2002: 123) auch selbst fest: “Specifying these latter distinctions as such may be a bit too specific to the encoding of English semantics as opposed to the semantics of other languages”. Diese Informationen sind eindeutig dem Fokus auf die Sprachproduktion geschuldet. 151 Zugegebenermaßen erstellt das Modell noch die komprimierte Message des Satzes, doch die Ausgangspunkte sind von außen komplett vorgegeben. 150

- 94 -

Kapitel 3: Vorstellung und Evaluation erfolgreicher Ansätze

viel Propositionen umfassen, wie die Größe der „proposition bank“ maximal ermöglicht152. Auch wenn hier der Anfrage-Mechanismus einen Ausweg bietet, muss jedoch auf die theoretisch fragwürdigen Aspekte hingewiesen werden. So ist kein unmittelbar einsichtiges Korrelat in der semantischen Verarbeitung beim Menschen denkbar, das einen solchen Mechanismus rechtfertigen würde – dies wäre noch eher der Fall wenn diese Queries über die Oberflächenform realisiert würden, d.h. „echte“ Fragen in Form von Interrogativsätzen möglich wären. Die letzte Anmerkung zielt eher auf die Komplexität des Modells. So muss – ebenso wie bei Mayberrys INSOMNet – darauf hingewiesen werden, dass die Zahl der freien Parameter überaus unübersichtlich ist. Nur einige Fragen sollen dies verdeutlichen: Inwieweit würde es die Kompetenz des Modells beeinflussen wenn die Konstellation der Lernalgorithmen verändert würde? So wird beispielsweise das Semantiksystem bis zum Message-Layer mit einem klassischen Backpropagation-Algorithmus trainiert, von dort aus bis zum Propositionen-Input durch Backpropagation through time. Welchen Einfluss hätten minimale Veränderungen in den Propositionen – beispielsweise durch Weglassen der syntaktischen Komponenten, die sich ja oft nur auf ein Bit beziehen? Auch der Aufbau des Trainingsmaterials wirft Fragen auf: Würde es eine signifikante Veränderung der Modellperformanz bedeuten wenn man die „batch size“ (vgl. Abschnitt 3.2.1) verändert? Welchen Einfluss hat die unterschiedliche Gestaltung (die unterschiedlichen Werte des Parameters) des sogenannten „clampings“? Alle angesprochenen Konstrukte stellen freie Parameter (vgl. hierzu auch Abschnitt 1.1.4 der vorliegenden Arbeit) dar, die u.U. dazu führen könnten, dass das Modell „überanpassbar“ (bzw. zu mächtig) ist, was bedeuten würde, dass die Aussagekraft nur mehr mäßig ist. An dieser Stelle kann nur folgende Einsicht daraus entstehen: Sicherlich ist mit Kognitiver Modellierung auch immer ein gewisser Drahtseilakt auf dem schmalen Grat der notwendigen Anpassungsfähigkeit und dem überbordenden Gebrauch freier Parameter verbunden. Auch (und evtl. insbesonders) im konnektionistischen Paradigma muss als vordringliches Ziel die Einschränkung der Zahl dieser frei adjustierbaren Parameter gelten.

3.3. Erste Zielsetzungen Beide Modelle setzen ein hohes Maß an vorkodiertem, semantischem Inhalt (Propositionen) voraus. INSOMNet vertraut auf MRS-Strukturen, die semantische Baumdarstellungen flach repräsentieren; das CSCP-Modell setzt Propositionen ein, die parallel zum syntaktischen Input erzeugt sind. Es ergibt sich ein erstes Arbeitsziel: Der Einsatz von vorgefertigten, „handkodierten“

Es würden außerdem noch weitere Probleme entstehen, bspw. die Generalisierung betreffend. Das Modell würde im ungünstigsten Fall eine Proposition, die in einem Slot steht, nicht als dieselbe erkennen wenn sie einen anderen Slot ausfüllt. 152

- 95 -

Kapitel 3: Vorstellung und Evaluation erfolgreicher Ansätze

semantischen Stimuli muss auf ein Minimum reduziert werden. Welche Probleme mit dem Bereitstellen von expliziten semantischen Repräsentationen verbunden sind, wurde mehrfach angesprochen. Wie überaus wichtig die Konzeption der verwendeten Repräsentationen ist, zeigt sich auch an dem in Abschnitt 1.1.4 der vorliegenden Arbeit formulierten Grundsatz, dass ein Modell immer ein Funktion der verwendeten Repräsentationen und den modellierten Prozessen darstellt. Erste Ideen, wie diesem „Dilemma“ aus dem Weg gegangen werden könnte sollen im folgenden Kapitel vorgestellt werden. Zweites Ziel muss die Erstellung eines möglichst einfachen Modells sein, um die überbordende Zahl der freien Parameter in den Griff zu bekommen und sich nicht dem Vorwurf der Überanpassbarkeit auszusetzen.

- 96 -

Kapitel 4: Ein neuer Ansatz zu semantischer Verarbeitung in konnektionistischen Netzwerken

4. Ein neuer Ansatz zu semantischer Verarbeitung in konnektionistischen Netzwerken 4.1. Anmerkungen Die in diesem Kapitel formulierten Ideen und ersten Ansätze stellen eine vorläufige Sammlung dar, weshalb dieses Kapitel als eine Art „Werkstattbericht“ verstanden werden sollte. Seit Anfang des Sommersemesters 2006 wurden im Rahmen eines psycholinguistischen Forschungsseminars in der Abteilung Kognitionswissenschaft an der Universität Freiburg zu diesem Thema erste Ideen entwickelt, probeweise Trainingsmaterialien erstellt und verschiedenste Architekturvorschläge erarbeitet, wieder verworfen, wieder aufgenommen, wieder überarbeitet und so weiter. Die hier vorgestellte Architektur versteht sich als eine Idee, die aus den oben genannten Zielsetzungen abgeleitet wurde. Noch befinden wir uns im Bezug auf das Modell in der Orientierungsphase, in der Vor- und Nachteile gegeneinander abgewogen und technische Realisierungsmöglichkeiten ausgelotet werden.

4.2. Theoretische Ausgangspunkte 4.2.1. Architektur Gespeist aus den beiden Zielsetzungen ‚Einfachheit der Architektur’ und ‚keine vorgefertigten, semantischen Repräsentationen’ ergeben sich theoretische Ausgangs- und Anknüpfungspunkte, die in diesem Abschnitt skizziert werden sollen. Was eine einfache und was eine komplexe Architektur ist, ist sicherlich schwer zu entscheiden – die Grenzen können fließend sein. Die augenblickliche Idee besteht darin, ein möglichst einfaches Netzwerk, ein SRN, um einen „semantischen Teil“ zu ergänzen. Das Simple Recurrent Network wird sozusagen zum Simple Semantic Recurrent Network. Dies wird dadurch erreicht, dass der Input- und Output-Bereich um einen zusätzlichen Vektor153 ergänzt wird, der die semantische Information trägt. Wichtig ist hierbei, dass beide Arten von Information wieder im Hidden-Layer integriert werden. Die (unerwünschte) Alternative wäre, dass beide Bereiche, Syntax und Semantik154, getrennte Hidden-Layer hätten, was im Grunde zu zwei unabhängig voneinander agierenden Netzwerken führen würde.

Im Grunde wird der Vektor, der die syntaktische Information trägt, um einen weiteren Vektorbereich erweitert, der die semantische Information trägt. Diese beiden Vektorbereiche sollen jedoch als zwei getrennte Vektoren betrachtet werden, da es das Verständnis des Modells erleichtert. 154 Syntax wird hier synonym zu oberflächlichem Sprachinput verstanden. Dieser enthält nicht nur syntaktische Informationen (in Form der Stellung der Wörter), sondern auch (in Form von Frequenzverteilungen) semantische Constraints und weitere Informationen, die über eine statistische Auswertung extrahiert werden können. 153

- 97 -

Kapitel 4: Ein neuer Ansatz zu semantischer Verarbeitung in konnektionistischen Netzwerken

Außerdem wäre dann davon auszugehen, dass die gewünschten Effekte – nämlich Interaktionen zwischen Syntax und Semantik wie beispielsweise gegenseitige „Hilfe“ bei Problemstellungen – ausbleiben. Dem Hidden-Layer ist wiederum ein Kontext-Layer anhängig, der den Zustand des Netzes zum letzten Zeitschritt enthält und als zusätzlichen Input einschleift.

4.2.2. Perzeptuelle Symbolsysteme Die zweite Zielsetzung stellt die Forschenden freilich vor ein Problem: Wenn ich keine semantischen Repräsentationen vorgeben möchte, muss das Netzwerk diese selbst herstellen. Doch auch das verlagert das Problem lediglich: Was gebe ich dann vor? Die Idee, die im Moment verfolgt wird, legitimiert sich teilweise durch die Barsalousche (vgl. Barsalou, 1999) Theorie der Perzeptuellen Symbolsysteme („Perceptual Symbol Systems“), die als Target-Artikel in BBS veröffentlicht wurde. Um dieses theoretische Gerüst im Detail auszuführen, ist hier nicht genügend Raum, es sollen jedoch die grundlegendsten Begriffe eingeführt werden. Außerdem ist anzumerken, dass kein Modell entworfen werden soll, das Barsalous Theorie belegt, sondern diese als einen theoretischen Ausgangspunkt oder – wenn man so will – auch als a priori-Annahme hinzuzieht. Barsalou entwirft einen Ansatz, der mit der (wie er es nennt) „amodalen“ Auffassung von der Herausbildung von Symbolen (im weitesten Sinn meint er damit Konzepte) bricht und eine Rückkehr155 zu einer Auffassung fordert, die Wahrnehmung und Kognition als eng verbundene (wenn nicht in gewisser Weise identische) Konstrukte ansieht156. Der Hauptvorwurf, den Barsalou gegenüber amodalen Symbolsystemen formuliert, ist, dass die Verbindung zwischen Symbol und den Wahrnehmungszuständen, die es hervorbrachten, völlig arbiträr ist und nicht zu sehen ist, wie die Symbole aus Wahrnehmungen konstruiert werden können. Einfacher formuliert

Abbildung 30: Gegenüberstellung eines Symbolextraktions- bzw. Überführungsprozesses bei perzeptuellen (links) bzw. amodalen (rechts) Symbolsystemen (aus Barsalou, 1999: 578f).

Für eine wissenschaftshistorische Besprechung perzeptueller Symbolsysteme vgl. Barsalou (1999: 578). Dass diese Grenzen zwischen Wahrnehmung und Kognition fließend sein können, zeigt beispielsweise auch eine klassische Arbeit über die frühe visuelle Verarbeitung bei Fröschen (Lettvin et al., 1959). Es konnte gezeigt werden, dass der Sehnerv nicht nur visuelle Signale transportiert, sondern eine komplexe Kodierung, die handlungsrelevante Merkmale direkt zur Verfügung stellt. 155 156

- 98 -

Kapitel 4: Ein neuer Ansatz zu semantischer Verarbeitung in konnektionistischen Netzwerken

könnte man sich folgende Frage stellen: Wie wird aus einem Wahrnehmungszustand ein Symbol? Abbildung 30 zeigt am Beispiel des perzeptuellen Zustandes „Stuhl“, also der „neural activation“ und „conscious experience“ (Barsalou, 1999: 578), die ein Stuhl hervorruft, den grundlegenden Unterschied, den Barsalou zwischen perzeptuellen und amodalen Symbolsystemen bei der Herausbildung von Symbolen sieht. Wenn Barsalou amodalen Symbolsystemen vorwirft, dass der Übersetzungs- oder Überführungsprozess („transduction“) von einer perzeptuellen Erfahrung in ein amodales Symbol (welches hier durch eine Eigenschaftsliste für den wahrgenommenen Stuhl dargestellt ist) bislang unbefriedigend erklärt ist, muss man allerdings auch konstatieren, dass ebenso der Extraktionsprozess für die Perzeptuellen Symbole nicht klar spezifiziert ist. Als Grundaussage soll festgehalten werden, dass Barsalous perzeptuellen Symbole stärker in der Wahrnehmung verankert sind als amodale Symbole, die eine rein arbiträre Beziehung zu dem Objekt einnehmen, das sie symbolisieren. Eine Parallele ist die Beziehung von Wörtern zu ihren Referenten– auch hier besteht eine rein arbiträre Beziehung. „Just as the word ‚chair’ has no systematic similarity to physical chairs, the amodal symbol for chair has no systematic similarity to perceived chairs [Hervorhebung im Original, S.W.]” (Barsalou, 1999: 578f). Auf der anderen Seite grenzt Barsalou seine Theorie gegen bloße Aufzeichnungssysteme („recording systems“) ab, die ein bloßes Abbild einer bestimmten Wahrnehmung speichern. Somit kann keine Unterscheidung und Interpretation von Objekten sowie den Beziehungen zwischen diesen in den gespeicherten Situationsbildern vorgenommen werden. Ein konzeptuelles System müsse Inferenzen zulassen und so dem kognitiven System erlauben, hinter den perzeptuellen Input zu „blicken“. Die Wahrnehmung eines Picknicks ist somit nicht die bloße Abbildung der Situation, also im Grunde die Lichtreflexion der Objekte als eine Gesamtheit, sondern einerseits repräsentationsreicher, weil Objekte wie Nahrung, Besteck, Geschirr, die Umgebung, Menschen usw. unterschieden und klassifiziert werden. Andererseits kann das perzeptuelle Symbol für das Picknick jedoch auch repräsentationsärmer sein, da unwichtige oder uninteressante Aspekte157 in der erinnerten Situation außen vor bleiben (bspw. die Farbe der Kaffeekanne, die Menge der Brötchen usw.). Der Extraktionsprozess perzeptueller Symbole ist nicht auf die visuelle Wahrnehmung beschränkt. Ausdrücklich formuliert Barsalou den Grundsatz der Multimodalität des Symbol-Herausbildungsprozesses. So wirken visuelle, auditive, haptische, olfaktorische, gustative, propriozeptive und introspektive (hauptsächlich sind damit Emotionen gemeint) Mechanismen bei der Herausbildung von Symbol-Frames zusammen.

Was relevant und interessant für die Herausbildung Perzeptueller Symbole ist, wird über selektive Aufmerksamkeit gesteuert bzw. bestimmt. Jedoch ist auch dieser Aspekt in weiten Teilen unterspezifiziert. Welchen Aspekten einer Wahrnehmungssituation wie selektive Aufmerksamkeit und von welchem System die Zuweisung der Aufmerksamkeit übernommen wird bleibt unklar.

157

- 99 -

Kapitel 4: Ein neuer Ansatz zu semantischer Verarbeitung in konnektionistischen Netzwerken

Grundlegende Begriffe für Perzeptuelle Symbolsysteme sind jene des Frames, des Simulators und der Simulation. Miteinander in Beziehung stehende Perzeptuelle Symbole sind in Frames organisiert, die dem kognitiven System erlauben, spezifische Simulationen von Ereignissen oder Entitäten zu konstruieren, die augenblicklich nicht direkt wahrnehmbar sind. Die Rolle, die der Sprache dabei zufällt, ist die Hervorrufung dieser Simulationen im Gegenüber. Ein Simulator besteht immer aus einem Frame, in dem perzeptuelle Symbole organisiert sind, und allen möglichen Simulationen, die aus diesem Frame konstruiert werden können. Dabei gilt, dass die Simulationen niemals komplett, sondern immer nur bestimmte Aspekte betreffen und skizzenhaft sind. Dies ist auf das Prinzip der selektiven Aufmerksamkeit zurückzuführen, das dazu führt, dass niemals die gesamte verfügbare Information aus einer wahrgenommenen Situation extrahiert wird. „As a result, a frame is impoverished relative to the perceptions that produced it, as are the simulations constructed from it” (Barsalou, 1999: 586). Ebenso können Simulationen auf vielfältige Arten verrauscht („distorted“) oder verzerrt („biased“) sein (vgl. ebd.). Mit diesem ersten, skizzenhaften Einblick in Barsalous Theorie, die sich als vollständiges konzeptuelles System auf Basis der Wahrnehmung versteht, legitimiert sich in gewisser Weise die vorzustellende Architektur. Sicherlich gibt es einige Einwände, die gegen die Theorie der Perceptual Symbol Systems vorzubringen sind, diese sollen hier jedoch nicht im Detail referiert werden. Es wird hier insbesondere auf den Open Peer Commentary zum entsprechenden Artikel verwiesen.

4.2.3. Das Distributed Situation Space (DSS) Model Frank und andere (Frank, 2005; Frank et al., 2003, 2007) gehen von der Grundannahme aus, dass die meisten Sätze einen „Stand der Dinge“ in der Welt beschreiben. Verstanden hat man einen solchen Satz wenn man eine mentale Repräsentation der Referenzsituation aufgebaut hat. Folgt man dabei van Dijk & Kintsch (1983), stellt diese situationale Repräsentation die höchste dreier Ebenen der mentalen Repräsentation eines Textes dar158. Diese Repräsentationsebene ist nicht sprachlich, „but based on the comprehender’s experience with, and knowledge about the world” (Frank, 2005: 27). Selbst wenn man eine Situation nicht linguistisch, sondern direkt erfährt, wird sich also eine ähnliche Situationsrepräsentation herausbilden. Frank und Kollegen entwickeln mit dem DSS-Modell (erstmals in Frank et al., 2003) einen Ansatz, der sich von Propositionen als Bedeutungsrepräsentationen zu lösen versucht und im Textverstehensmodell von van Dijk & Kintsch (1983) sozusagen eine Stufe höher, auf der situationalen Repräsentationsebene, anzusiedeln ist. Das Modell bekommt Sätze als Input und formt daraus keine propositionale Struktur, sondern eine Repräsentation der Situation, die beschrieben

Die niedrigste Ebene ist jene des Wortlauts, die mittlere eine propositional organisierte PrädikatArgument-Struktur, die noch immer stark mit dem Originaltext verbunden ist. 158

- 100 -

Kapitel 4: Ein neuer Ansatz zu semantischer Verarbeitung in konnektionistischen Netzwerken

wird. Damit grenzt sich dieses Modell stark von jenen ab, die wir im bisherigen Verlauf der Arbeit gesehen haben. Sowohl bei Mayberrys INSOMNet als auch bei Rohdes CSCP-Modell steht die Herausbildung von Propositionen im Vordergrund (auch wenn die Modelle dies anders realisieren). Im DSS-Modell wird außerdem simuliert, wie Leser wissensbasierte Inferenzen beim Verstehen einer Geschichte ziehen können, was zu einem gewissen Teil als Weltwissen angesehen werden kann. Es kann zumindest von Mikroweltwissen gesprochen werden, denn das Modell setzt eine Mikrowelt voraus, in der zwei Agenten (Bob und Jilly) und vierzehn Basisereignisse vorhanden sind. Ereignisname sun rain B outside J outside soccer hide-and-seek B computer J computer B dog J dog B tired J tired B wins J wins

Bedeutung Die Sonne scheint. Es regnet. Bob ist draußen. Jilly ist draußen. Bob und Jilly spielen Fußball. Bob und Jilly spielen Verstecken. Bob spielt ein Computerspiel. Jilly spielt ein Computerspiel. Bob spielt mit dem Hund. Jilly spielt mit dem Hund. Bob ist müde. Jilly ist müde. Bob gewinnt. Jilly gewinnt.

Die Basisereignisse werden durch logische Operatoren zu komplexeren Mikroweltsituationen kombiniert, die alle durch ein Vokabular der Minisprache von 15 Wörtern („Bob“, „Jilly“, „and“, „plays“, „is“, „wins“, „loses“, „soccer“, „hide-and-seek“, „a_computer_game“, „with_the_dog“, „outside“, „inside“, „tired“, „awake“)159 beschrieben werden können. Einige Wörter können hierbei auch auf Negationen von Basisereignissen referieren160. Außerdem können mit der Mikrosprache Sätze formuliert werden, die auf Situationen referieren, die in der Mikrowelt nicht vorkommen können. Die Situation, auf die „Jilly plays soccer inside.“ referiert, kann bspw. nicht eintreten da sie einen Constraint der Mikrowelt verletzt, nämlich das Fußball nie drinnen gespielt wird. Die Grammatik (vgl. Frank et al., 2007: 15) erlaubt 328 sinnvolle Sätze. Mikroweltsituationen (also die Basisereignisse oder Kombinationen daraus) werden in Situationsvektoren repräsentiert, die aus selbstorganisierenden Karten hervorgehen, die zuvor mit Vektoren (Situationsbeschreibungen) trainiert wurden, die direkt aus logischen Verknüpfungen der Basisereignisse unter Beachtung der Constraints der Mikrowelt erstellt wurden. Diese Vektoren

In diesem Abschnitt wird die Wortform immer in Anführungszeichen gesetzt. Bedeutung von Ereignissen und Situationen werden kursiv notiert. 160 So gibt es beispielsweise kein Basisereignis Bob ist drinnen. Das Wort „inside“ referiert also auf die Negation von Bob ist draußen. Dasselbe gilt für „müde sein“ und awake. Der Satz „Bob loses.“ referiert auf das Ereignis Jilly gewinnt und umgekehrt. 159

- 101 -

Kapitel 4: Ein neuer Ansatz zu semantischer Verarbeitung in konnektionistischen Netzwerken

haben keinerlei sprachlichen Einfluss und beinhalten auch keine propositionalen Strukturen (vgl. Frank, 2005: 28f). Sie kodieren lediglich probabilistische Beziehungen zwischen den repräsentierten Situationen. Abbildung 31 zeigt sieben Repräsentationen von Basisereignissen in Form von selbstorganisierenden Karten. Hierbei bedeutet ein höherer Grauwert ein höheres „membership value“, das heißt je dunkler eine Zelle ist, desto involvierter ist sie bei der Repräsentation der Situation. Was in der Abbildung zu sehen ist, ist wie das Modell logische Konjunktionen (hideand-seek ∧ J outside ∧ B outside)

und Disjunktionen (B wins ∨ J wins)

von

Basisereignissen

realisiert. Bei der Konjunktion der drei Ereignisse ist in der Karte zu sehen, wie nur der Teil der Karte noch an Abbildung 31: Sieben verschiedene Repräsentationen von möglichen Situationen. hide-and-seek outside sowie B wins or J wins sind kombinierte Situationen aus den Basisereignissen, von denen die Pfeile ausgehen (aus Frank et al., 2007: 9).

der Repräsentation beteiligt ist (unten rechts), der bei der Repräsentation

aller

drei

Ausgangsereignisse ebenfalls beteiligt ist. Umgekehrt gilt für die Disjunktionen, dass alle Bereiche der konstituierenden Ereignisse ihr „membership value“ addieren. Die eben beschriebenen Karten werden in Vektoren umgesetzt, die die semantische Repräsentation der Situation darstellen161. Trainiert man ein einfaches SRN mit einem Input-Layer mit 15 Knoten (einer für jedes Wort der Mikrosprache), einem Hidden- und Kontext-Layer mit jeweils sechs Knoten und einer selbstorganisierenden Karte als Output, erhofft man sich, dass am Output dieselbe Situationsrepräsentation entsteht (oder zumindest annähernd) wie jene der Situationsrepräsentationsvektoren, die zuvor erstellt wurden. Als Trainingsmaterial wurden 290 der 328 möglichen Sätze als Inputmaterial verwendet und die entsprechenden Situationsrepräsentationen als Teaching-Vektor. Das SRN wird nun so trainiert, dass die SOM, die statt dem Output-Layer angesetzt ist, eine Situationsrepräsentation herstellt, die der (nahezu) perfekten, die zuvor erstellt wurde, sehr ähnlich ist. Eine

Es bleibt zu bemerken, dass diese Vektoren keine perfekten Repräsentationen sind da von 250 Dimensionen bei einer perfekten, aber technisch problembehafteten (vgl. Frank, 2005: 29) Repräsentation auf 150 reduziert wurde. 161

- 102 -

Kapitel 4: Ein neuer Ansatz zu semantischer Verarbeitung in konnektionistischen Netzwerken

maximale Ähnlichkeit würde zu einem „Comprehension Score“ von 1 führen (zur Errechnung und weiteren Eigenschaften des Comprehension Scores vgl. Frank, 2005: 31). Das Test-Set (38 Sätze, die während des Trainings nicht präsentiert wurden) lässt sich in 22 Sätze unterteilen, die auf Situationen referieren, die bereits im Trainingsset vorkamen und lediglich durch andere Sätze beschrieben wurden („old situation“), und in weitere 16 Test-Sätze, die auf Situationen referieren, die von keinem der Trainingsätze beschrieben wurden („new situation“). Sätze, die zwar formulierbar sind, jedoch Constraints der Mikrowelt verletzen, werden wie normale Sätze behandelt. Genau genommen sind diese Sätze nicht unmöglich, sondern das Auftauchen der Situationen, auf die sie referieren, ist in hohem Maße unwahrscheinlich162. Zwei Zielsetzungen, die Frank und Kollegen verfolgten, wurden – wie die Auswertung der Ergebnisse nahe legt163 – erreicht: „[A] model of sentence comprehension should show two kinds of generalization: It should be able to successfully process new descriptions of the situations it was trained on, and it should be able to comprehend descriptions of situations it was not trained on” (Frank, 2005: 32). Ob das Modell (auch wegen den beschränkten sequenzverarbeitenden Fähigkeiten eines SRNs) auch auf größere, komplexere Probleme mit einem weitaus größeren Korpus an Situationen und Wortformen anwenden lässt, bleibt sicherlich zu überprüfen. Doch der für diese Arbeit eigentlich interessante Punkt ist jener der Repräsentationserstellung und der theoretischen Fundierung dieser. Situationsmodelle stehen im Sinne von van Dijk und Kintsch (1983) auf einer kognitiven Ebene, die nicht auf propositionaler Darstellung beruht, sie ist viel eher „comparable to what Johnson-Laird, 1983, calls a mental model“ (Frank, 2005: 27). Damit heben sich Franks Arbeiten von den meisten bisherigen Ansätzen ab, die Satzverstehen als Herausbildung der propositionalen Struktur des Satzes verstehen. Damit stellen diese Ansätze eine wertvolle Inspiration für das zu erarbeitende Modell dar. Auch die Projektbeschreibung Franks für eine Erweiterung des DSS-Modells (Frank, 2006) gibt interessante Anregungen für eine Kombination mit der Theorie der perzeptuellen Symbolsysteme Barsalous. Welche Unterschiede sich jedoch zwischen dem zu erstellenden Modells und Franks Arbeiten ergeben, wird im nächsten Abschnitt zu sehen sein.

Dies wird auf technischer Seite auch davon unterstützt, dass die Situationsrepräsentationen, die diese Situationen darstellen, einen „belief value“ (zur Errechnung und zur Abgrenzung von „belief value“ zu Wahrscheinlichkeiten vgl. Frank et al., 2003: 9f; Frank, 2005: 29) von über 0 aufweisen. Das Modell hält durch die Dimensionsreduzierung die Situationen also nicht für völlig unmöglich, sondern nur für überaus unwahrscheinlich. 163 Für eine detaillierte Auswertung der Ergebnisse vgl. Frank (2005) sowie Frank et al. (2003, 2007). 162

- 103 -

Kapitel 4: Ein neuer Ansatz zu semantischer Verarbeitung in konnektionistischen Netzwerken

4.3. Architektur 4.3.1. Basisarchitektur Wie bereits mehrfach erwähnt, ist das vorrangige Ziel, das der Architektur des neuen Ansatzes zugrunde liegt, die Einfachheit der Architektur. Trotzdem soll das Modell in der Lage sein, sowohl syntaktischen als auch semantischen Input zu verarbeiten – hierbei soll auch die Idee verfolgt werden, dass sowohl von syntaktischem auf semantischen Inhalt als auch in die andere Richtung geschlossen werden kann. Das Modell versteht sich also nicht nur als ein Verstehens-,

Interpretierbare Semantikdarsellung

Syntaktischer Output (sequentiell)

„Dekoder“ (statisch)

Semantischer Output

? SynSem-Layer

(sequentiell) Syntaktischer Input

Kontext

(statisch) Semantischer Input

Abbildung 32: Angedachte Basisarchitektur des neuen Ansatzes. Die Basis bildet eine SRNArchitektur, die durch einen zusätzlichen, semantischen Teil ergänzt wurde. Im SynSem-Layer wird syntaktische und semantische Information integriert. Der breitgestrichelte Pfeil von syntaktischem Out- zurück zum Input symbolisiert die Wiedereinschleifung für die Realisierung der Produktion.

sondern auch als ein Produktionssystem (vgl. Rohde, 2002). Inwiefern die Produktion der Wortform realisiert werden soll, ist noch nicht klar. Da jedoch die syntaktische Oberflächenform sequentiell verarbeitet wird, muss sie auch sequentiell erzeugt werden – was den Einschleifungsmechanismus, wie er im CSCP-Modell verwendet wurde, nahe legt (vgl. auch Dell et al., 1999). Abbildung 32 zeigt die angestrebte Grundarchitektur des Modells, eine Angabe über die Größe der Layer kann noch nicht gemacht werden, da hierzu umfangreichere Simulationen notwendig sind – folgerichtig sind die Längen der einzelnen Schichten in der Abbildung auch nicht auf die relative Größe hin interpretierbar. Der syntaktische Input wird analog zur klassischen SRN-Architektur gestaltet, also eine lokalistische Repräsentation der verschiedenen Wörter (ein Vektor-Bit für ein Wort). Dies resultiert - 104 -

Kapitel 4: Ein neuer Ansatz zu semantischer Verarbeitung in konnektionistischen Netzwerken

auch aus der Überzeugung, dass die semi-verteilten, pseudo-phonologischen Repräsentationen der Wortformen in Rohdes CSCP-Modell nicht unproblematisch sind164. Der semantische Inund Output sind semantische Repräsentationen, die in der Pre-Trainingsphase (vgl. nächster Abschnitt) erstellt werden. Der Umstand, dass das Modell selbst diese semantischen Repräsentationen herausbilden soll – und zwar als Folge davon, dass es bestimmten „Wahrnehmungssituationen“ ausgesetzt wird, realisiert die Idee, dass keine vorgefertigten semantischen Repräsentationen erstellt und dem Modell vorgegeben werden sollen. Wichtig ist, dass syntaktischer und semantischer Input im Hidden-Layer zusammengeführt wird, und so eine Integration von Syntax- und Semantikinformation stattfinden muss (deshalb in der Abbildung als „SynSem-Layer“ bezeichnet). Auswertungen der Aktivationsmuster des Hidden-Layers könnten interessante Erkenntnisse zu Tage bringen. Der sogenannte „Dekoder“, der aus dem semantischen Output eine interpretierbare Semantikrepräsentation herstellt, besteht lediglich aus Verbindungen, die dieselben Gewichte haben wie die Verbindungen zwischen dem Hidden-Layer und dem Prototypen produzierenden Output-Layer der Pre-Training-Architektur (siehe Abbildung 33). Der Dekoder stellt also aus der modelleigenen Semantikrepräsentation wieder verkleinerte Wahrnehmungsmuster (7 mal 7 Zellen) her und ist damit eine Art Hilfsstruktur für den/die BetrachterIn, um zu sehen welche Interpretation das Netzwerk aufbaut. Interessant wird im „Verstehensmodus“ zu sehen sein, wie sich der semantische Output aufbaut wenn syntaktische Information sequentiell eingegeben wird. Da ein Satz nicht als ganzes angelegt werden kann, kann das Modell also auch nicht auf einmal eine fertige Vorstellung davon herausbilden, was der Satz aussagt. Ziel wird sein, das Netzwerk auf eine Weise zu trainieren, dass es inkrementell die semantische Repräsentation („Vorstellung“) davon aufbaut, was bis zum gegebenen Zeitpunkt als sprachlicher Input einging. Darüber hinaus ist interessant, was das Modell zusätzlich zur Repräsentation des bisherigen Inputs noch aufbaut oder ob es bestimmte Dinge nicht repräsentiert, also weglässt.

Dies zeigt sich u.a. schon dadurch, dass Rohde zwei verschiedene Repräsentationsformen verwendet: eine für den Wortinput, die phonologische Information beinhaltet und eine weitere semi-verteilte Repräsentationsform am Predicition-Layer, die (um den Input wieder einzuschleifen) rückübersetzt werden muss (vgl. Abschnitt 3.2.1 der vorliegenden Arbeit).

164

- 105 -

Kapitel 4: Ein neuer Ansatz zu semantischer Verarbeitung in konnektionistischen Netzwerken

4.3.2. Pre-Training-Architektur Das „Herzstück“ des neuen Ansatzes ist die Pre-Training-Phase, in der das Netzwerk die semantischen Repräsentationen selbst herausbilden soll, mit denen es später arbeitet. Abbildung 33 zeigt diese Komponente. Es handelt sich im augenblicklichen Entwurf um ein denkbar einfaches Feedforward-Netzwerk mit Backpropagation-Lernalgorithmus mit einer Zwischenschicht, das gegebene, „wahrgenommene“ Muster in einen Prototyp der Relation überführen soll. Die Relationen sind hierbei „nebeneinander“, „übereinander“ und „diagonal zueinander“, die prototypischen Darstellungen165 dieser Relationen benötigen lediglich ein 7 mal 7-Grid um alle möglichen Relationen zwischen den Objekten darzustellen (dabei bleibt stets eine Reihe zwischen den beiden Objekten frei166). Das Grid für die Wahrnehmungssituation (in Abbildung 33 der InputLayer) wird eine Größe zwischen 12 mal 12 und 9 mal 9 Zellen haben, mit letzterem wurden erste

Prototyp

Lernerfolge erzielt, bei denen das Netzwerk das Mapping von Muster auf Prototyp offensichtlich gelernt

Hidden Verwendung als SemantikInput in der Basisarchitektur

hat167.

Das

Ziel

dieser

Pre-

Training-Phase ist, dass das Netzwerk im Hidden-Layer dieser PreTraining-Architektur eine Reprä-

Wahrnehmung

sentation der verschiedenen Anordnungen herausbildet. Im Hid-

Abbildung 33: Angedachte Pre-Training-Architektur des neuen Ansatzes – ein einfaches Feed-Forward-Netzwerk mit einer Zwischenschicht, in der die semantischen Repräsentationen herausgebildet werden sollen. Die Gitter am In- und Output müssen in einen „flachen“ Vektor übersetzt werden.

den-Layer soll also nach erfolgreichem

Absolvieren

des

Pre-

Trainings (mit den korrekten Pro-

totyprepräsentationen als Teaching-Vektoren) so etwas wie das „Konzept“ der verschiedenen

Bei der Erstellung der Prototypen ist von Interesse, wann eine Anordnung zweier Objekte den Prototyp „über-/ nebeneinander“ zugewiesen bekommt und wann „diagonal zueinander“. Wäre in Abbildung 42 das Slash-Objekt beispielsweise noch eine Zelle nach unten verschoben könnte man es bereits in die Kategorie „diagonal zueinander“ einordnen, was einen anderen Prototyp als Target-Vektor nach sich ziehen würde. Dies kann durch einen „Genauigkeit“-Parameter in der Erstellung des Testmaterials eingestellt werden. Dieser gibt an, wie viele Zellen ein Objekt zum anderen verschoben sein darf und trotzdem noch als „neben/über“ gilt. Denkbar wäre auch, einen Winkel zu berechnen, der einen bestimmten Grenzwert nicht überschreiten darf. 166 Dies verhindert, dass „zufällig“ (durch Kombination der vorhandenen Objekte) Objekte entstehen, die das Netzwerk verwirren könnten. 167 Außerdem hat es gelernt, Muster zuzuordnen, die nicht im Trainingsmaterial präsentiert wurden. 165

- 106 -

Kapitel 4: Ein neuer Ansatz zu semantischer Verarbeitung in konnektionistischen Netzwerken

Relationen „übereinander“, „nebeneinander“ und „diagonal zueinander“ repräsentiert sein. Das Ziel, dass das Modell die von ihm verwendeten semantischen Repräsentationen selbst erstellt, wäre damit erreicht, da der Hidden-Layer nicht durch Vorgaben von außen strukturiert wird. Eine grundsätzliche Frage ist jene nach der Realisierung des Wahrnehmungsinputs, der die Idee einer Retina darstellt. Zwei grundlegend verschiedene Möglichkeiten für diese Gestaltung des Input-Vektors kommen in Frage, die hier kurz als Grid- und Koordinaten-Alternative bezeichnet

schwarz: Objekt 1 grau: Objekt 2

Objekt 1

X-Koord. Obj. 1

Y-Koord. Obj. 1

Objekt 2

X-Koord. Obj. 2

Y-Koord. Obj. 2

ObjektidentifikatorAbbildung 34: Ein Beispiel für die Vektordarstellung einer Wahrnehmungssituation bei der Koordinatenalternative. Hier ist die Alternative ohne Auffüllen bis zur entsprechenden Koordinate gezeigt. Dunkelgraue Vektorenfelder bezeichnen Bits, die auf 1 gesetzt sind. Die Zelle unten links wäre hier (1, 1), die Ursprungszelle.

werden. Das Ziel ist klar: Die Gitterstruktur, in der Objekte liegen, soll in einen eindimensionalen Vektor „übersetzt“ werden, der der Pre-Training-Architektur als Input übergeben werden kann. Die Koordinaten-Alternative (siehe Abbildung 34) würde – nomen est omen – die Aufnahme von Koordinateninformation in den Input-Vektor nach sich ziehen. Ein Vektor, der mit dieser Alternative erstellt würde, könnte folgendermaßen unterteilt sein: [X-Koordinate1; YKoordinate1; Objekt1; X-Koordinate2; Y-Koordinate2; Objekt2; …]. Für die X- und YKoordinaten wären jeweils soviel Bits notwendig wie das Gitter in dieser Dimension Zellen aufweißt, bei einer 9 mal 9-Matrix und einem Objekt würden diese ersten beiden Vektorabschnitte also 18 Bits umfassen. Hier wäre dann je ein Bit für die betreffende Koordinate 1, alle anderen 0. Eine Alternative, um orthogonale Vektoren zu vermeiden, wäre die Auffüllung der Bits bis zum betreffenden Punkt auf der Achse. Bei der Kodierung der Koordinaten (3, 8) wären somit die ersten drei Bits für den Vektorabschnitt der X-Achse 1 und für die Y-Achse wäre nur das letzte Bit 0. Bis hierher tauchen keine unlösbaren Probleme auf, doch das Hauptproblem ist der dritte Vektorabschnitt, der für die Objektkennzeichnung nötig wäre. Hier ist denkbar, dass (ebenso wie bei der Repräsentation der Wörter im syntaktischen Input) jedes Objekt einfach ein Bit be- 107 -

Kapitel 4: Ein neuer Ansatz zu semantischer Verarbeitung in konnektionistischen Netzwerken

kommt, das auf 1 gesetzt ist, wenn das Objekt an der zuvor definierten Stelle im Koordinatensystem ist. Daraus ergeben sich zwei Probleme, das erste ist theoretischer Natur: Eine der interessanten Fragen ist ja unter anderem auch, ob es das Modell schafft, Objekte, die offenbar unterschiedlich aussehen (Slash vs. Backslash; Minus vs. Pipe; …) voneinander zu unterscheiden und sie auch dann noch zu erkennen wenn sie an einem anderen Platz im Gitter sind. Außerdem stellt sich natürlich die Frage, ob es in der Lage ist die Wortform den entsprechenden Objekten zuzuordnen, sozusagen die „Namen“ der Objekte zu lernen. Repräsentiert man die Objekte jedoch durch diese 1-Bit-an-Methode, gibt es nur eine Objektform, Objekte wären immer ein Kästchen breit und ein Kästchen hoch. Trotzdem sind die Objekte maximal unterschieden – wenn man so will sind sie schon für das Modell erkannt (evtl. durch einen früheren kognitiven Verarbeitungsschritt168). Das zweite Problem ist eher technischer Natur und würde sich negativ auf die theoretische Legitimation

der

Wahr-

nehmungskodierung auswirken. Da man für jedes Objekt, das im Vektor repräsentiert werden Abbildung 35: Ein vereinfachtes Beispiel für die Vektordarstellung einer Wahrnehmungssituation bei der Grid-Alternative. Dunkelgraue Vektorenfelder bezeichnen Bits, die auf 1 gesetzt sind. Ausgangspunkt ist die Zelle links oben, dann wird nach rechts bis ans Ende der Zeile kodiert, dann die nächste Zeile. Hier ist eine vereinfachte Darstellung des Funktionsprinzips dieser Kodierungsart zu sehen.

soll, drei „Slots“ benötigt (X- und Y-KoordinatenSlots sowie den Objektslot) und Vektoren im-

mer eine bestimmte Länge haben müssen, kann man nur eine endliche Anzahl von Objekten in einem Vektor repräsentieren169. Dies bedeutet jedoch eine signifikante Einschränkung der Möglichkeit, das Modell auf komplexere Probleme anzuwenden, bei denen mehr Objekte repräsentiert werden müssen als vom Vektor vorgesehen sind. Die Alternative liegt auf der Hand: In der sogenannten Grid-Alternative, die im augenblicklichen Arbeitsstadium benutzt wird, wird das Gitter von oben links nach unten rechts „abgearbeitet“ und so für jede Zelle angegeben, ob sie belegt ist oder nicht. Das Netzwerk muss also selbst herausfinden, welche Objekte diese belegten Zellen konstituieren. Abbildung 35 zeigt diese Art der Übersetzung von Gittermuster in Vektoren. Die Objekte sind nicht bereits extrahiert und klassifiziert, sondern es müssen vom Netzwerk Eine solche Argumentation ist keine Seltenheit, auch McClelland & Rumelhart (1985) argumentieren auf diese Weise. Allerdings zieht dies einige Konsequenzen auf theoretischer Ebene nach sich, insbesondere eine recht starke Modularitätsannahme von kognitiven Prozessen. An dieser Stelle soll nur darauf hingewiesen werden, dass man sich dessen bewusst sein muss wenn man mit „vorhergehenden Verarbeitungsprozessen“ oder ähnlichem argumentiert. 169 Will man drei Objekte, die auf einem 9 mal 9-Gitter angeordnet sind, repräsentieren wären 3 x (9+9+3) = 63 Bits notwendig. 168

- 108 -

Kapitel 4: Ein neuer Ansatz zu semantischer Verarbeitung in konnektionistischen Netzwerken

selbst kohärente Strukturen erkannt werden. Erste Trainingserfolge lassen darauf schließen, dass dies möglich ist. Ergänzend ist anzumerken, dass die Objekte immer auf 3 mal 3 Feldern realisiert werden (von denen dann die Felder, die das Objekt ausmachen, als „belegt“ gelten) und kein anderes Objekt eine dieser neun Zellen belegen darf, dies könnte man als „Annäherungsconstraint“ bezeichnen. Kombinationen wie in Abbildung 36 sind also nicht möglich.

4.4. Zielsetzungen und offene Fragen Vorausgesetzt die Erstellung der semantischen Repräsentationen170 über den Hidden-Layer der Pre-Training-Architektur glückt, ist eine interessante Interaktion mit dem syntaktischen Input zu erwarten. Wenn man den Hidden-Layer der Pre-Training-Architektur als semantischen Input für die Basisarchitektur verwendet, muss das Modell noch immer lernen, welches Objekt beispielsweise Abbildung 36: Nicht mögliche Kombination von Objekten im Gitternetz da der Annäherungsconstraint verletzt ist.

links des anderen Objekts steht. Genau diese Unterscheidung, sozusagen die Benennung der Objekte, kann erst in

Kombination der semantischen Repräsentation mit syntaktischem Input erlernt werden. Stellen wir uns vor, es gäbe drei Objekte, den „Slash“ [/]171, den „Backslash“ [\] und das Minus [-] (das erst- und drittgenannte Objekt ist in Abbildung 33 eingezeichnet). Nehmen wir weiter an, die Pre-Training-Architektur hätte alle „Nebeneinander“-Kombinationen172 dieser drei Objekte korrekt gelernt und diese im Hidden-Layer repräsentiert. Dieser kann nun als semantischer Input verwendet werden, der für die Kombination [/ \] beispielsweise durch die sprachliche Beschreibung „Der Slash ist links von dem Backslash.“ begleitet wird. Hier kann noch nicht extrahiert werden, bei welchem Wort es sich um die Bezeichnung welches Objektes handelt, denn es wäre auch der Satz „Der Backslash ist rechts von dem Slash.“ möglich um dieselbe Situation zu beschreiben173. Die Reihenfolge des Auftauchens der Objektbezeichnungen im Beschreibungssatz ist also keine zuverlässige Informationsquelle für das Netzwerk. Vielmehr muss das Modell sich etwas zunutze machen, das – wie im Verlauf der Arbeit zu Genüge dargelegt – eine typische Stärke konnektionistischer Ansätze ist: eine (bei nur drei Objekten zugegeben nicht sehr) feinkörnige statistische Auswertung der Frequenzen in den Inputmustern. So sollte einigermaßen einfach

Im Grunde sind dies zu diesem Zeitpunkt keine vollwertigen semantischen Repräsentationen, sondern lediglich Konzepte räumlicher Relationen von Objekten. 171 Zur besseren Leserlichkeit werden Objekte und Objektkombinationen in eckigen Klammern notiert. 172 Für drei Objekte, die nebeneinander angeordnet sind, gibt es sechs Kombinationen: [/ \], [/ -], [\ /], [\ -], [- /] und [- \]. 173 Außerdem kann die Relationsbeschreibung am Satzanfang stehen: „Rechts von dem Slash ist der Backslash.“ und „Links von dem Backslash ist der Slash.“. Hier ist die Reihenfolge der Objekte im Satz vertauscht obwohl die Relationsbeschreibung dieselbe ist. 170

- 109 -

Kapitel 4: Ein neuer Ansatz zu semantischer Verarbeitung in konnektionistischen Netzwerken

herausgefunden werden können, dass das Wort „Slash“ das Objekt [/] bezeichnet wenn folgende Kombinationen von Objekten und Wortformen auftauchen: Wortform „Der Slash ist links von dem Backslash.“ „Der Slash ist links von dem Minus.“

Objektkombination [/ \] [/ -]

Denkbar wäre auch jede andere Beschreibungsvariante dieser Objektkombination, wichtig ist lediglich, dass das Netzwerk die relevanten Informationen, die es zur Lösung des Zuordnungsproblems benötigt, findet. Diese sind nicht in der Reihenfolge des Auftauchens im Satz zu finden, sondern hier nur über zwei Sätze hinweg: Sowohl das Wort „Slash“ als auch das Objekt [/] taucht in beiden Sätzen auf, eine Zuordnung sollte also möglich sein174. Detaillierte Zielsetzungen sind noch zu entwickeln, im Hinblick auf die Generalisierung bei der Syntaxverarbeitung müssen zwei Voraussetzungen erfüllt sein, die in diesem Sinne auch von Frank (2005) als maßgebend für Modelle der semantischen Verarbeitung und des Satzverstehens formuliert wurden: Das Netzwerk muss (1) neue Beschreibungen zu bereits wahrgenommenen Situationen verstehen können und (2) Beschreibungen von Sätzen verstehen, deren Wahrnehmungssituation es so noch nicht „erfahren“ hat. Ein Beispiel für die Erfüllung des ersten Ziels wäre, dass das Modell die neuen Sätze „Der Slash ist links von dem Backslash.“ und „Links von dem Backslash ist der Slash.“ derselben Situation zuordnet wie den trainierten Satz „Der Backslash ist rechts von dem Slash.“. Ein Beispiel für die Erfüllung des zweiten Generalisierungsziels wäre die Erzeugung der Vorstellung [- /] für den Satz „Rechts von dem Minus ist der Slash.“ obwohl das Modell nie mit dieser Wahrnehmungssituation konfrontiert wurde175. Da das neue Modell eine Architektur sein soll, die in beiden Richtungen produktiv ist, also auch zu einer gegebenen Wahrnehmungssituation eine Beschreibung erstellen können soll, kann auch hier ein Generalisierungsziel angegeben werden: Ist das Modell mit einer neuen – also in der Trainingsphase noch nicht wahrgenommenen – Situation konfrontiert, sollte es trotzdem in der Lage sein einen Satz zu formulieren, der diese Situation beschreibt. Da es für jede Wahrnehmung mehrere mögliche Beschreibungen gibt, ist zu erwarten, dass das Modell für eine neue Wahrneh-

Im hier gegebenen Beispiel taucht natürlich auch die Relationsbeschreibung „links von“ in beiden Sätzen auf, es wäre also darauf zu achten, dass das Modell nicht fälschlicherweise diese als Bezeichnung des Objektes interpretiert. Dies sollte aber dadurch ausgeschlossen sein, dass „links von“ auch bei Objektkombinationen auftaucht, in denen der Slash nicht vorhanden ist (hier bei [\ -] und [- \]). 175 Erfüllt das Modell diese Aufgabe, ist davon auszugehen, dass es die Namen der Objekte und Relationen gelernt hat und diese in sinnvoller Weise kombinieren kann. 174

- 110 -

Kapitel 4: Ein neuer Ansatz zu semantischer Verarbeitung in konnektionistischen Netzwerken

mung einen Satz produziert, der in der Struktur jener Struktur gleicht, die am häufigsten in den Sätzen des Korpus vorkommt176. Angedacht ist die Erweiterung der Wahrnehmungssituationen um weitere Objekte. Dies bietet mehrere Vorteile oder Möglichkeiten bei der Evaluation des Modells, führt jedoch auch dazu, dass das Modell noch mehr Aufgaben als im augenblicklichen Stadium erfüllen muss (einige dieser Aufgaben werden im weiteren Verlauf dieses Abschnitts beschrieben). Die Aufnahme weiterer Objekte böte unter anderem die Möglichkeit, Relativsätze in den Korpus mit aufzunehmen („Das Minus, das rechts von dem Backslash ist, ist links von dem Slash.“), was zu komplexeren Wahrnehmungssituationen (hier: [\ - /]) führen würde177. Außerdem könnte man in Kombination mit einem Fragemechanismus Aufgaben zum räumlichen Schließen vom Modell bearbeiten lassen. Wie ein solcher Fragemechanismus beschaffen sein könnte, ist bisher unklar. Bei geschickter Gestaltung des Trainingsmaterials für die Aufgabe des räumlichen Schließens könnte es jedoch möglich sein, in den Korpus der Beschreibungen ein Anfrage-Symbol einzufügen, das dem Netzwerk signalisiert, dass eine Antwort erwartet wird178. Besonders wünschenswert wäre es dann, in der Testphase keinerlei semantische Repräsentation, sondern nur eine bestimmte Aufgabe in Textform am syntaktischen Input anzulegen. Denkbar wäre ein Satz wie „Der Slash ist links vom Backslash und der Backslash ist rechts vom Minus.“. Die Testfrage, die das Modell dann positiv oder negativ beantworten muss, würde lauten: „Das Minus ist rechts vom Slash #“179 – Da diese Aussage offensichtlich mit dem (hoffentlich) zuvor aufgebauten Situationsmodell [/ \ -] konfligiert, sollte das Modell also diese Frage negativ beantworten. Eine weitere Evaluationsmöglichkeit wäre der Test auf „graceful degradation“ (vgl. Abschnitt 1.1.2), der die Robustheit des Modells überprüfen sollte. Denkbar wäre hier der Gebrauch von verrauschten Wahrnehmungsrepräsentationen (bspw. leicht veränderte Objekte), grammatikalisch falschen Sätzen (vgl. Mayberry, 2003) oder Ähnlichem. Ein ausgereiftes konnektionistisches Modell sollte bis zu einem gewissen Grad eine Großzügigkeit gegenüber verrauschtem Input aufweisen. Eine der vordringlichsten Fragen ist jene nach dem Hidden-Layer der Pre-Training-Architektur. Selbst bei einem erfolgreichen Mapping von Wahrnehmung auf Prototyp ist nicht gesagt, ob die

Werden also die meisten Situationen im Korpus in der Art „ ist links von “ beschrieben, wird das Modell mit höherer Wahrscheinlichkeit für die neue Situation [- \] den Satz „Das Minus ist links von dem Backslash.“ produzieren. 177 Selbstverständlich wären hier auch Sätze denkbar, wo eine zweite Dimension in eine einzelne Wahrnehmungssituation aufgenommen wird: „Das Minus, das über dem Slash ist, ist links von dem Backslash.“ 178 Diese Variante ist nichts grundlegend Neues und wird von Dennis & Kintsch (2007) in einem nichtkonnektionistischen Modell des Textverstehens verwendet. 179 Die Raute (#) ist in diesem Fall als Fragesymbol zu verstehen. 176

- 111 -

Kapitel 4: Ein neuer Ansatz zu semantischer Verarbeitung in konnektionistischen Netzwerken

Aktivationsmuster im Hidden-Layer des Feedforward-Netzes dazu geeignet sind, in der Basisarchitektur als semantische Repräsentationen verwendet zu werden. Was genau in diesem HiddenLayer „passiert“, ist (noch) nicht klar und kann nur durch umfangreiche Tests näherungsweise nachempfunden werden. Vordringlichstes Ziel wird sein, die Überführung der Aktivationsmuster des Hidden-Layers in die Basisarchitektur vorzunehmen und zu testen, wie das Netzwerk damit umgeht. Eine Idee zur Verschmelzung der beiden Architekturen wurde bisher noch nicht weiterverfolgt, doch es sollte möglich sein, die hier als Pre-Training- und Basisarchitektur bezeichneten Teilnetze in einer Gesamtarchitektur zusammenzuführen um einen flüssigeren Ablauf der Simulationen zu erreichen. Die Formulierung dieses Ziels zeigt auch, dass durch die Trennung der beiden (Teil)Netze keine theoretische Aussage über die Separation der darin ablaufenden psychologisch realen Prozesse angestrebt wird. Eine weitere Frage betrifft die Abläufe in der Basisarchitektur. Diese muss vielfältige Aufgaben parallel bearbeiten um die Gesamtaufgabe zu erfüllen. Ein kleiner Auszug soll die Vielfältigkeit dieser Probleme zeigen: (1) Das Netzwerk muss die Objekte „erkennen“, dazu gehört einerseits die simple Unterscheidung der Objekte (beispielsweise dass der Backslash ein anderes Objekt ist als der Slash), andererseits die Zuordnung von bestimmten Bezeichnungen zu Objekten. (2) Das Modell muss nicht nur die Anordnung der Objekte (übereinander, nebeneinander, diagonal zueinander) lernen, sondern auch die Relationen zwischen Objekten (links-von, rechts-von, über, unter, usw.). Dieser Punkt interagiert mit dem zuerst genannten, da hierzu eine Erkennung und Benennung der Objekte nötig ist. (3) Auch die klassische Aufgabe der SRNs, die Vorhersage oder gar Produktion des syntaktisch nächsten Elements, muss gemeistert werden. Ob die Hinzunahme von semantischen Informationen hier eher hinderlich oder hilfreich ist, bleibt zu analysieren. (4) Die Integration von Syntax und Semantik im SynSem-Layer ist unabdingbar für die Erfüllung aller Aufgaben. Hierbei muss sequentieller (Syntax) und statischer Input (Semantik) miteinander in Einklang gebracht werden. Es wird interessant sein zu sehen, wie das Modell den SynSem-Layer organisiert und sich Interaktionen zwischen Syntax und Semantik zu Nutze macht. Mindestens diese Aufgaben (sowie zugehörige Teilaufgaben) müssen parallel in einer relativ einfachen Architektur (dem erweiterten SRN) gelernt werden. Interaktionen zwischen den einzelnen Problemen führen dazu, dass das Scheitern in einer Aufgabe das Scheitern bei einer anderen Aufgabe nach sich ziehen kann. Der Problemraum ist damit hochkomplex und die Fehlerlandschaft dementsprechend unübersichtlich. Es wird zu analysieren, welche Fehlermuster das Modell pro-

- 112 -

Kapitel 4: Ein neuer Ansatz zu semantischer Verarbeitung in konnektionistischen Netzwerken

duziert und welche Rückschlüsse daraus auf die Arbeitsweise des künstlichen neuronalen Netzes gezogen werden können. Zuletzt soll nicht versäumt werden, auf einen theoretischen Schwachpunkt die Pre-TrainingArchitektur betreffend hinzuweisen. Hier sollen in der Zwischenschicht des FeedforwardNetzwerks eine Art Repräsentation davon herausgebildet werden, was „übereinander“, „nebeneinander“ und „diagonal zueinander“ bedeutet. Die Architektur soll hierzu gegebene Konstellationen von Objekten in die zugehörige prototypische Anordnung überführen. Der Schwachpunkt dieses Ansatzes besteht darin, dass von Seite der Modellierenden hier doch etwas vorgegeben wird (was ja eigentlich vermieden werden sollte), nämlich die Zuordnung eines Prototypen zu einer bestimmten Objekt-Anordnung. Zwei Antworten können auf diesen Einwand gegeben werden: Erstens sind die verwendeten Prototypen einigermaßen plausible typische Vertreter der dargestellten Anordnung, die sich nahezu direkt aus der Wahrnehmungssituation ergeben. Zweitens sollte es mit einigem Modellierungsaufwand möglich sein, die prototypischen Darstellungen vom Modell selbst erzeugen zu lassen, denn wie in Kapitel 1 (vgl. McLeod et al., 1998) und 2 (vgl. McClelland & Rumelhart, 1985) gezeigt wurde, ist die Extraktion von Prototypen eine genuine Fähigkeit künstlicher neuronaler Netze.

4.5. Zusammenfassung Ausgehend von der These, dass die (Erstellung der) propositionalen Repräsentationen der in Kapitel 3 vorgestellten Architekturen ein hohes Maß an Aussagekraft des jeweiligen Modells kosten, wird ein Ansatz angestrebt, der die semantischen Repräsentationen, anhand derer das Modell agiert, selbst herstellt. Die Idee ist, über eine denkbar einfache Architektur, deren Aufgabe es ist, Wahrnehmungssituationen in Prototypen zu überführen, die Repräsentationen modellintern zu erstellen. Ausgangspunkt dieser Idee ist einerseits die Theorie der Perzeptuellen Symbolsysteme Barsalous sowie die Arbeiten Franks (und anderen) zu situationsverarbeitenden Modellen. Im Wesentlichen soll anhand von Wahrnehmungs- oder Vorstellungsbildern, die dem Netzwerk auf einem Gitternetz präsentiert werden, gezeigt werden, welche Interaktionen zwischen Syntax und Semantik bestehen. Dabei soll sowohl die Herausbildung von Vorstellungsbildern ausgehend von syntaktischer Oberflächenstruktur untersucht werden, als auch die Beschreibung von Wahrnehmungen, also die Erzeugung der Wortform zu einem bestimmten Bild. Im augenblicklichen Stadium der Modellentwicklung stehen zwar noch mehr offene Fragen als tatsächliche Ergebnisse im Raum, doch erste Grundideen des Ansatzes wurden anhand einiger Abwägungen und Zielsetzungen deutlich.

- 113 -

Kapitel 5: Resumé

5. Resumé 5.1. Überblick Konnektionistische (seit Smolensky (1988) auch als „subsymbolisch“ bezeichnete) Ansätze weisen im Gegensatz zu symbolischen Architekturen einige Charakteristika auf, die insbesondere in der Forschung zu Sprachverarbeitung und -produktion Vorteile zu bieten scheinen180. Hierzu gehört etwa die Großzügigkeit gegenüber verrauschtem Input aller Art, typischerweise als graceful degradation bezeichnet. Verrauschter Input begegnet uns in der alltäglichen Sprachrezeption immer

wieder: undeutliche Aussprache, Hintergrundgeräusche, unklare Bedeutungsfelder, grammatikalische Fehler, Hörprobleme und so weiter. Auch die erstaunliche (und wohl essentielle) Fähigkeit des Menschen, Prototypen herauszubilden (Posner & Keele, 1968), ist durch basale Architekturprinzipien künstlicher neuronaler Netze ein genuines Merkmal dieser Modellklasse (McClelland & Rumelhart, 1985). Eine weitere Eigenschaft konnektionistischer Modelle, die als direkte Folge der Architekturprinzipien angesehen werden muss, ist die hohe Sensibilität für Frequenzinformationen aller Art. Hier zeigen sich zwei weitere wichtige Vorzüge: Erstens weisen künstliche neuronale Netze diese Sensibilität auf verschiedensten Ebenen des Inputs auf (was im Grunde eine extrem feinkörnige statistische Auswertung ist)181, zweitens sind sie unter gewissen Umständen dazu in der Lage, die Ebenen, auf denen die Auswertung stattfinden soll, selbst herauszufinden182. Einmal mehr muss betont werden, dass dies Eigenschaften sind, die konnektionistische Architekturen von vornherein „mitbringen“ und nicht auf explizit formulierte Regeln zurückzuführend sind, sondern dass alles auf zwei Komponenten, formale Neuronen und Verbindungen zwischen diesen, zurückführbar ist. Die Arbeiten Elmans implizieren in gewisser Weise einen neuen Blick auf die Sprache als Gesamtsystem und betonen insbesondere deren dynamischen und vielschichtigen Charakter. Außerdem konnte gezeigt werden, dass auch die Verarbeitung von sprachlicher Syntax (lange als die Dies soll nicht heißen, dass symbolische Modelle nicht ebenfalls gewisse Vorteile für die Modellierung von Sprachrezeption und -produktion bereithalten. Die Formulierung von expliziten Regeln ist im Bereich der Syntaxverarbeitung bspw. überaus plausibel. Auch die im Vergleich zu konnektionistischen Architekturen recht hohe Transparenz symbolischer Modelle kann als wünschenswerte Eigenschaft angesehen werden. 181 Es wäre daher eine unzuverlässige Vereinfachung, zu sagen, dass konnektionistischen Modellen sogenannte n-Gramm-Wahrscheinlichkeiten (vgl. Corley & Crocker, 2000) zu Grunde liegen. 182 Hierzu ist beispielsweise eine passende Gestaltung des Trainingsmaterials notwendig. „Passend“ kann hier auch die Stellung einer geeigneten Aufgabe sein. So hat Elman (Elman, 1990, 1991, 1993) kein eigenes Trainingsmaterial erstellt (was aus theoretischem Blickwinkel wünschenswert ist), sondern durch die Vorhersage-Aufgabe einen Weg entwickelt, die vorliegende sprachliche Oberfläche als Trainingsmaterial zu verwenden („self-supervised learning“). 180

- 114 -

Kapitel 5: Resumé

Domäne symbolischer Architekturen verstanden) innerhalb der Möglichkeiten konnektionistischer Architekturen liegt. Interessant ist insbesondere, dass lediglich die sprachliche Oberflächenform notwendig ist, um das Netzwerk zu trainieren. Regeln, anhand derer das Modell diese Oberflächenform analysiert, müssen nicht definiert werden. In Kapitel 2 wurde insbesondere gezeigt, inwiefern konnektionistische Ansätze mit Semantiktheorien interagieren. Auf der Ebene der Satzsemantik wurde der Ansatz der Minimal Recursion Semantics (vgl. Copestake et al., 1995; Copestake et al., 2001) aus der Tradition der MöglicheWelten-Semantik hergeleitet, dessen Hauptvorzug es ist, durch die Vergabe von Handles semantische Baumstrukturen in einer flachen Semantikrepräsentation zu realisieren. Dies birgt zwei entscheidende Vorteile: Erstens ist die Repräsentation von Baumstrukturen in Vektoren (und somit die Eingabe in künstliche neuronale Netze) möglich, zweitens wird durch die Handles eine Art „innere Ordnung“ hergestellt, was bedeutet, dass die Reihenfolge der Semantikkonstituenten eines Satzes nicht ausschlaggebend für die Gesamtrepräsentation der Satzbedeutung ist. Minimal Recursion Semantics finden ihre Anwendung in leicht modifizierter Form unter anderem im INSOMNet-Modell (vgl. Mayberry, 2003; Mayberry & Miikkulainen, 2003), das in Kapitel 3 detailliert vorgestellt wurde. Hier sind die sogenannten Frames (die Konstituenten einer Satzbedeutung) organisiert, die gemeinsam die MRS-Repräsentation eines Satzes ergeben. Ausgewählt werden die relevanten Frames über eine Frame-Auswahl-Komponente, Syntax wird über eine Sequenzen verarbeitende Komponente in das System eingeführt. Leider ist INSOMNet lediglich ein Modell des Sprachverstehens. Allerdings ist die Fähigkeit realistische Korpora semantisch zu parsen183 erstaunlich. Außerdem sind die verwendeten Propositionen relativ nah am in Kapitel 2 erarbeiteten, möglichst minimalistischen, Entwurf von Propositionen. Genau diese Plausibilität fehlt den im CSCP-Modell (vgl. Rohde, 2002) verwendeten Propositionen, wohl zu gewissem Teil weil das Modell auch ein Produktionsmodell ist. Der Preis, der dafür bezahlt wird, dass das CSCP-Modell aus semantischen Informationen sprachliche Oberflächenform herstellen kann, ist die theoretische Aussagekraft betreffend recht hoch. Dies liegt einerseits daran, dass die Propositionen parallel zum syntaktischen Input mit dem SLG erstellt wurden (vgl. Rohde, 1999) und allein daher schon sehr nah am syntaktischen Input sein müssen. Andererseits ist die Inklusion von syntaktischen Informationen in den verwendeten Propositionen so hoch, dass sie nicht mehr allein durch die parallele Erstellung mit der Syntax erklärt werden kann. Beide Modelle sind jedoch überaus ambitionierte Ansätze, die außerdem einige empirische Ergebnisse simulieren, von denen an dieser Stelle wenige vorgestellt werden konnten. Außerdem Grundlage war der „LinGO Redwoods Treebank“-Korpus (vgl. Oepen et al., 2002a; Oepen et al., 2002b). 183

- 115 -

Kapitel 5: Resumé

kommen beide Modelle mit großen Korpora und komplizierten Grammatiken zurecht, was ihrer Erklärungskraft zugute kommt. Doch diese Anwendbarkeit auf einen großen und komplizierten Problemraum („large scale“) hat ebenfalls ihren Preis. So sind beide Modelle überaus komplex, integrieren verschiedene Teilarchitekturen, denen unterschiedliche Funktionsweisen zugrunde liegen und benutzen für verschiedene Teile der Architekturen verschiedene Lernalgorithmen. So verlieren beide Ansätze in gewisser Weise an Transparenz und erscheinen manche Aspekte betreffend etwas zu übermächtig. Folgerichtig wurde anschließend die Idee einer Architektur dargelegt, die zwei vorrangige Ziele verwirklichen soll: Keine extern vorgegebenen semantischen Repräsentationen (wie beispielsweise propositionale Strukturen) und ein möglichst einfaches, übersichtliches Architekturprinzip. Die zu treffenden theoretischen Vorannahmen speisen sich aus der Theorie der Perzeptuellen Symbolsysteme (vgl. Barsalou, 1999) und den Arbeiten Franks (und anderen) (Frank, 2005, 2006; Frank et al., 2003, 2007). Das letztendliche Ziel ist die Erstellung eines Modells, das (1) die von ihm verwendeten Repräsentationen in der „Pre-Training-Architektur“ über das Mapping von Wahrnehmungssituationen und Prototypen dieser Situationen selbst herstellt, (2) in der Basisarchitektur die so hergestellten Repräsentationen nutzt, um syntaktische und semantische Informationen zu integrieren, (3) aus einer Beschreibung eine „Vorstellung“ erzeugt (von der syntaktischen Oberflächenform zur Semantik) und (4) eine gegebene Wahrnehmungssituation beschreiben kann (von der Semantik zur syntaktischen Oberflächenform). Das Modell soll mit möglichst einfachen Mitteln (sowohl im Bereich der Architektur als auch dem Trainingsmaterial) sowohl das Verstehen als auch die Produktion von Sprache simulieren.

5.2. Ausblick Es konnten bei weitem nicht alle für dieses Gebiet der Semantikforschung ausschlaggebenden Überlegungen zur relevanten Forschungsliteratur dargelegt werden. Dies war auch nicht das Ziel dieser Arbeit. Nichtsdestotrotz wird es sich in anschließenden Arbeiten lohnen, auf dem einen oder anderen nur kurz erwähnten Gebiet weiter ins Detail zu gehen. Insbesondere das breite Feld Kognitiven Modellierung (auch über das Gebiet der semantischer Verarbeitung hinaus) scheint diesbezüglich vielversprechend – nicht nur auf symbolischer oder konnektionistischer Seite, son-

- 116 -

Kapitel 5: Resumé

dern auch im interessanten Bereich der hybriden Ansätze, anhand derer versucht wird, die Vorzüge beider Strömungen zu kombinieren184. Vorrangige Priorität hat jedoch die Weiterentwicklung des hier vorgestellten Modells und die Lösung einiger Fragen, die zuvor bereits genauer formuliert wurden: Ist diese doch recht einfache Architektur in der Lage, die gestellten Probleme zu lösen? Inwieweit interagieren die Problemstellungen? Wie viele Ressourcen (Trainingsepochen, Rechenaufwand, Knoten im Hidden-Layer, usw.) brauchen die Komponenten des vorgestellten Modells? Inwiefern könnten Aufgaben zum räumlichen Schließen bearbeitet werden? Welche sprachlichen Phänomene können untersucht werden? Außerdem ist m. E. eine tiefer gehende theoretische Verortung notwendig, um Ergebnisse angemessen einordnen und interpretieren zu können. Hierbei ist unter anderem an die Theorie der Perzeptuellen Symbolsysteme zu denken, die sicherlich noch genauer und reflektierter innerhalb klassischer Semantiktheorien verortet werden kann. Auch die Hinzunahme empirischer Ergebnisse zur Satzverarbeitung, die in überwältigender Masse aus den verschiedensten Bereichen vorliegen, verspricht eine tiefere Verankerung des zu entwickelnden Modells in der augenblicklichen Forschungslandschaft. Das Ziel, auf das hingearbeitet werden soll, ist die Erstellung eines konnektionistischen Modells zur semantischen Verarbeitung auf der Satz-, und eventuell auch auf der Textebene185, das sich einerseits so einfach, andererseits (auf theoretischer Ebene) so plausibel wie möglich darstellen soll. Hierzu ist noch eine Menge an Forschungsarbeit nötig, wie sie zuvor umrissen wurde. Der Anfang scheint gemacht.

Für eine Herleitung hybrider Modelle sowie die Vorstellung hybrider Modelle im Bereich der medizinischen Diagnostik vgl. die Dissertation von Koller (1999: 50ff). Auch die Arbeiten von Bader & Hitzler (und anderen) (vgl. 2004; 2005) beschäftigen sich mit diesem Thema. 185 Die Möglichkeit der Erweiterung auf die textuelle Ebene wurde bisher nicht angesprochen. Diese ist jedoch überaus interessant und eventuell bietet gerade die Arbeit mit den hier vorgeschlagenen Wahrnehmungssituationen die Chance für eine Erweiterung. Diese wäre insofern wünschenswert, dass einige Phänomene (wie beispielsweise die Auflösung anaphorischer Referenzen) lediglich auf der Textebene betrachtet werden können. 184

- 117 -

Literaturverzeichnis

6. Literaturverzeichnis Aitchison, J. (1987): Words in the Mind: An Introduction to the Mental Lexicon. Oxford, Cambridge, MA: Blackwell. Anderson, J. R. (2001): Kognitive Psychologie (R. Graf & J. Grabowski, Trans. 3. ed.). Heidelberg, Berlin: Spektrum. Anderson, J. R., & Bower, G. (1973): Human associative memory. Washington, D.C.: Winston. Anderson, J. R., & Lebiere, C. (1998): Atomic components of thought. Hillsdale, NJ: Erlbaum. Angeline, P. J., Saunders, G. M., & Pollack, J. B. (1994): An Evolutionary Algorithm that Constructs Recurrent Neural Networks. IEEE Transactions on Neural Networks, 5(1), 54-65. Bader, S., Hitzler, P., & Hölldobler, S. (2004): The Integration of Connectionism and First-Order Knowledge Representation and Reasoning as a Challenge for Artificial Intelligence. In L. Li & K. K. Yen (Hrsg.): Proceedings of the Third International Conference on Information, Tokyo, Japan (S. 22-33): International Information Institute. Bader, S., Hitzler, P., & Witzel, A. (2005): Integrating first-order logic programs and connectionist systems - a constructive approach. In A. S. d'Avila Garcez, J. L. Elman & P. Hitzler (Hrsg.): Proceedings of the IJCAI-05 Workshop on Neural-Symbolic Learning and Reasoning, NeSy’05, Edinburgh, UK. Baeumle-Courth, P. (2004): Approximation, Reduktion und Regelextraktion: Semantikbeschreibung für Neuronale Netze. Westfälische Wilhelms-Universität, Münster. Baker, C. L. (1979): Syntactic theory and the projection problem. Linguistic Inquiry, 10, 533-581. Barsalou, L. W. (1999): Perceptual Symbol Systems. Behavioral and Brain Sciences, 22(4), 577-609. Bransford, J. D., & Franks, J. J. (1971): The abstraction of linguistic ideas. Cognitive Psychology, 2, 331-380. Charniak, E. (1997): Statistical parsing with a context-free grammar and word statistics. In Proceedings of the 14th National Conference on Artificial Intelligence, Menlo Park (S. 598-603): AAAI Press/MIT Press. –––– (2000): A Maximum-Entropy-Inspired Parser. In Proceedings of the 1st Conference of the North American Chapter of the Association for Computational Linguistics (S. 132-139). Seattle, WA. Collins, A. M., & Quillian, M. R. (1969): Retrieval from semantic memory. Journal of Verbal Learning and Verbal Behavior, 8(2), 240-247.

- 118 -

Literaturverzeichnis

Copestake, A., Flickinger, D., Malouf, R., Riehemann, S., & Sag, I. (1995): Translation using Minimal Recursion Semantics. In Proceedings of the 6th International Conference on Theoretical and Methodological Issues in Machine Translation (TMI-95). Leuven, Belgien. Copestake, A., Flickinger, D., Pollard, C., & Sag, I. (2001): Minimal Recursion Semantics: An Introduction. Language and Computation, 1(3), 1-47. Corley, S., & Crocker, M. W. (2000): The Modular Statistical Hypothesis: Exploring Lexikal Category Ambiguity. In M. W. Crocker, M. Rickering & C. Clifton (Hrsg.): Architectures and Mechanisms for Language Processing (S. 135-160). Cambridge: Cambridge University Press. Cruse, A. (2006): A Glossary of Semantics and Pragmatics. Ediburgh: Edinburgh University Press. de Boinod, A. J. (2005): The Meaning of Tingo: Penguin. Dell, G. S., Chang, F., & Griffin, Z. M. (1999): Connectionist models of language production: Lexical access and grammatical encoding. Cognitive Science, 23, 517-542. Dell, G. S., Juliano, C., & Govindjee, A. (1993): Structure and content in language production: A theory of frame constraints in phonological speech errors. Cognitive Science, 17, 149-195. Dennis, S., & Kintsch, W. (2007): The text mapping and inference rule generation problems in text comprehension: Evaluating a memory-based account. In F. Schmalhofer & C. A. Perfetti (Hrsg.): Higher level language processes in the brain: inference and comprehension processes. Mahwah, NJ: Erlbaum. Dittmann, J. (2002): Wörter im Geist: Das mentale Lexikon. In J. Dittmann & C. Schmidt (Hrsg.): Über Wörter (S. 283-310). Freiburg i. Bg.: Rombach. Elman, J. L. (1990): Finding structure in time. Cognitive Science, 14, 179-211. –––– (1991): Distributed representations, simple recurrent networks, and grammatical structure. Machine Learning, 7, 195-225. –––– (1993): Learning and development in neural networks: The importance of starting small. Cognition, 48, 71-99. Fillmore, C. J. (1968): The case for case. In E. Beach & R. Harms (Hrsg.): Universals of linguistic theory. New York: Holt, Rinehart & Winston. –––– (1975): An alternative to check-list views of meaning. In Proceedings of the 1st Annual Meeting, Berkeley Linguistics Society (S. 123-131). Frank, S. L. (2005): Sentence comprehension as the construction of a situational representation: A connectionist model. In A. Russell, T. Honkela, K. Lagus & M. Pöllä (Hrsg.): Proceedings of AMKLC’05, International Symposium on Adaptive Models of Knowledge, Language and Cognition (S. 27-33). Espoo, Finland: Helsinki University of Technology. - 119 -

Literaturverzeichnis

–––– (2006): A computational model of sentence comprehension: from words to situations (Projektbeschreibung). http://www.nici.ru.nl/~stefanf/project%20description.pdf [23.12.2006]. Frank, S. L., Koppen, M., Noordman, L. G. M., & Vonk, W. (2003): Modeling knowledge-based inferences in story comprehension. Cognitive Science, 27, 875-910. –––– (2007): Modeling Multiple Levels of Text Representation. In F. Schmalhofer & C. A. Perfetti (Hrsg.): Higher level language processes in the brain: inference and comprehension processes (S. 33). Mahwah, NJ: Erlbaum. Grabowski, J. (1991): Der propositionale Ansatz der Textverständlichkeit: Kohärenz, Interessantheit und Behalten. Münster: Aschendorff. Herrmann, T., Grabowski, J., Schweizer, K., & Graf, R. (1996): Die mentale Repräsentation von Konzepten, Wörtern und Figuren. In J. Grabowski, G. Harras & T. Herrmann (Hrsg.): Bedeutung, Konzepte, Bedeutungskonzepte: Theorie und Anwendung in Linguistik und Psychologie (S. 154-210). Opladen: Westdeutscher Verlag. Hertz, J., Krogh, A., & Palmer, R. G. (1991): Introduction to the theory of neural computation. Redwood City, CA: Addison-Wesley. Hinton, G. E. (1986): Learning distributed representations of concepts. In Proceedings of the 8th Annual Conference of the Cognitive Science Society (S. 1-12). Hillsdale, NJ: Erlbaum. Johnson-Laird, P. N. (1983): Mental models. Cambridge, MA: Harvard University Press. –––– (1995): Mental models, deductive reasoning, and the brain. In M. S. Gazzaniga (Hrsg.): The cognitive neurosciences (S. 999-1008). Cambridge, MA: MIT Press. Jordan, M. I. (1986). Serial order: A parallel distributed processing approach. San Diego: University of California. Kamp, H. (1981): A theory of truth and semantic representation. In J. A. G. Groenendijk, T. M. V. Janssen & M. B. J. Stokhof (Hrsg.): Formal Methods in the Study of Language, Part 1 (S. 277-322). Amsterdam: Mathematisch Centrum. Kamp, H., & Reyle, U. (1993): From Discourse to Logic: Introduction to Modeltheoretic Semantics of Natural Language, Formal Logic and Discourse Representation Theory. Dordrecht: Kluwer Academic Press. Kingsbury, P., Palmer, M., & Mitch, M. (2002): Adding Semantic Annotation to the Penn TreeBank. In Proceedings of the Human Language Technology Conference (HLT'02). Kintsch, W. (1974): The representation of meaning in memory. Hillsdale: Erlbaum. –––– (1988): The Role of Knowledge in Discourse Comprehension: A Construction-Integration Model. Psychological Review, 95(2), 163-182. - 120 -

Literaturverzeichnis

–––– (1998): Comprehension: A Paradigm for Cognition. Cambridge: Cambridge University Press. Kintsch, W., & Greeno, J. G. (1985): Understanding and solving word arithmetic problems. Psychological Review, 92(1), 109-129. Kintsch, W., & Keenan, J. (1973): Reading rate and retention as a function of the number of propositions in the base structure of sentences. Cognitive Psychology, 5, 257-274. Kintsch, W., & van Dijk, T. (1978): Toward a model of text comprehension and production. Psychological Review, 85, 363-394. Kohonen, T. (1984): Self-organization and associative memory. New York: Springer. –––– (1990): The self-organizing map. Proceedings of the IEEE, 78, 1464-1480. –––– (1995): Self-Organizing Maps. Berlin, New York: Springer. Koller, A. (1999): Hybride Wissensverarbeitung in der präventivmedizinischen Diagnostik. Universität-GH Paderborn. Konieczny, L. (2005): The psychological reality of local coherences in sentence processing. In Proceedings of the 27th Annual Conference of the Cognitive Science Society (S. 1178-1183). Stresa, Italien. Konieczny, L., Müller, D., Böddinghaus, J., Hachmann, W., Joos, R., Kalff, C., Schwarzkopf, S., Wolfer, S. A., Wilke, P., & Wolk, C. (2006). Local coherence interpretation in spoken language comprehension: evidence from visual-world experiments with and without explicit introductions of depicted events (unveröffentlichter, erweiterter Abstract). AlbertLudwigs-Universität. Kosslyn, S. M., & Pomerantz, J. R. (1992): Bildliche Vorstellungen, Propositionen und die Form interner Repräsentation. In D. Münch (Hrsg.): Kognitionswissenschaft: Grundlagen, Probleme, Perspektiven. Frankfurt/Main: Suhrkamp. Köster, L. (1995): Von Saussure zum Konnektionismus: Struktur und Kontinuität in der Lexemsemantik und der Musiksemiotik. Wiesbaden: DUV, Deutscher Universitätsverlag. Lettvin, J. Y., Maturana, H. R., McCulloch, W. S., & Pitts, W. H. (1959): What the Frog's Eye tells the Frog's Brain. Proceedings of the Institute of Radio Engineers, 47(11), 1940-1951. Linke, A., Nussbaumer, M., & Portmann, P. R. (2001): Studienbuch Linguistik. Tübingen: Niemeyer. Löbner, S. (2003): Semantik. Eine Einführung. Berlin, New York: De Gruyter. Marcus, G. F. (1993): Negative evidence in language acquisition. Cognition, 46, 53-85.

- 121 -

Literaturverzeichnis

Marcus, M. P., Kim, G., Marcinkiewicz, M. A., MacIntyre, R., Bies, A., Ferguson, M., Katz, K., & Schasberger, B. (1994): The Penn Treebank: annotating predicate argument structure. In Proceedings of the workshop on Human Language Technology, Human Language Technology Conference (S. 114-119). Plainsboro, NJ. Marcus, M. P., Marcinkiewicz, M. A., & Santorini, B. (1993): Building a large annotated corpus of English: the penn treebank. Computational Linguistics, 19(2), 313-330. Marr, D. (1982): Vision: a computational investigation into the human representation and processing of visual information. New York: Freeman. Mayberry, M. R., III. (2003): Incremental Nonmonotonic Parsing through Semantic Self-Organization. University of Texas, Austin. Mayberry, M. R., III., & Miikkulainen, R. (1999): SardSRN: A Neural Network Shift-Reduce Parser. In Proceedings of the 16th Annual Joint Conference on Artificial Intelligence. Stockholm. –––– (2003): Incremental Nonmonotonic Parsing through Semantic Self-Organization. In Proceedings of the 25th Annual Conference of the Cognitive Science Society. Boston, Massachusetts. McClelland, J. L., & Rumelhart, D. E. (1985): Distributed memory and the representation of general and specific information. Journal of Experimental Psychology: General, 114(2), 159-188. –––– (1988): Explorations in parallel distributed processing. Cambridge, MA: MIT Press. McLeod, P., Plunkett, K., & Rolls, E. T. (1998): Introduction to Connectionist Modelling of Cognitive Processes. Oxford: Oxford University Press. Minsky, M., & Papert, S. (1972): Research at the laboratory in vision, language and other problems of intelligence. MIT Artificial Intelligence Memo, 252. Montague, R. (1970): English as a formal language. In R. H. Thomason (Hrsg.): Formal philosophy. Selected papers of Richard Montague. New Haven CT, London: Yale University Press. Oepen, S., Flickinger, D., Toutanova, K., & Manning, C. D. (2002a): LinGO Redwoods A Rich and Dynamic Treebank for HPSG. In Proceedings of the LREC parsing workshop: Beyond PARSEVAL, towards improved evaluation measures for parsing systems (S. 17-22). Oepen, S., Toutanova, K., Shieber, S. M., Manning, C., Flickinger, D., & Brants, T. (2002b): The LinGO Redwoods Treebank. Motivation and Preliminary Applications. In Proceedings of the 19th international conference on Computational linguistics - Volume 2 (S. 1-5). Taipei, Taiwan. Osgood, C. E., Suci, G. J., & Tannenbaum, P. H. (1967): The measurement of meaning. Urbana, Chicago: University of Illinois Press. Pinker, S. (1984): Language learnability and language development. Cambridge, MA: Harvard University Press. - 122 -

Literaturverzeichnis

–––– (1999): Out of the Mind of Babes. Cognition, 283, 40-41. –––– (2002): The blank slate: The modern denial of human nature. New York: Viking. Pollack, J. B. (1990): Recursive distributed Representations. Artificial Intelligence, 46(77-105). Posner, M. I., Goldsmith, R., & Welton, K. R., Jr. (1967): Perceived distance and the classification of distorted patterns. Journal of Experimental Psychology, 73, 28-38. Posner, M. I., & Keele, S. W. (1968): On the genesis of abstract ideas. Journal of Experimental Psychology, 77(3), 353-363. Pylyshyn, Z. W. (1973): What the mind's eye tells the mind's brain. Psychological Bulletin, 80, 1-24. Quillian, M. R. (1966): Semantic Memory. Cambridge, MA: Bolt, Beranak & Newman. Raaijmakers, J. G. W., & Shiffrin, R. M. (1981): Search of Associative Memory. Psychological Review, 88(2), 93-134. Ratcliff, R., & McKoon, G. (1978): Priming the item recognition: Evidence for the propositional structure of sentences. Journal of Verbal Learning and Verbal Behavior, 17, 403-418. Regier, T. (2005): The Emergence of Words: Attentional Learning in Form and Meaning. Cognitive Science, 29, 819-865. Reik, P., & Skrandies, W. (2006): Die affektive Bewertung von imaginierten Gerüchen mit dem semantischen Differential. Zeitschrift für Psychologie, 214(2), 108-115. Rips, L. J., & Marcus, S. L. (1977): Supposition and the analysis of conditional sentences. In M. A. Just & P. A. Carpenter (Hrsg.): Cognitive Processes in comprehension. Hillsdale, NJ: Erlbaum. Rohde, D. L. T. (1999). The Simple Language Generator: Encoding complex languages with simple grammars. School of Computer Science, Carnegie Mellon University. –––– (2002): A connectionist model of Sentence Comprehension and Production. Carnegie Mellon University, Pittsburgh, PA. Rohde, D. L. T., & Plaut, D. C. (1999): Language acquisition in the absence of explicit negative evidence: How important is starting small? Cognition, 72(1), 67-109. Rosch, E. H. (1973): Natural categories. Cognitive Psychology, 4, 328-350. Rumelhart, D. E., & McClelland, J. L. (1986): On learning the past tense of English verbs. In J. L. McClelland & D. E. Rumelhart (Hrsg.): Parallel distributed processing: Explorations in the microstructure of cognition (Vol. 2). Cambridge, MA: MIT Press / Bradford Books. - 123 -

Literaturverzeichnis

Schneider, W. (1988): Sensitivity analysis in cognitive modeling. Behavior Research Methods, Instruments & Computers, 20, 282-288. Simon, H., & Wallach, D. (1999): Cognitive Modelling in Perspective. Kognitionswissenschaft, 8, 1-4. Smolensky, P. (1988): On the proper treatment of connectionism. Behavioral and Brain Sciences, 11, 1-74. St. John, M. F., & McClelland, J. L. (1988): Applying contextual constraints in sentence comprehension. In Proceedings of the 10th annual conference of the Cognitive Science Society (S. 26-32). Hillsdale, NJ: Erlbaum. –––– (1990): Learning and applying contextual constraints in sentence comprehension. Artificial Intelligence, 46, 217-457. –––– (1992): Parallel constraint satisfaction as a comprehension mechanism. In R. G. Reilly & N. E. Sharkey (Hrsg.): Connectionist approaches to natural language processing (S. 97-136). Hillsdale, NJ: Erlbaum. Strube, G. (2000): Generative Theories in Cognitive Psychology. Theory & Psychology, 10, 117-125. –––– (2001): Digitales Wörterbuch der Kognitionswissenschaft. –––– (2003): Kognition als Berechnung. Menschliche und maschinelle Intelligenz im Blick der Kognitionswissenschaft. In A. Becker, C. Mehr, H. H. Nau, G. Reuter & D. Stegmüller (Hrsg.): Gene, Meme und Gehirne (S. 227-255). Frankfurt: Suhrkamp. van Dijk, T., & Kintsch, W. (1983): Strategies of discourse comprehension. New York: Academic Press. Wason, P. C., & Johnson-Laird, P. N. (1972): Psychology of reasoning: Structure and content. Cambridge, MA: Harvard University Press. Whittlesea, B. W. A. (1983): Representation and generalization of concepts: The abstractive and episodic perspectives evaluated. Unpublished Doctoral Dissertation, MacMaster University, Hamilton, Ontario. Willi, U. (2001): Phonetik und Phonologie. In A. Linke, M. Nussbaumer & P. R. Portmann (Hrsg.): Studienbuch Linguistik (S. 401-435). Tübingen: Niemeyer. Wittgenstein, L. (1921): Tractatus logico-philosophicus. Logisch-philosophische Abhandlung. Wray, R. E., & Jones, R. M. (2005): An introduction to SOAR as an agent architecture. In R. Sun (Hrsg.): Cognition and Multi-agent Interaction: From Cognitive Modeling to Social Simulation (S. 5378): Cambridge University Press.

- 124 -