(1) Lexikalische Semantik: Kann man systematische Polysemie kontextuell (automatisch) bestimmen?

Vorgeschlagene Themenbereiche (1) Lexikalische Semantik: Kann man systematische Polysemie kontextuell (automatisch) bestimmen? naive Definition: Homon...
Author: Clemens Bach
24 downloads 0 Views 141KB Size
Vorgeschlagene Themenbereiche (1) Lexikalische Semantik: Kann man systematische Polysemie kontextuell (automatisch) bestimmen? naive Definition: Homonymie: eine Zeichenkette hat zwei oder mehr Lesarten, die semantisch (oder etymologisch) nicht miteinander verwandt sind: Bank Polysemie: eine Zeichenkette hat zwei oder mehr Lesarten, die semantisch miteinander zusammenhängen: verstehen systematische Polysemie: Lesartenvariation, die für alle Wörter einer bestimmten semantischen Klasse gilt: Schwein, Huhn Seit Bierwisch (1982) werden folgende Fälle systematischer Polysemie viel diskutiert. Schule (Universität, Kindergarten, Regierung (?), Oper, Theater, ...) GEBÄUDE: Die Schule liegt an der Goethestraße. INSTITUTION: Er verließ die Schule mit 16. GRUPPE VON PERSONEN: Die Schule hat gestern einen Ausflug gemacht. Oper (Sonate, Operette, Lied, ...) MUSIKSTÜCK: Ich habe gestern eine Oper gehört. ARTEFAKT: Die Oper liegt auf dem Tisch. In der Computerlinguistik gibt es das Bestreben, verschiedene 'Lesarten' (Senses) eines Wortes (einer Zeichenkette) automatisch zu bestimmen (word sense disambiguation, automatisches Lesartentagging). In einem weit verbreiteten Ansatz werden dabei sogenannte Kontextvektoren ausgewertet: man geht davon aus, dass die unterschiedlichen Lesarten zusammen mit unterschiedlichen Wörtern vorkommen. Ganz grob Schule als GEBÄUDE kommt vor mit Wörtern wie liegen, Backsteinbau, Auto, hinbringen, ... Schule als INSTITUTION kommt vor mit Wörtern wie allgemeinbildend, Thema, lernen, ... Anhand der Kontextwörter sollten dann die Lesarten voneinander abgrenzbar sein. Die Kontextwörter können automatisch bestimmt werden, wenn ein Teil des Textes von Hand vorklassifiziert ist. Aufgabe: Kann man die oben beschriebenen Lesarten von Institutionswörtern mit computerlinguistischen Methoden zum Lesartentagging (Kontextvektoren) finden? Welche Schwierigkeiten ergeben sich (a) für die theoretischen Grundlagen der Lesartenbestimmung (die naive Definition) und (b) für die verschiedenen computerlinguistischen Methoden? Literatur: Bierwisch, Manfred (1982) Formal and lexical semantics. In: Linguistische Berichte 80, 3-17 Bierwisch, Manfred (1983) Semantische und konzeptuelle Interpretation lexikalischer Einheiten. In: Růžička, Rudolf & Motsch, Wolfgang (eds) Untersuchungen zur Semantik. Akademie Verlag, Berlin, 61-99 Jurafsky, Daniel & Martin, James H. (2000) Speech and Language Processing. An Introduction to Natural Language Processing, Computational Linguistics and Speech Recognition. Prentice Hall, Upper Saddle River (NJ), Kapitel 3 Stevenson, Mark & Wilks, Yorick (2003) Word-Sense Disambiguation. In: Mitkov, Ruslan (ed) The Oxford Handbook of Computational Linguistics. Oxford University Press, Oxford, 249 – 265

(2) Syntax: Wortstellung nominaler Elemente im Mittelfeld Konstituenten im deutschen Mittelfeld können relativ frei umgestellt werden: ... dass gestern ein Kind einer Frau geholfen hat ... dass gestern einer Frau ein Kind geholfen hat ... dass ein Kind gestern einer Frau geholfen hat ... dass einer Frau gestern ein Kind geholfen hat etc. Allerdings sind nicht immer alle Permutationen moeglich, und manche sind es nur in bestimmten Kontexten. ?... dass den Wein Otto braucht Welche Faktoren hier eine Rolle spielen, ist immer noch umstritten. In der Literatur werden z.B. genannt (Lenerz 77, Hoberg 81): Thema-Rhema, Informationsstruktur Definitheit Belebtheit Thematische Rollen (Agentivitaet) Verbsemantik (Psychverben, Unakkusativa) Schwere der Konstituenten ... Aufgabe: Ueberlegen Sie, ob bzw. wie gut/einfach sich die vorgeschlagenen Faktoren mit Hilfe eines Korpus naeher untersuchen lassen. Welche Anforderungen werden an Korpora gestellt, die als Grundlage solcher Untersuchungen dienen sollen? Wo liegen die Probleme? Literatur: deutsche Grammatiken Hoberg, Ursula (1981) Die Wortstellung in der geschriebenen deutschen Gegenwartssprache. Hueber, München Hoehle, Tilman (1982) Explikation fuer "normale Betonung" und "normale Wortstellung". In Abraham, Werner ( ed) Satzglieder im Deutschen. Narr, Tübingen, 75 - 153 Lenerz, Jürgen (1977) Zur Abfolge nominaler Satzglieder im Deutschen. Narr, Tübingen Bei dieser Aufgabe wird Ihnen Dr. Stefanie Dipper ([email protected]) helfen, die das TIGER-Korpus (deutsche Baumbank) mitentwickelt hat. (3) Textlinguistik: Wie kann man die Unterschiede zwischen zwei Mengen von Texten (Genres, Texte von verschiedenen Autoren, Texte aus verschiedenen Zeiten, ...) modellieren?

Zwei Texte zum Thema 'Schule': (A) HwO § 27a ( 1 ) Das Bundesministerium für Wirtschaft und Technologie kann im Einvernehmen mit dem Bundesministerium für Bildung und Forschung nach Anhören des ständigen Ausschusses des Bundesinstituts für Berufsbildung durch Rechtsverordnung bestimmen , daß der Besuch einer berufsbildenden Schule oder die Berufsausbildung in einer sonstigen Einrichtung ganz oder teilweise auf die Ausbildungszeit anzurechnen ist . ( 2 ) Die Handwerkskammer hat auf Antrag die Ausbildungszeit zu kürzen , wenn zu erwarten ist , daß der Lehrling ( Auszubildende ) das Ausbildungsziel in der gekürzten Zeit erreicht. (Gesetzestext aus der Handwerksordnung) (B) Saarland will ja jetzt als erstes Bundesland gutes Benehmen als eigenes Fach in der Schule einführen. Ich will nicht behaupten, daß diese Bemühung an und für sich schlecht ist, aber Benimm ist doch im Grunde keine Frage des Wissens sondern des Wollens. Grundsätzlich sind die meisten Menschen, und nicht nur die Schüler, doch einfach zu faul, "Danke" und "Bitte" zu sagen, die Tür aufzuhalten und zu grüßen. Ist ja nicht so, daß sie sich das nicht denken können. Und selbst wenn nicht, bei einer Wochenstunde sind das an die 40 Einheiten zum guten Benehmen. Was soll man da denn alles durchnehmen? Wie man Bananen mit dem Besteck ißt? (Weblog, http://www.pragmatick.de/index.php?id=P337, 20.08.2003, 14:40) Die Texte unterscheiden sich in mehreren Merkmalen. Dabei sind die Merkmale nicht immer kategorial sondern oft graduell A hat längere Sätze als B A hat mehr Nominalisierungen als B B verwendet im Ggs. zu A Personalpronomina in der 1.Person ... Aufgabe: Wie überprüft man solche intuitiv erstellten Merkmalslisten? Wie leitet man aus einer solchen Liste von Merkmalen Textmodelle ab? Wie gewichtet man die Merkmale? Welche Merkmale sind wirklich relevant, um diese beiden texte zu unterscheiden? Methode: Wenn man die Unterschiede zwischen zwei Mengen von Texten modellieren möchte, muss man zunächst eine Menge von qualitativen Merkmalen herausarbeiten (und begründen), die zur Unterscheidung dieser Textmengen sinnvoll erscheinen (Wortlänge, Satzlänge, Tempus der Verben, Anzahl Fremdwörter etc.). Dann muss man diese Merkmale in den Textmengen zählen (manuell, semi-automatisch, automatisch). Die Zählungen können dann in einem statistischen Verfahren (Faktoranalyse) ausgewertet werden, bevor sie linguistisch interpretiert werden. Literatur: Biber, Douglas, S. Conrad, and R. Reppen. (1998) Corpus linguistics: Investigating language structure and use. Cambridge University Press, Cambridge McEnery, Tony (2003) KOMMT NOCH (4) Morphologie/Sprachwandel: Wie werden englische Fremdwörter in das flexionsmorphologische System des Deutschen integriert? (Achtung: Dies ist kein sprachpflegerisches Referat!)

Wie fremde Wörter in eine Sprache integriert werden, ist von einer Vielzahl von Faktoren in der Geber- und der Nehmersprache abhängig. So scheint die Zuordnung eines Nomens zu einem Genus von der phonologischen Gestalt und von der Bedeutung beeinflusst zu werden. der File oder das File das Email oder die Email Dabei ist die Sprachgemeinschaft oft eine zeitlang unsicher Der Backslash in der letzten Zeile ist enorm wichtig. Er verhindert, dass Mails an diese Adresse noch ein weiteres Mail geforwarded werden. /http://www.uni-paderborn.de/gurus/postmaster/mailforward.html, meine Hervorhebung) Default: Yes, gibt an ob eine AFS Token zum Server geforwardet werden soll. (http://www.net-tex.de/unix/ssh.html, meine Hervorhebung) Denn tatsächlich, so David Kennedy, ein Sicherheitsanalytiker der National Computer Security Association, wäre das Problem schon morgen nicht mehr vorhanden, wenn ListservAdministratoren die Subscribe-Anfragen verifizierten. Bevor also dutzende von Mails an den vermeintlichen Abonnenten forgewardet werden, wird dieser nach seinem Einverständnis gefragt bzw. die Authenzität seiner Subscription wird eingeholt. (http://www.wildpark.com/konserve/netzzeug/una/c_una_nz.html, meine Hervorhebung) Aufgabe: Beschreiben Sie, wie englische Fremdwörter in das flexionsmorphologische System des Deutschen integriert werden. Diskutieren Sie, ob die Integrationsprozesse kategorial oder eventuell auch probabilistisch ablaufen. komplexe Verben: Wie werden bei komplexen Verben die Präfixe/Partikeln klassifiziert? Nomina: Wie wird die Flexionsklasse eines Fremdworts gewählt? Ist der s-Plural wirklich der Defaultplural? Wie wird das Genus eines Fremdworts bestimmt? Literatur: Eisenberg, Peter (2001) Die grammatische Integration von Fremdwörtern. Was fängt das Deutsche mit seinen Latinismen und Anglizismen an? In: Stickel, Gerhard (ed) Neues und Fremdes im deutschen Wortschatz. de Gruyter, Berlin, 183-209 (5) Morphologie: Fugenelemente oder Kompositionsstammformen? Die sogenannten 'Fugenelemente' in deutschen Wortbildungen (hier nur Nominalkomposita) (a) Arbeitsamt, Katzenfutter, Hundepfote, ... werden unterschiedlich interpretiert. Fuhrhop (1998) und Eisenberg (1998) reden nicht von Fugen, sondern analysieren den Nichtkopf mit den zusätzlichen Elementen als Kompositionsstammform. Kompositionsstammformen gehören dann zu einem Nomen wie die Flexionsklasse etc. (z. B.Flexionsstamm Katze, Kompositionsstamm Katzen). Einige Nomina haben mehrere Kompositionsstammformen

(b) Kindergarten, Kindesentführung, Kindfrau, Kindstod Das kann man nach Fuhrhop und Eisenberg dadurch modellieren, dass man mehrere Kompositionsstämme angibt (so auch in Lüdeling & Fitschen 2002). Der Kopf eines Kompositums hat in dieser Analyse keinen Einfluss auf die 'Fuge'. Die 'Fuge' wird nicht semantisch interpretiert. Interessant ist aber in Fällen wie (b), wie die verschiedenen Stämme verteilt sind und zugewiesen werden. Krott (2001) hat für niederländische Fugen ein analogiebasiertes Modell vorgeschlagen, in dem sowohl Nichtkopf als auch Kopf einen Einfluss haben. Aufgabe: Wie kann man die Kompositionsstammanalyse korpusbasiert überprüfen? Wie hoch ist der Anteil der Nomina mit mehreren Kompositionsstammformen? Kann man diese ohne Rückgriff auf den Kopf erklären? Oder muss man Krotts Modell auf das Deutsche übertragen?1 Eisenberg, Peter, 1998. Grundriss der deutschen Grammatik. Band 1: Das Wort. J.B. Metzler, Stuttgart. Fuhrhop, Nanna, 1998. Grenzfälle morphologischer Einheiten. Stauffenburg-

Verlag, Tübingen.

Krott, Andrea, 2001. Analogy in Morphology. The Selection of Linking Elements in Dutch Compounds. MPI Series in Psycholinguistics, Nijmegen. Lüdeling, Anke and Fitschen, Arne (2002) An integrated lexicon for the analysis of complex words in: Proceedings of EURALEX 2002

(6) Deutsch als Fremdsprache: Fehlerklassifikation Durch die Auswertung von Lernerkorpora (Korpora, in denen Aufsätze etc. von Sprachlernern gesammelt sind) können 'typische' Fehler von Lernern analysiert werden. Die Fehlerklassifikation von Lernerfehlern erweist sich dabei als schwierig. Strukturelle Fehler: wie muss die zugrundeliegende grammatische Analyse aussehen? Welche Annahmen über die Tiefe der Analyse der Lerner können gemacht werden? Nichtstrukturelle Fehler: Wann wurde eine bestimmte Konstruktion zu oft oder zu selten angewendet? Aufgabe: Erstellen Sie ein (kleines!) Lernerkorpus und zeigen Sie exemplarisch, wie Fehler sinnvoll klassifiziert und annotiert werden könnten. http://www.philhist.uni-augsburg.de/faecher/germanis/daf/forschung/fehler/gruppe.html http://www.fltr.ucl.ac.be/FLTR/GERM/ETAN/CECL/publications.html#learner

1

Krott hat eine Übertragung vorgeschlagen, hier werden allerdings die Fälle, in denen die Wahl eindeutig ist, nicht ausgeschlossen. Daher müssten ihre Ergebnisse überprüft werden.