Arbeitsgruppe 3: Korpusbasierte Registeranalyse

Arbeitsgruppe 3: Korpusbasierte Registeranalyse Wie kann mit korpuslinguistischen Mitteln zwischen verschiedenen Textsorten unterschieden werden? Ma...
Author: Brit Heintze
2 downloads 0 Views 2MB Size
Arbeitsgruppe 3: Korpusbasierte Registeranalyse

Wie kann mit korpuslinguistischen Mitteln zwischen verschiedenen Textsorten unterschieden werden?

Marlon Berlin Kapka Borisova Stephan Klinger Cornelius Lejeune Björn Piltz Anne Sauer

g Merkmale †

†

g

Sie sagen immer, Sie beugten sich nicht dem „Druck der Straße“, es imponierten Ihnen weder Streikaktionen noch Demonstrationen. Aber wenn die Arbeitgeberpräsidenten einmal eine kleine Pressekonferenz geben, dann zucken Sie sofort zurück und machen alles, was sie Ihnen auftragen. Das ist die Realität der Politik dieser Koalition. (Beifall bei der PDS). Das Erscheinen des Handbuchs ist selbst Teil einer solchen Phase. Ziel ist es, „einerseits den erreichten Entwicklungsstand im Sinne einer Bilanzierung dar zu stellen, andererseits jedoch keine Geschlossenheit vor zu täuschen, wo diese noch nicht gegeben ist, sondern durchaus zur weiteren Konsolidierung des Faches bei zu tragen“ ( S . VI ) . 23 Kapitel werden unter systematischen Gesichtspunkten zu drei Komplexen zusammengefasst.

Die Untersuchung von Biber (1) †

Douglas Biber hat eine entsprechende Frage im Englischen untersucht: Biber, Douglas, S. Conrad and R. Reppen (1998) Corpus Linguistics. Investigating language structure and use, Cambridge University Press, Camebridge.

†

Arbeitsweise bei Biber: „

Entwicklung einer Merkmalsliste anhand verschiedener theoretischer Überlegungen.

„

Erstellung eines eigenen Korpus mit klarer Abgrenzung der einzelnen Texte und Textsorten.

„

Auszählung und Normalisierung der auftretenden Merkmale je Text.

Die Untersuchung von Biber (2) †

Arbeitsweise bei Biber: „ Statistische Auswertung der Daten: Welche Merkmale erscheinen immer / häufig / selten / nie zusammen in einem Text? Erzeugung von Faktoren (Faktorenanalyse). „ Interpretation der Faktoren und Umwandlung in Dimensionen. Jeder Textsorte kann eine typische Kombination von Dimensionswerten zugewiesen werden. „ Untersuchung an neuen, unbekannten Texten und automatische Zuordnung zu einer Textsorte mittels der entwickelten Dimensionen.

g Aufbau des Vortrags †

†

†

( )

Ziel Bibers: Entwicklung eines Werkzeugs zur automatischen Zuordnung von Texten zu Textsorten. Unser Ziel: Eine entsprechende Untersuchung im Deutschen. Aufbau des Vortrags: „ Einleitung „ Merkmale „ Korpus „ Statistische Auswertung „ Interpretation „ Zusammenfassung

Merkmalsauswahl (1): Allgemein †

Unsere Liste der untersuchten Textmerkmale setzt sich zusammen aus: „ Merkmalen, die auch Biber untersucht hat und die für eine Analyse deutscher Texte ebenfalls sinnvoll erschienen, z.B. Wortlänge, Nomen, Personalpronomen. „ Merkmalen, von denen wir auf Grund von eigenen Textvergleichen annahmen, dass sie ebenfalls zur Unterscheidung von Textsorten relevant sein könnten, z. B. Personalpronomen 2. Person (Anrede), Nominalphrasen im Genitiv, Eigennamen, Zahlen.

Merkmalsauswahl (2): Beispiel †

†

Sie sagen immer, Sie beugten sich nicht dem „Druck der Straße“, es imponierten Ihnen weder Streikaktionen noch Demonstrationen. Aber wenn die Arbeitgeberpräsidenten einmal eine kleine Pressekonferenz geben, dann zucken Sie sofort zurück und machen alles, was Sie Ihnen auftragen. Das ist die Realität der Politik dieser Koalition. (Beifall bei der PDS). Das Erscheinen des Handbuchs ist selbst Teil einer solchen Phase. Ziel ist es, „einerseits den erreichten Entwicklungsstand im Sinne einer Bilanzierung dar zu stellen, andererseits jedoch keine Geschlossenheit vor zu täuschen, wo diese noch nicht gegeben ist, sondern durchaus zur weiteren Konsolidierung des Faches bei zu tragen“ ( S . VI ) . 23 Kapitel werden unter systematischen Gesichtspunkten zu drei Komplexen zusammengefasst.

Suchanfragen (1): Formulierung †

Es wurden Suchanfragen für die Merkmale der Liste formuliert. Dabei wurden einige Merkmale mit zusätzlichen Anfragen spezifiziert, z. B.: „ Nomen: [pos="NN"]; † Nominale Phrasen mit adjektivischen Attributen: [pos="ADJA"]{1,4}[pos="NN"]; † Nominalphrasen im Genitiv: [pos="NN"][pos="ART"&word="de(r|s)"]; „ Personalpronomen: [pos="PPER"|pos="PRF"]; † 2. Person (Anrede): [word="Sie"|word="(D|d)u"];

Suchanfragen (2): Probleme †

Bei der Formulierung der Suchanfragen ergaben sich v. a. folgende Probleme: „ Für Tempusabfragen erwies sich die Annotation unserer Korpora als unzureichend. „ Suchanfragen innerhalb von Satzgrenzen (within s) funktionierten nicht korrekt. „ Suchanfragen ergaben auf Grund von fehlerhaften Tags unkorrekte Treffer, z. B. die Suche nach Adjektiv-Reihungen: † Suchanfrage [dtt-pos="ADJA"]{2,20}; † Ergebnis in GEKO: Er/NN schonte/VVFIN sie/ADJA sehr/ADJA ,/ADJA indem/ADJA er/ADJA die/ADJA Schuld/NN allein/ADV

g ( ) Suchanfragen †

Für die Untersuchung wurden schließlich eine Liste mit 40 Suchanfragen verwendet.

Korpusarbeit

Korpusarbeit

Korpuswahl (1): Anforderungen †

Das Korpus muss . . . „ Eine Suche nach verschiedenen Textsorten erlauben. „

Eine Suche nach einzelnen Texten erlauben.

„

Zur Normalisierung und Formulierung komplexer Suchabfragen Zugriff auf komplette Texte erlauben. Linguistisch Annotiert sein.

„

Korpuswahl (2): DWDS †

Das DWDS-Korpus verfügt über verschiedene Textsorten und über linguistische Annotation, aber: „ Textsorte und Annotation sind in verschiedenen Datenbanken abgelegt, eine kombinierte Suche ist auch mit hohem Aufwand nicht möglich. „ Zudem ist keine Suche in einzelnen Texten durchführbar. „ Es gibt keinen Zugriff auf komplette Texte aus urheberschutzrechtlichen Gründen. Die alternative Verwendung der Annotation der Textlänge ist nicht bei allen Texten möglich.

Korpuswahl (3): Institutskorpora †

Viele Anforderungen sind erfüllt

†

Die Suche ist über das Webinterface nur schwer zu automatisieren. Zudem belasten die vielen, recht aufwendigen Suchabfragen die Server zu stark.

†

Des weiteren ist die Suche innerhalb einzelner Texte in den für uns wichtigen Parlamentsreden über das Webinterface nicht möglich.

p ( ) g CorpusWorkBench (CWB) †

†

†

In Folge all dieser Schwierigkeiten bot sich die Möglichkeit, die relevanten Daten (Korpora) und Programme selbst zu installieren und die auch im Institut verwendete CWB direkt zu benutzen. Vorteile: Man hat ... „ Vollen Zugriff ohne künstliche Einschränkungen (Web-Zugang, Server-Wartezeiten, fehlende Automatisierung). Nachteile: „ Korpora müssen selbst getaggt, erstellt, eingebunden werden.

CWB (1): Verwendete Korpora

†

Ausschnitt des GEKO-Korpus

†

Parlamentsreden

†

Märchen

CWB (2): GEKO-Korpus †

Das GEKO-Korpus bietet verschiedene Textsorten und ist mit Header-Informationen versehen.

†

Die Textsorte “Gebrauchstexte” ist wegen der geringen Größe (3446 Token) von der Analyse ausgenommen. Die Textsorte „Persönliche Kommunikation“ kann ebensowenig benutzt werden; die einzelnen Einträge sind zu kurz. Das GEKO-Korpus wurde zusätzlich mit dem Treetagger annotiert.

†

†

CWB (3): Parlamentsreden †

Die Parlamentsreden sind für die Analyse interessant, weil diese die beste Annäherung an gesprochene Sprache darstellen, die zur Verfügung steht.

†

Das Korpus war bereits getaggt im Institut vorhanden. „ Wir benutzen eine zufällige Auswahl an Reden.

CWB (4): Märchen †

Märchen sind verschieden von den anderen vorhandenen Textsorten. Sie weisen Reste von ihrer oralen Herkunft auf. Märchen haben eine ähnliche Handlungsstruktur.

†

Für die Untersuchung wurden online frei verfügbare Märchen aufbereitet (Projekt Gutenberg, http://gutenberg.spiegel.de/info/genres/29.htm).

Märchen, Aufbereitung

Märchen, Aufbereitung Aus dem html-Format mussten wir die Strukturelemente entfernen und Headerinformationen hinzufügen.

Märchen, Aufbereitung †

Zuletzt wurde jedes Märchen mit dem Treetagger in Token zerlegt und mit POSund LemmaInformationen versehen

( ) Korpuszusammenstellung †

†

†

Unser Korpus setzt sich aus verschiedenen Quellen zusammen. Dabei stammen . . . „ aus GEKO 58580 Token. „ aus den Parlamentsreden 645190 Token. „ und aus den Märchen 58717 Token Insgesamt sind das 762487 Token bei 5 Textsorten und 83 verschiedenen Einzeltexten. An dieses Korpus wurden die über die Merkmale entwickelten Anfragen gestellt. Die absoluten Häufigkeistwerte der Merkmale wurden je Text normalisiert.

Statistische Auswertung

†

An die Arbeit am Korpus schließt sich die statistische Auswertung mittels der Faktorenanalyse an, welche die normalisierten Daten zueinander in Beziehung zu setzen versucht.

Faktor 1 R e la t iv p ro n o m e n , K o p u la S e in P e rs o n a lp ro n o m e U n t O rd , K o n j H ilfs v e rb e n M o d a lv e rb e n N e g a t io n X 1 , p e rs o n In t e rro g a t iv p ro n o m Z E IT D e m o n s t ra t iv p ro n E x p le t iv V e rg a n g e n h e it A n t w o rt p a rt ik e l

0 ,6 8 5 7 0 ,6 6 0 1 0 ,6 5 9 4 0 ,6 5 7 2 0 ,6 5 1 8 0 ,6 2 0 6 0 ,6 1 1 4 0 ,5 3 5 2 0 ,5 1 7 1 0 ,5 0 3 5 0 ,4 9 4 3 0 ,4 5 7 9 0 ,4 4 3 0 0 ,3 9 7 3

P o s s e s s iv p ro n o m a n re d e X 1 , 2 , P e rs o n , p o s s D a s , A d v e rb , s c h o P ra e s e n s O rt P ra e p , p h ra s e n w o rt la e n g e S o n d e rz e ic h e n Nom e n N o m in a lp h ra s e n , i Z a h le n , Z iffe rn Z a h le n

0,3941 0,3925 0,3886 0,3614 0,3344 0,3002 -0 , 3 0 7 1 -0 , 5 7 6 2 -0 , 7 9 7 3 -0 , 7 9 8 9 -0 , 8 4 9 9 -0 , 8 6 9 1 -0 , 8 8 3 7

Faktoren 2 und 3 Faktor 2 P ra e p o s it io n e n P ra e p o s it io n a lp h ra P ra e p , p h ra s e n N o m in a le , P h ra s e n w o rt la e n g e Nom e n P a rt iz ip P ra e s D e m s t r1 a n re d e P e rs o n a lp ro n o m e n O rt In t e rje k t io n A n t w o rt p a rt ik e l

Faktor 3 0,9864 0,9718 0,8959 0,5871 0,4992 0,4602 0,4376 0,3495 -0 , 4 1 2 9 -0 , 4 2 1 7 -0 , 4 4 2 0 -0 , 4 5 6 7 -0 , 5 3 8 0

P e rs ona lpronome n UntOrd,Konj Ne ga tion X1,pe rs on Ve rga nge nhe it Re la tivpronome n,a tt Nome n P a rtiz ipP ra e s wortla e nge Nomina le ,P hra s e n,mi P ra e s e ns

0,5471 0,4551 0,4311 0,4070 0,3950 -0,3039 -0,3137 -0,4215 -0,4392 -0,6487 -0,6754

Faktor 1

Interpretation Faktor 1 Charakterisierung: Formal vs. Informal Textstelle: Märchen: Lieb und leid teilen Es war einmal ein Schneider , der war ein zänkischer Mensch , und seine Frau , die gut , fleißig und fromm war , konnte es ihm niemals recht machen . Was sie tat , er war unzufrieden , brummte , schalt , raufte und schlug sie .

Textstelle: Fachtext: Bilingualismus [..] vollzieht sich ein vergleichbarer Prozess im Alter von 2 - 9 . 7 . 2 . 1 . Subjekt-Verb-Kongruenz in der frühkindlichen Verbverwendung Für die deutsche Sprache gilt : Im Alter von 1 - 11 ( C ) bzw 2 ; 8 ( P ) verwenden die Kinder grammatische Subjekte ( siehe Abbildung ) . Im Alter von 2 - 9 ( C ) bzw 3 ; 3 ( P ) verwenden sie fast ausschlielich pronominale Subjekte . [..]

Faktor 2

Interpretation Faktor 2 Charakterisierung: Literal vs. Oral Textstelle: Fachtext: Grommes1 Und diese Referenz ist keineswegs eindeutig , da in 661 mit es auf das Schneiden der Spange referiert wird und in Zeile 664 eher auf den Tumor , der wegen seines Gewichts COPs Bewegungsfreiheit einschränkt .

Textstelle: Märchen: Jude im Dorn Da antwortete der Geizhals ' ja , mein lieber Knecht , du hast mir unverdrossen gedient , dafür sollst du mildiglich belohnet werden [..] dann schrie er aus Leibeskräften ' du miserabler Musikant , du Bierfiedler : wart , wenn ich dich allein erwische ! ich will dich jagen , daß du die Schuhsohlen verlieren sollst ; du Lump , steck einen Groschen ins Maul , da du sechs Heller wert bist , ' und schimpfte weiter , was er nur losbringen konnte

Faktor 3

Interpretation Faktor 3 Charakterisierung: Argumentativ? Komplex? Typische Textstellen sind nicht mehr auszumachen. Die Relevanz dieses Faktors ist nur noch durch komplexe Muster von Merkmalskombinationen auszumachen.

Vergleich der Faktoren

Schluss

Bibliographie †

Biber, Douglas: Corpus Linguistics. Investigating language structure and use. Cambridge 1998.

†

Biber, Douglas: Dimensions of Register Variation: A cross-linguistic Comparison. 1995.

†

Oakes, Michael P.: Statistics for Corpus Linguistics. Edinburgh1998.