Text Mining Wissensrohstoff Text Gerhard Heyer Universität Leipzig [email protected]

Institut für Informatik

Klassifikation

Klassifikation

Prof. Dr. G. Heyer

Text Mining – Wissensrohstoff Text

2

Klassifikation Problem: Automatische Klassifikation von Patenten nach IPC Ein Klassifikator ist eine möglichst gute Annäherung an die unbekannte Zielfunktion  : DxC  {T , F } mit den Dokumenten D und den Kategorien C, welche jedem Paar ∈ DxC einen Wahrheitswert zuweist. Zielfunktion kann durch Trainingsdaten angenähert werden.

Prof. Dr. G. Heyer

Text Mining – Wissensrohstoff Text

3

Klassifikation Erläuterung der Definition

• Dokument Klassifikation: Berechnung eines Wertes {0,1} zu jedem Eintrag in der Dokument-Kategorie-Matrix. • C = {c1,....., cm} ist eine Menge vordefinierter Kategorien. • D = {d1,..... dn} ist eine Menge von Dokumenten. • 1 für aij: Zuordnung von dj zu ci • 0 für aij: keine Zuordnung von dj zu ci Prof. Dr. G. Heyer

Text Mining – Wissensrohstoff Text

4

Klassifikation Machine Learning Verfahren

Dokumentvektoren spannen einen Vektorraum auf. Die meisten (alle?) Lernverfahren aus dem machine learning sind für das Klassifikator-Training einsetzbar. Einige Klassifikationsverfahren: – – – – –

Naive Bayes Entscheidungsbäume Support vector machines (SVM) Kernel Funktionen etc. etc.

Prof. Dr. G. Heyer

Text Mining – Wissensrohstoff Text

5

Klassifikation Leistungsfähigkeit verschiedener Klassifikatoren •

Messen von Precision und Recal (F-value) bei Anwendung nach Training und Klassifikation auf Reuters Korpus Nr. 4 mit 90 Klassen: F-value Naive Bayes

74.7% - 79.5%

Decision Rules

82.2% - 82.7%

Regression Rocchio Neural Network

Example-based (k-NN) SVM AdaBoost (commitee)



84.9% 61.7% - 78.1% 83.8%

82% - 86% 84.1% - 87% 87.8%

Quelle: [Sebastiani 2002], Standardreferenz für Analyse verschiedener Klassifikationssysteme bei diversen Klassifikationsaufgaben

Klassifikation Wiederholung: Bayes„sche Formel

P( h | D )  mit: P(h|D) = P(h) = P(D|h) = P(D) =

P( D | h ) P( h ) P( D )

a posteriori Wahrscheinlichkeit von h a priori Wahrscheinlichkeit von h Wahrscheinlichkeit des Ereignisses D unter der Hypothese h Wahrscheinlichkeit des Ereignisses D unabhängig von einer Hypothese

Bsp.: Symptom  Krankheit Wir hören jemanden niesen (D). Hat er Schnupfen (h)? Wie wahrscheinlich ist es...? Sei bekannt: P(Niesen | Schnupfen) = 0.8 P(Schnupfen) = 0.1 P(Niesen) = 0.25 P(Niesen | Allergie)=0.6 P(Allergie)=0.2

gesucht: P(Schnupfen | Niesen)

P( Schnupfen | Niesen)  Prof. Dr. G. Heyer

P( Niesen | Schnupfen) P(Schnupfen) 0.8 0.1   0.32 P( Niesen) 0.25 Text Mining – Wissensrohstoff Text

7

Klassifikation Wiederholung: Die Maximum a posteriori Hypothese Bsp.: Die wahrscheinlichste Ursache dafür bestimmen, dass jemand niest...

hMAP  argmax P(h | D) hH

P ( D | h ) P ( h)  argmax P( D) hH

 argmax P( D | h) P(h) hH

Maximum likelihood Hypothese Falls alle Hypothesen die gleiche a priori Wahrscheinlichkeit haben, sprechen wir von der Maximum likelihood Hypothese:

hML  argmax P( D | h) hH

Prof. Dr. G. Heyer

Text Mining – Wissensrohstoff Text

8

Klassifikation Naive Bayes

Das Wahrscheinlichkeitsmodell für einen Klassifikator ist die bedingte Wahrscheinlichkeit

mit einer Klassenvariablen C und Feature Variablen F1 bis Fn. Mit Bayes Theorem erhalten wir die Umformung

Prof. Dr. G. Heyer

Text Mining – Wissensrohstoff Text

9

Klassifikation Naive Bayes (2)

Der Zähler beschreibt dabei die Wahrscheinlichkeit, dass in einem Text mit der Klasse C die Features F1 bis Fn gemeinsam auftreten:

Dieses Modell der gemeinsamen Wahrscheinlichkeit kann als bedingte Wahrscheinlichkeit umformuliert werden:

Prof. Dr. G. Heyer

Text Mining – Wissensrohstoff Text

10

Klassifikation Naive Bayes (3)

Die „naive“ Annahme besagt nun, dass jedes Feature Fi unabhängig von jedem anderen Feature Fj ist,

Das Modell der gemeinsamen Wahrscheinlichkeit kann damit vereinfacht werden zu

Prof. Dr. G. Heyer

Text Mining – Wissensrohstoff Text

11

Klassifikation Naive Bayes (4) - Klassifikator

Der „naive“ Bayes„sche Klassifikator verbindet das naive Wahrscheinlichkeitsmodell mit der maximum a posteriori (MAP) Entscheidungsregel:

Wähle diejenige Klasse, die am wahrscheinlichsten ist.

Prof. Dr. G. Heyer

Text Mining – Wissensrohstoff Text

12

Klassifikation Probleme Einfache Modelle berücksichtigen nicht: • Hierarchische Strukturierung von Dokumenten • Größe der Dokumente • Relevanz der Wörter für ein konkretes Dokument/ Text • Wörter sind in ihren Bedeutungen nicht orthogonal („Zweig“ und „Ast”) • Reihenfolge der Wörter (‚die Folien zeigen„ vs. ‚zeigen die Folien„) • Wortgruppen („ein Elefant im Porzellanladen“) • Die Struktur innerhalb der Wörter (Suchanfrage ‚Vorträge‟ matcht nicht „Vortrag‟) • Die Mehrdeutigkeit von Wörtern (‚Leiter‟ als Chef vs. ‚Leiter‟ zum Erklimmen) • … Prof. Dr. G. Heyer

Text Mining – Wissensrohstoff Text

13

Klassifikation 1. Verbesserungsmöglichkeit: Linguistische Vorverarbeitung Sehr kleine mechanische Sehr kleine mechanische Anordnungen , die, diewenigstens Anordnungen wenigstens

Termgewichtung

einenfür für den einen denBetrieb Betriebwesentlichen wesentlichen

mechan isch e An ordn ung en , die wenig st en s Sehr klein e

ein en für den

Be trieb wesen t lich en

Morphologie

mechan_3 isch e An ordn_1 ung en , die wenig st en s Sehr klein e

Disambiguierung

ein en für den

Be trieb_2 wesen t lich en

Erlaubt detailliertere Ähnlichkeitsvergleiche von Dokumenten



Prof. Dr. G. Heyer

Text Mining – Wissensrohstoff Text

14

Klassifikation 2. Verbesserungsmöglichkeit: Vergleich alternativer Klassifikationen: Welche ist besser? Vergleich zweier Klassen A posteriori

A priori

P(Ci | D) P( D | Ci ) P(Ci )  P(Cr | D) P( D | Cr ) P(Cr )

 P(Ci | D)  log   log  P( D | Ci ) P(Ci )   log  P( D | Cr ) P(Cr )   P(Cr | D) 

 logP( D | Ci )   logP( D | Cr )  log

Prof. Dr. G. Heyer

Text Mining – Wissensrohstoff Text

  P ( Ci ) P ( Cr )

15

Klassifikation Termgewichte Konvention: Features sind tf/idf gewichtete Terme Termfrequenz

P( D | Ci )  P(W1 | Ci )

tf1, D

** P(Wk | Ci )

tf k , D

 P(Ci | D)  log   log  P( D | Ci ) P(Ci )   log  P( D | Cr ) P(Cr )   P(Cr | D)   tf1, D log P(W1 | Ci )    tf k , D log P(Wk | Ci )  log P(Ci )

 tf1, D log P(W1 | Cr )    tf k , D log P(Wk | Cr )  log P(Cr ) P (W |C )

P (W |C )

P (C )

 tf1, D log P (W1|Ci )    tf k , D log P (Wk |Ci )  log P (Ci ) 1 r

k

r

r

P (W |C )

j i Der Ausdruck log P (W |C ) beschreibt das Gewicht des Terms Wj j r

Entscheidungskriterium ist jetzt eine gewichtete Summe von Termen Prof. Dr. G. Heyer

Text Mining – Wissensrohstoff Text

16

Klassifikation Linear Discriminant Analysis Bezungspunkt sind die Erwartungswerte der Termgewichte einer Klasse

Parameter Erwartungswert Covarianz Matrix

xj

i

ˆ i  n(1C )

Vi

Vˆi  n(C1i )k rC

i

jCi

i



sCi

( xr  ˆ i )( xs  ˆ i )'

Termkorrellationen werden über Kovarianzmatrizen beschrieben

Annahme Die Kovarianz-Matrizen aller Klassen sind gleich normalverteilt.

Prof. Dr. G. Heyer

Text Mining – Wissensrohstoff Text

17

Klassifikation Linear Discriminant Analysis

Entscheidungskriterien:

 P(C | D) 

i - Wähle Klasse Ci mit der höchsten log ratio of posteriors log   P ( C | D )   r - Lege eine decision hyperplane als äquidistante Gerade

zwischen die Erwartungswerte der Klassen x x

Es werden nur Erwartungswerte und Varianzen verwendet

x

o

x x x x x

V-1

Inverse Kovarianz in höheren Dimensionen instabil

o

x

1

x o

x x x

V

2

o

o

o x

V

o

o

o

o

Prof. Dr. G. Heyer

Text Mining – Wissensrohstoff Text

18

Klassifikation Hierarchische Klassifikation Reale Anwendungen setzten oft eine hierarchisch strukturierte Klassifikation voraus. Es gilt dann für alle Dokumente D und Kategorien C ∈ wenn c j Subkategorie von c k Beispiel: Patente

Prof. Dr. G. Heyer

Text Mining – Wissensrohstoff Text

19

Klassifikation Patente Ein Patent ist ein hoheitlich erteiltes gewerbliches Schutzrecht auf eine Erfindung, das ein zeitlich begrenztes Ausschlussrecht gewährt. Ein Patent gibt seinem Inhaber das Recht, anderen zu untersagen, die patentierte Erfindung zu verwenden. (Wikipedia, Eintrag „Patent“). • derzeit ca. 30 Millionen Patentdokumente aus aller Welt • Patente betreffen die ganze Welt der Erfindungen (Aber: Einschränkungen bei Software!) • Anwendungsbereich ist hierarchisch nach IPC klassifiziert vgl. http://www.freepatentsonline.com

Prof. Dr. G. Heyer

Text Mining – Wissensrohstoff Text

20

Klassifikation IPC System für eine Zuordnung der technischen Gebiete der Erfindung zu einer oder mehreren Gruppen

• 8 Hauptklassen – – – – – – – –

Sektion A — Täglicher Lebensbedarf Sektion B — Arbeitsverfahren, Transportieren Sektion C — Chemie; Hüttenwesen Sektion D — Textilien; Papier Sektion E — Bauwesen; Erdbohren; Bergbau Sektion F — Maschinenbau; Beleuchtung; Heizung; Waffen; Sprengen Sektion G — Physik Sektion H — Elektrotechnik

Prof. Dr. G. Heyer

Text Mining – Wissensrohstoff Text

21

Klassifikation IPC Klassen in sich hierarchisch untergliedert, z. B. G Physics G02 Optics G02C Spectacles, sunglasses or goggles ... G02C5 Construction of non-optical parts G02C5/14 .Side members G02C5/20 ..Adjustable, telescopic

Prof. Dr. G. Heyer

Text Mining – Wissensrohstoff Text

22

Klassifikation IPC - Recherche Zuordnung erfolgt nach Ermessen des Anmelders aufgrund von verwendeten Schlüsselbegriffen

Prof. Dr. G. Heyer

Text Mining – Wissensrohstoff Text

23

Klassifikation IPC – Stich- und Schlagworte (SSW)

Prof. Dr. G. Heyer

Text Mining – Wissensrohstoff Text

24

Klassifikation Automatische Klassifikation von Patenten nach IPC Dokumente sind idR durch Vektoren repräsentiert: – Einträge stehen für (Schlüssel-)Wörter und sind gewichtet. – Stoppwörter werden meist entfernt.

Gegeben eine Kollektion von Patenten (D) und die IPC als Kategorien (C), wie können wir  bestimmen?

Prof. Dr. G. Heyer

Text Mining – Wissensrohstoff Text

25

Klassifikation Auswahl der Features ist wesentlich

Niederfrequente Terme sind möglicherweise gute Merkmale für die Klassifikation Prof. Dr. G. Heyer

Text Mining – Wissensrohstoff Text

26

Klassifikation Dokument-Klassifikation mit Clustern

Was ist die Wahrscheinlichkeit, dass ein Dokument D zu einer vorgegeben Klasse C gehört? Clustere eine Kollektion von Texten und weise den Clustern eine Klasse zu. Das Problem der Zuordnung eines Textes zu einer Klasse kann dann dadurch gelöst werden, dass der Text zum nächstähnlichen Dokument im Vektorraum geclustert wird. Probleme: – Auswahl geeigneter Merkmale – Berechnen der Ähnlichkeit zwischen Texten – Cluster-Algorithmus Prof. Dr. G. Heyer

Text Mining – Wissensrohstoff Text

27

Klassifikation Dokument-Klassifikation mit Clustern: Merkmale und Ähnlichkeit

In einer Kollektion von Patenten werden für alle Textabschnitte die signifikanten Terme berechnet. Für jeden seltenen Term t, der nt < n Mal in der Kollektion auftritt, wird eine Liste der Textabschnitte erstellt, die t enthalten d1t, d2t, ..., dmt Für alle Paare von Texten (di, dj) wird berechnet, ob sie signifikant häufig gemeinsam in allen Listen auftreten. Falls ja, können wir daraus schließen, dass sie dieselben seltenen Terme enthalten. Das Signifikanzmaß kann als Ähnlichkeitsmaß betrachtet werden. Prof. Dr. G. Heyer

Text Mining – Wissensrohstoff Text

28

Klassifikation Dokument-Klassifikation mit Clustern: Clustern

Aus der Ähnlichkeitsmatrize der Textabschnitte wird ein Graph erzeugt mit den Textabschnitten als Knoten und dem Signifikanzmaß als gewichteten Kanten. Für das Training wird jedem Knoten (= ein Textabschnitt), der besonders eindeutig einer Klasse zugeordnet werden kann, eine Klasse zugeordnet. Über alle Knoten wird dann mit dem ClusteringAlgorithmus Chinese Whispers geclustert.

Prof. Dr. G. Heyer

Text Mining – Wissensrohstoff Text

29

Klassifikation Dokument-Klassifikation mit Clustern

Für die Klassifikation nach Spam/nicht Spam einer vorgegeben Menge an Texten (inklusive Verlinkung) und einer Trainingsmenge hat das Verfahren die besten Werte erzielt: – best precision of 88.72% on the small set – best precision of 99.60% on the large set vgl. Biemann/Witschel, Webspam detection via Semi-Supervised Graph Partitioning, ECML 2007, Warschau

Prof. Dr. G. Heyer

Text Mining – Wissensrohstoff Text

30

Klassifikation Nutzung niederfrequenter Terme bei der Klassifikation Datengrundlage IPC Klassen mit den drei Präfixen G01, G06 and G08 Termgewichtung tf/idf wkj = okj ・ log (N/nk) bm25 wij = ( (k+1) ・ tf ) /( k(1-b) +b ・ dl / avgdl ) (meist mit k = 1.2 und b = 0.75) SMART wkj = okj ・ log( (N-n+0.5) / (n+0.5) )

Klassifikationsverfahren Naive Bayes, SVM, Entscheidungsbaum (WEKA) 3 Gruppen von Termen I. Anzahl der Dokumente, die T enthalten, liegt zwischen 10 und 100 II. Anzahl der Dokumente, die T enthalten, liegt zwischen 100 und 200 III. Anzahl der Dokumente, die T enthalten, ist größer 200 Prof. Dr. G. Heyer

Text Mining – Wissensrohstoff Text

31

Klassifikation Nutzung niederfrequenter Terme bei der Klassifikation

Prof. Dr. G. Heyer

Text Mining – Wissensrohstoff Text

32

Klassifikation Weiterer Aspekt: Berücksichtigung von Unterabschnitten

A

B

C

H

A Terme: 1

a, b, c, d, e, f, x

9

A9 Terme 1

x

9

A11 Terme

A19 Terme

a, b, c

d, e, f

Prof. Dr. G. Heyer

Terme aller Unterklassen einer Klasse werden zu einer „Definition“ dieser Klasse zusammenfasst. Klassifikation dann in mehreren Schritten: Erst auf top-level, basierend auf sehr vielen Termen Dann auf second-level, basierend auf weniger Termen … Entscheidend: in jedem Schritt Auswahl aus nur maximal 100 Klassen Text Mining – Wissensrohstoff Text

33

Klassifikation Cluster basierte Lösung Vererbung

Linguistische Clustering mit Klassifikation Aufbereitung: Chinese Whispers (automatisch) • Termgewichtung • Morphologie

Patente mit Klassen

Absätze mit Klassen

• Disambiguierung • Satzkonstruktionen • Termrelationen

Absätze mit Klassenmengen

•…

Prof. Dr. G. Heyer

Text Mining – Wissensrohstoff Text

34

Klassifikation Vererbung von Klassenzugehörigkeit Patente

hier. Klasse

Absatz 1 Absatz 2 Absatz 3

B81D

Absatz 4

Absatz 5

Absatz 6 Absatz 7 Absatz 8

Prof. Dr. G. Heyer

B82A

Neue, äquivalente Darstellung der Daten Absatz 1

B81D, B81, B8, B

Absatz 2

B81D, …

Absatz 3

B81D, …

Absatz 4

B81D, …

Absatz 5

B82A, B82, B8, B

Absatz 6

B82A, …

Absatz 7

B82A, …

Absatz 8

B82A, …

Text Mining – Wissensrohstoff Text

35

Klassifikation Clustering mit Chinese Whispers

A1

A1

Ähnlichkeitsvergleiche liefern Grafen

A2

Graf wird geclustert

A3 A4

A3 A5

Prof. Dr. G. Heyer

A4

A6

A7

Je mehr Information pro Absatz, umso präziser die Vergleiche!

A2

A8

A5

A6

A7 A8

Text Mining – Wissensrohstoff Text

36

Klassifikation Klassifikation durch Clustering Aus Einzelzuweisungen der Absätze ergibt sich Rangfolge von Klassen für jeden Absatz

A1

A2 A3 A4

A5

Im Vergleich dazu die Originalzuweisungen für Absatz 5

A5

A5

4x B

1x B

4x B8

1x B8

3x B81

1x B82

3x B81D

1x B82A

A6

A7 A8

1x B82 1x B82A Damit möglicherweise auch existierende Fehlklassifizierungen erkennbar, denn offenbar gehört A5 mehr in B81D als in B82A, basierend auf der Erkenntnis, welche anderen Texte noch in B81D sind Prof. Dr. G. Heyer

Text Mining – Wissensrohstoff Text

37

Klassifikation Literatur Baker, D., McCallum, A.K (1998): Distributional clustering of words for text classification. Proc. SIGIR98. E.Charniak, Statistical Language Learning, MIT Press: Cambridge (Mass.) 1993 Cutting,D., D. Karger, J. Pedersen, and J. Tukey (1992): Scatter-gather: A cluster-based approach to browsing large document collections. Proc. SIGIR'92. Dhillon, I., "Co-clustering documents and words using bipartite spectral graph partitioning", ACM Knowledge Discovery Data Mining KDD 01, pp. 269 – 274 C. Manning und H.Schütze, Foundations of Statistical Natural Language Processing, MIT Press: Cambridge (Mass.) 1999 (32000) D.Juravsky, J.Martin, Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics and Speech Recognition, Prentice Hall: San Francisco 2000 Sebastiani, F. (2002): Machine Learning in Automated Text Categorization. ACM Computing Surveys, Vol. 34, No. 1, March 2002, pp. 1–47. Prof. Dr. G. Heyer

Text Mining – Wissensrohstoff Text

38

Klassifikation Literatur 2 Joachims, T., (2002)Learning to Classify Text using Support Vector Machines. Kluwer. Hand, D., Mannila, H., Smyth, P. (2001), Principles of Data Mining, MIT Press. Hastie, T., Tibshirani, R., Friedman, J. (2001): The Elements of Statistical Learning. Springer Verlag. Hofmann, T. (2001): Unsupervised Learning by Probabilistic Latent Semantic Analysis. Machine Learning, Vol. 42, p.177-196. Hotho,A., A. Nürnberger and G. Paaß (2005): A Brief Survey of Text Mining, GLDVJournal for Computational Linguistics and Language Technology, 20:1, pp: 1962. Sebastiani, F. (2002): Machine Learning in Automated Text Categorization. ACM Computing Surveys, Vol. 34, No. 1, March 2002, pp. 1–47. Shawe-Taylor, J., Cristianini, N. (2004): Kernel Methods for Pattern Analysis. Cambridge University Press. Vapnik, V. (1995). The Nature of Statistical Learning Theory. Springer-Verlag, New York. Vapnik, V. N. and Chervonenkis, A. Y. (1971): On the uniform convergence of relative frequencies of events to their probabilities. Theory Probab. Apl., 16, 264--280. Xu, J., W. B. Croft. (1996): Query expansion using local and global document analysis. In Proc. SIGIR. Prof. Dr. G. Heyer

Text Mining – Wissensrohstoff Text

39