Text Mining Wissensrohstoff Text Gerhard Heyer Universität Leipzig
[email protected]
Institut für Informatik
Klassifikation
Klassifikation
Prof. Dr. G. Heyer
Text Mining – Wissensrohstoff Text
2
Klassifikation Problem: Automatische Klassifikation von Patenten nach IPC Ein Klassifikator ist eine möglichst gute Annäherung an die unbekannte Zielfunktion : DxC {T , F } mit den Dokumenten D und den Kategorien C, welche jedem Paar ∈ DxC einen Wahrheitswert zuweist. Zielfunktion kann durch Trainingsdaten angenähert werden.
Prof. Dr. G. Heyer
Text Mining – Wissensrohstoff Text
3
Klassifikation Erläuterung der Definition
• Dokument Klassifikation: Berechnung eines Wertes {0,1} zu jedem Eintrag in der Dokument-Kategorie-Matrix. • C = {c1,....., cm} ist eine Menge vordefinierter Kategorien. • D = {d1,..... dn} ist eine Menge von Dokumenten. • 1 für aij: Zuordnung von dj zu ci • 0 für aij: keine Zuordnung von dj zu ci Prof. Dr. G. Heyer
Text Mining – Wissensrohstoff Text
4
Klassifikation Machine Learning Verfahren
Dokumentvektoren spannen einen Vektorraum auf. Die meisten (alle?) Lernverfahren aus dem machine learning sind für das Klassifikator-Training einsetzbar. Einige Klassifikationsverfahren: – – – – –
Naive Bayes Entscheidungsbäume Support vector machines (SVM) Kernel Funktionen etc. etc.
Prof. Dr. G. Heyer
Text Mining – Wissensrohstoff Text
5
Klassifikation Leistungsfähigkeit verschiedener Klassifikatoren •
Messen von Precision und Recal (F-value) bei Anwendung nach Training und Klassifikation auf Reuters Korpus Nr. 4 mit 90 Klassen: F-value Naive Bayes
74.7% - 79.5%
Decision Rules
82.2% - 82.7%
Regression Rocchio Neural Network
Example-based (k-NN) SVM AdaBoost (commitee)
•
84.9% 61.7% - 78.1% 83.8%
82% - 86% 84.1% - 87% 87.8%
Quelle: [Sebastiani 2002], Standardreferenz für Analyse verschiedener Klassifikationssysteme bei diversen Klassifikationsaufgaben
Klassifikation Wiederholung: Bayes„sche Formel
P( h | D ) mit: P(h|D) = P(h) = P(D|h) = P(D) =
P( D | h ) P( h ) P( D )
a posteriori Wahrscheinlichkeit von h a priori Wahrscheinlichkeit von h Wahrscheinlichkeit des Ereignisses D unter der Hypothese h Wahrscheinlichkeit des Ereignisses D unabhängig von einer Hypothese
Bsp.: Symptom Krankheit Wir hören jemanden niesen (D). Hat er Schnupfen (h)? Wie wahrscheinlich ist es...? Sei bekannt: P(Niesen | Schnupfen) = 0.8 P(Schnupfen) = 0.1 P(Niesen) = 0.25 P(Niesen | Allergie)=0.6 P(Allergie)=0.2
gesucht: P(Schnupfen | Niesen)
P( Schnupfen | Niesen) Prof. Dr. G. Heyer
P( Niesen | Schnupfen) P(Schnupfen) 0.8 0.1 0.32 P( Niesen) 0.25 Text Mining – Wissensrohstoff Text
7
Klassifikation Wiederholung: Die Maximum a posteriori Hypothese Bsp.: Die wahrscheinlichste Ursache dafür bestimmen, dass jemand niest...
hMAP argmax P(h | D) hH
P ( D | h ) P ( h) argmax P( D) hH
argmax P( D | h) P(h) hH
Maximum likelihood Hypothese Falls alle Hypothesen die gleiche a priori Wahrscheinlichkeit haben, sprechen wir von der Maximum likelihood Hypothese:
hML argmax P( D | h) hH
Prof. Dr. G. Heyer
Text Mining – Wissensrohstoff Text
8
Klassifikation Naive Bayes
Das Wahrscheinlichkeitsmodell für einen Klassifikator ist die bedingte Wahrscheinlichkeit
mit einer Klassenvariablen C und Feature Variablen F1 bis Fn. Mit Bayes Theorem erhalten wir die Umformung
Prof. Dr. G. Heyer
Text Mining – Wissensrohstoff Text
9
Klassifikation Naive Bayes (2)
Der Zähler beschreibt dabei die Wahrscheinlichkeit, dass in einem Text mit der Klasse C die Features F1 bis Fn gemeinsam auftreten:
Dieses Modell der gemeinsamen Wahrscheinlichkeit kann als bedingte Wahrscheinlichkeit umformuliert werden:
Prof. Dr. G. Heyer
Text Mining – Wissensrohstoff Text
10
Klassifikation Naive Bayes (3)
Die „naive“ Annahme besagt nun, dass jedes Feature Fi unabhängig von jedem anderen Feature Fj ist,
Das Modell der gemeinsamen Wahrscheinlichkeit kann damit vereinfacht werden zu
Prof. Dr. G. Heyer
Text Mining – Wissensrohstoff Text
11
Klassifikation Naive Bayes (4) - Klassifikator
Der „naive“ Bayes„sche Klassifikator verbindet das naive Wahrscheinlichkeitsmodell mit der maximum a posteriori (MAP) Entscheidungsregel:
Wähle diejenige Klasse, die am wahrscheinlichsten ist.
Prof. Dr. G. Heyer
Text Mining – Wissensrohstoff Text
12
Klassifikation Probleme Einfache Modelle berücksichtigen nicht: • Hierarchische Strukturierung von Dokumenten • Größe der Dokumente • Relevanz der Wörter für ein konkretes Dokument/ Text • Wörter sind in ihren Bedeutungen nicht orthogonal („Zweig“ und „Ast”) • Reihenfolge der Wörter (‚die Folien zeigen„ vs. ‚zeigen die Folien„) • Wortgruppen („ein Elefant im Porzellanladen“) • Die Struktur innerhalb der Wörter (Suchanfrage ‚Vorträge‟ matcht nicht „Vortrag‟) • Die Mehrdeutigkeit von Wörtern (‚Leiter‟ als Chef vs. ‚Leiter‟ zum Erklimmen) • … Prof. Dr. G. Heyer
Text Mining – Wissensrohstoff Text
13
Klassifikation 1. Verbesserungsmöglichkeit: Linguistische Vorverarbeitung Sehr kleine mechanische Sehr kleine mechanische Anordnungen , die, diewenigstens Anordnungen wenigstens
Termgewichtung
einenfür für den einen denBetrieb Betriebwesentlichen wesentlichen
mechan isch e An ordn ung en , die wenig st en s Sehr klein e
ein en für den
Be trieb wesen t lich en
Morphologie
mechan_3 isch e An ordn_1 ung en , die wenig st en s Sehr klein e
Disambiguierung
ein en für den
Be trieb_2 wesen t lich en
Erlaubt detailliertere Ähnlichkeitsvergleiche von Dokumenten
…
Prof. Dr. G. Heyer
Text Mining – Wissensrohstoff Text
14
Klassifikation 2. Verbesserungsmöglichkeit: Vergleich alternativer Klassifikationen: Welche ist besser? Vergleich zweier Klassen A posteriori
A priori
P(Ci | D) P( D | Ci ) P(Ci ) P(Cr | D) P( D | Cr ) P(Cr )
P(Ci | D) log log P( D | Ci ) P(Ci ) log P( D | Cr ) P(Cr ) P(Cr | D)
logP( D | Ci ) logP( D | Cr ) log
Prof. Dr. G. Heyer
Text Mining – Wissensrohstoff Text
P ( Ci ) P ( Cr )
15
Klassifikation Termgewichte Konvention: Features sind tf/idf gewichtete Terme Termfrequenz
P( D | Ci ) P(W1 | Ci )
tf1, D
** P(Wk | Ci )
tf k , D
P(Ci | D) log log P( D | Ci ) P(Ci ) log P( D | Cr ) P(Cr ) P(Cr | D) tf1, D log P(W1 | Ci ) tf k , D log P(Wk | Ci ) log P(Ci )
tf1, D log P(W1 | Cr ) tf k , D log P(Wk | Cr ) log P(Cr ) P (W |C )
P (W |C )
P (C )
tf1, D log P (W1|Ci ) tf k , D log P (Wk |Ci ) log P (Ci ) 1 r
k
r
r
P (W |C )
j i Der Ausdruck log P (W |C ) beschreibt das Gewicht des Terms Wj j r
Entscheidungskriterium ist jetzt eine gewichtete Summe von Termen Prof. Dr. G. Heyer
Text Mining – Wissensrohstoff Text
16
Klassifikation Linear Discriminant Analysis Bezungspunkt sind die Erwartungswerte der Termgewichte einer Klasse
Parameter Erwartungswert Covarianz Matrix
xj
i
ˆ i n(1C )
Vi
Vˆi n(C1i )k rC
i
jCi
i
sCi
( xr ˆ i )( xs ˆ i )'
Termkorrellationen werden über Kovarianzmatrizen beschrieben
Annahme Die Kovarianz-Matrizen aller Klassen sind gleich normalverteilt.
Prof. Dr. G. Heyer
Text Mining – Wissensrohstoff Text
17
Klassifikation Linear Discriminant Analysis
Entscheidungskriterien:
P(C | D)
i - Wähle Klasse Ci mit der höchsten log ratio of posteriors log P ( C | D ) r - Lege eine decision hyperplane als äquidistante Gerade
zwischen die Erwartungswerte der Klassen x x
Es werden nur Erwartungswerte und Varianzen verwendet
x
o
x x x x x
V-1
Inverse Kovarianz in höheren Dimensionen instabil
o
x
1
x o
x x x
V
2
o
o
o x
V
o
o
o
o
Prof. Dr. G. Heyer
Text Mining – Wissensrohstoff Text
18
Klassifikation Hierarchische Klassifikation Reale Anwendungen setzten oft eine hierarchisch strukturierte Klassifikation voraus. Es gilt dann für alle Dokumente D und Kategorien C ∈ wenn c j Subkategorie von c k Beispiel: Patente
Prof. Dr. G. Heyer
Text Mining – Wissensrohstoff Text
19
Klassifikation Patente Ein Patent ist ein hoheitlich erteiltes gewerbliches Schutzrecht auf eine Erfindung, das ein zeitlich begrenztes Ausschlussrecht gewährt. Ein Patent gibt seinem Inhaber das Recht, anderen zu untersagen, die patentierte Erfindung zu verwenden. (Wikipedia, Eintrag „Patent“). • derzeit ca. 30 Millionen Patentdokumente aus aller Welt • Patente betreffen die ganze Welt der Erfindungen (Aber: Einschränkungen bei Software!) • Anwendungsbereich ist hierarchisch nach IPC klassifiziert vgl. http://www.freepatentsonline.com
Prof. Dr. G. Heyer
Text Mining – Wissensrohstoff Text
20
Klassifikation IPC System für eine Zuordnung der technischen Gebiete der Erfindung zu einer oder mehreren Gruppen
• 8 Hauptklassen – – – – – – – –
Sektion A — Täglicher Lebensbedarf Sektion B — Arbeitsverfahren, Transportieren Sektion C — Chemie; Hüttenwesen Sektion D — Textilien; Papier Sektion E — Bauwesen; Erdbohren; Bergbau Sektion F — Maschinenbau; Beleuchtung; Heizung; Waffen; Sprengen Sektion G — Physik Sektion H — Elektrotechnik
Prof. Dr. G. Heyer
Text Mining – Wissensrohstoff Text
21
Klassifikation IPC Klassen in sich hierarchisch untergliedert, z. B. G Physics G02 Optics G02C Spectacles, sunglasses or goggles ... G02C5 Construction of non-optical parts G02C5/14 .Side members G02C5/20 ..Adjustable, telescopic
Prof. Dr. G. Heyer
Text Mining – Wissensrohstoff Text
22
Klassifikation IPC - Recherche Zuordnung erfolgt nach Ermessen des Anmelders aufgrund von verwendeten Schlüsselbegriffen
Prof. Dr. G. Heyer
Text Mining – Wissensrohstoff Text
23
Klassifikation IPC – Stich- und Schlagworte (SSW)
Prof. Dr. G. Heyer
Text Mining – Wissensrohstoff Text
24
Klassifikation Automatische Klassifikation von Patenten nach IPC Dokumente sind idR durch Vektoren repräsentiert: – Einträge stehen für (Schlüssel-)Wörter und sind gewichtet. – Stoppwörter werden meist entfernt.
Gegeben eine Kollektion von Patenten (D) und die IPC als Kategorien (C), wie können wir bestimmen?
Prof. Dr. G. Heyer
Text Mining – Wissensrohstoff Text
25
Klassifikation Auswahl der Features ist wesentlich
Niederfrequente Terme sind möglicherweise gute Merkmale für die Klassifikation Prof. Dr. G. Heyer
Text Mining – Wissensrohstoff Text
26
Klassifikation Dokument-Klassifikation mit Clustern
Was ist die Wahrscheinlichkeit, dass ein Dokument D zu einer vorgegeben Klasse C gehört? Clustere eine Kollektion von Texten und weise den Clustern eine Klasse zu. Das Problem der Zuordnung eines Textes zu einer Klasse kann dann dadurch gelöst werden, dass der Text zum nächstähnlichen Dokument im Vektorraum geclustert wird. Probleme: – Auswahl geeigneter Merkmale – Berechnen der Ähnlichkeit zwischen Texten – Cluster-Algorithmus Prof. Dr. G. Heyer
Text Mining – Wissensrohstoff Text
27
Klassifikation Dokument-Klassifikation mit Clustern: Merkmale und Ähnlichkeit
In einer Kollektion von Patenten werden für alle Textabschnitte die signifikanten Terme berechnet. Für jeden seltenen Term t, der nt < n Mal in der Kollektion auftritt, wird eine Liste der Textabschnitte erstellt, die t enthalten d1t, d2t, ..., dmt Für alle Paare von Texten (di, dj) wird berechnet, ob sie signifikant häufig gemeinsam in allen Listen auftreten. Falls ja, können wir daraus schließen, dass sie dieselben seltenen Terme enthalten. Das Signifikanzmaß kann als Ähnlichkeitsmaß betrachtet werden. Prof. Dr. G. Heyer
Text Mining – Wissensrohstoff Text
28
Klassifikation Dokument-Klassifikation mit Clustern: Clustern
Aus der Ähnlichkeitsmatrize der Textabschnitte wird ein Graph erzeugt mit den Textabschnitten als Knoten und dem Signifikanzmaß als gewichteten Kanten. Für das Training wird jedem Knoten (= ein Textabschnitt), der besonders eindeutig einer Klasse zugeordnet werden kann, eine Klasse zugeordnet. Über alle Knoten wird dann mit dem ClusteringAlgorithmus Chinese Whispers geclustert.
Prof. Dr. G. Heyer
Text Mining – Wissensrohstoff Text
29
Klassifikation Dokument-Klassifikation mit Clustern
Für die Klassifikation nach Spam/nicht Spam einer vorgegeben Menge an Texten (inklusive Verlinkung) und einer Trainingsmenge hat das Verfahren die besten Werte erzielt: – best precision of 88.72% on the small set – best precision of 99.60% on the large set vgl. Biemann/Witschel, Webspam detection via Semi-Supervised Graph Partitioning, ECML 2007, Warschau
Prof. Dr. G. Heyer
Text Mining – Wissensrohstoff Text
30
Klassifikation Nutzung niederfrequenter Terme bei der Klassifikation Datengrundlage IPC Klassen mit den drei Präfixen G01, G06 and G08 Termgewichtung tf/idf wkj = okj ・ log (N/nk) bm25 wij = ( (k+1) ・ tf ) /( k(1-b) +b ・ dl / avgdl ) (meist mit k = 1.2 und b = 0.75) SMART wkj = okj ・ log( (N-n+0.5) / (n+0.5) )
Klassifikationsverfahren Naive Bayes, SVM, Entscheidungsbaum (WEKA) 3 Gruppen von Termen I. Anzahl der Dokumente, die T enthalten, liegt zwischen 10 und 100 II. Anzahl der Dokumente, die T enthalten, liegt zwischen 100 und 200 III. Anzahl der Dokumente, die T enthalten, ist größer 200 Prof. Dr. G. Heyer
Text Mining – Wissensrohstoff Text
31
Klassifikation Nutzung niederfrequenter Terme bei der Klassifikation
Prof. Dr. G. Heyer
Text Mining – Wissensrohstoff Text
32
Klassifikation Weiterer Aspekt: Berücksichtigung von Unterabschnitten
A
B
C
H
A Terme: 1
a, b, c, d, e, f, x
9
A9 Terme 1
x
9
A11 Terme
A19 Terme
a, b, c
d, e, f
Prof. Dr. G. Heyer
Terme aller Unterklassen einer Klasse werden zu einer „Definition“ dieser Klasse zusammenfasst. Klassifikation dann in mehreren Schritten: Erst auf top-level, basierend auf sehr vielen Termen Dann auf second-level, basierend auf weniger Termen … Entscheidend: in jedem Schritt Auswahl aus nur maximal 100 Klassen Text Mining – Wissensrohstoff Text
33
Klassifikation Cluster basierte Lösung Vererbung
Linguistische Clustering mit Klassifikation Aufbereitung: Chinese Whispers (automatisch) • Termgewichtung • Morphologie
Patente mit Klassen
Absätze mit Klassen
• Disambiguierung • Satzkonstruktionen • Termrelationen
Absätze mit Klassenmengen
•…
Prof. Dr. G. Heyer
Text Mining – Wissensrohstoff Text
34
Klassifikation Vererbung von Klassenzugehörigkeit Patente
hier. Klasse
Absatz 1 Absatz 2 Absatz 3
B81D
Absatz 4
Absatz 5
Absatz 6 Absatz 7 Absatz 8
Prof. Dr. G. Heyer
B82A
Neue, äquivalente Darstellung der Daten Absatz 1
B81D, B81, B8, B
Absatz 2
B81D, …
Absatz 3
B81D, …
Absatz 4
B81D, …
Absatz 5
B82A, B82, B8, B
Absatz 6
B82A, …
Absatz 7
B82A, …
Absatz 8
B82A, …
Text Mining – Wissensrohstoff Text
35
Klassifikation Clustering mit Chinese Whispers
A1
A1
Ähnlichkeitsvergleiche liefern Grafen
A2
Graf wird geclustert
A3 A4
A3 A5
Prof. Dr. G. Heyer
A4
A6
A7
Je mehr Information pro Absatz, umso präziser die Vergleiche!
A2
A8
A5
A6
A7 A8
Text Mining – Wissensrohstoff Text
36
Klassifikation Klassifikation durch Clustering Aus Einzelzuweisungen der Absätze ergibt sich Rangfolge von Klassen für jeden Absatz
A1
A2 A3 A4
A5
Im Vergleich dazu die Originalzuweisungen für Absatz 5
A5
A5
4x B
1x B
4x B8
1x B8
3x B81
1x B82
3x B81D
1x B82A
A6
A7 A8
1x B82 1x B82A Damit möglicherweise auch existierende Fehlklassifizierungen erkennbar, denn offenbar gehört A5 mehr in B81D als in B82A, basierend auf der Erkenntnis, welche anderen Texte noch in B81D sind Prof. Dr. G. Heyer
Text Mining – Wissensrohstoff Text
37
Klassifikation Literatur Baker, D., McCallum, A.K (1998): Distributional clustering of words for text classification. Proc. SIGIR98. E.Charniak, Statistical Language Learning, MIT Press: Cambridge (Mass.) 1993 Cutting,D., D. Karger, J. Pedersen, and J. Tukey (1992): Scatter-gather: A cluster-based approach to browsing large document collections. Proc. SIGIR'92. Dhillon, I., "Co-clustering documents and words using bipartite spectral graph partitioning", ACM Knowledge Discovery Data Mining KDD 01, pp. 269 – 274 C. Manning und H.Schütze, Foundations of Statistical Natural Language Processing, MIT Press: Cambridge (Mass.) 1999 (32000) D.Juravsky, J.Martin, Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics and Speech Recognition, Prentice Hall: San Francisco 2000 Sebastiani, F. (2002): Machine Learning in Automated Text Categorization. ACM Computing Surveys, Vol. 34, No. 1, March 2002, pp. 1–47. Prof. Dr. G. Heyer
Text Mining – Wissensrohstoff Text
38
Klassifikation Literatur 2 Joachims, T., (2002)Learning to Classify Text using Support Vector Machines. Kluwer. Hand, D., Mannila, H., Smyth, P. (2001), Principles of Data Mining, MIT Press. Hastie, T., Tibshirani, R., Friedman, J. (2001): The Elements of Statistical Learning. Springer Verlag. Hofmann, T. (2001): Unsupervised Learning by Probabilistic Latent Semantic Analysis. Machine Learning, Vol. 42, p.177-196. Hotho,A., A. Nürnberger and G. Paaß (2005): A Brief Survey of Text Mining, GLDVJournal for Computational Linguistics and Language Technology, 20:1, pp: 1962. Sebastiani, F. (2002): Machine Learning in Automated Text Categorization. ACM Computing Surveys, Vol. 34, No. 1, March 2002, pp. 1–47. Shawe-Taylor, J., Cristianini, N. (2004): Kernel Methods for Pattern Analysis. Cambridge University Press. Vapnik, V. (1995). The Nature of Statistical Learning Theory. Springer-Verlag, New York. Vapnik, V. N. and Chervonenkis, A. Y. (1971): On the uniform convergence of relative frequencies of events to their probabilities. Theory Probab. Apl., 16, 264--280. Xu, J., W. B. Croft. (1996): Query expansion using local and global document analysis. In Proc. SIGIR. Prof. Dr. G. Heyer
Text Mining – Wissensrohstoff Text
39