WEin möglicher Ansatz zur Beschreibung
einer Tabelle, anhand eines Beispiels z z
Kapitel 10: Exploration des Data Cubes
W
Beispiel 2: Gleiche Relation, andere Tabelle
z
z
SALES
TIME Year 1996 Month Jan Feb … CATEGORY Part City (Cost, Sale) PC Montreal (5,6) (5,7) … Toronto (5,7) (5,8) … … … … Inkjet Montreal (7,8) (7,9) New York (6,9) (6,9) … … … … … … …
Data Warehousing und Mining: Exploration des Data Cubes – 1
Klemens Böhm
z
z
Attribute Dimensionen Relation R(Part, City, Year, Month, Cost, Sale), Schema der Tabelle: Sales= mit par(Category)={Part, City} und par(Time)={Year, Month} Im Gegensatz zur Verwendung des Begriffs ‚Dimension‘ vorher werden jetzt mehrere Attribute zu einer Dimension (mit neuem Namen) zusammengefaßt. par identifiziert die Bestandteile der Dimensionen.
LOCA- City TION Montreal Montreal … Montreal Montreal … Toronto Toronto … Klemens Böhm
COMPONENT Part PC (Year,Month, Cost,Sale) (1996, Jan, 5, 6) (1996, Jan, 5, 7) … (1997, Jan, 4, 6) (1997, Feb, 4, 8) … (1997, Jan, 5,7) (1996, Feb, 5, 8) …
Inkjet
…
(1996, Jan, 5, 6) (1996, Jan, 5, 7) … (1997, Jan, 4, 6) (1997, Feb, 4, 8) … / / …
… …
Data Warehousing und Mining: Exploration des Data Cubes – 3
… … … …
Data Cube - Repräsentation aggregierter Werte Marke Opel
Audi
Bundesland Hessen Bayern Saarland
BMW
Anzahl 131 240 141
07.01. 08.01. Datum Bayern Saarland
… …
(4,8) (4,9) … (6,8) (5,9) … …
W
Hessen
… …
(4,6) (4,8) … (6,9) (5,8) … …
…
Data Warehousing und Mining: Exploration des Data Cubes – 2
Klemens Böhm
Schema der Tabelle: Sales= mit par(Location)={City} und par(Component)={Part} Dimensionen, Attribute, par identifiziert die Bestandteile der Dimensionen.
SALES
1997 Jan Feb
GroupBy-Operator berechnet Punkte in einer Hyperebene.
Bundesland
Klemens Böhm
Data Warehousing und Mining: Exploration des Data Cubes – 4
W
Data Cube - Repräsentation aggregierter Werte (2)
W
Consolidation Paths
Marke Opel Marke BMW BMW BMW Opel Opel Opel Audi Audi
Audi
BMW
Bundesland Hessen Bayern Saarland Hessen Bayern Saarland Hessen Bayern
Marke BMW BMW BMW Opel Opel Opel Opel Audi Audi Audi Audi
Anzahl 28 37 41 48 62 100 55 141
Datum 07.01. 1994 08.01. 1994 07.01. 1994 07.01. 1994 08.01. 1994 08.01. 1994 09.01. 1994 07.01. 1994 08.01. 1994 09.01. 1994 10.01. 1994
Bundesland Hessen Bayern Saarland Hessen Bayern Saarland Saarland Hessen Bayern Bayern Bayern
Anzahl 28 37 41 48 62 5 95 55 52 27 62
BDM BM B
BD D
DM M
none
07.01. 08.01. Marke BMW BMW BMW Opel Opel Opel Audi Audi
Datum
Hessen Bayern Saarland
Wofür steht Zahl im Ursprung?
Bundesland
Data Warehousing und Mining: Exploration des Data Cubes – 5
Klemens Böhm
W
Bundesland Hessen Bayern Saarland Hessen Bayern Saarland Hessen Bayern
Anzahl 28 37 41 48 62 100 55 141
Bundesland Hessen Bayern Saarland
Anzahl 131 240 141
Data Warehousing und Mining: Exploration des Data Cubes – 6
Klemens Böhm
W
Consolidation Paths (2) Marke BMW BMW BMW Opel Opel Opel Opel Audi Audi Audi Audi
Datum 07.01. 1994 08.01. 1994 07.01. 1994 07.01. 1994 08.01. 1994 08.01. 1994 09.01. 1994 07.01. 1994 08.01. 1994 09.01. 1994 10.01. 1994
Marke BMW BMW BMW Opel Opel Opel Audi Audi
Bundesland Hessen Bayern Saarland Hessen Bayern Saarland Saarland Hessen Bayern Bayern Bayern
Bundesland Hessen Bayern Saarland Hessen Bayern Saarland Hessen Bayern
Klemens Böhm
Anzahl 28 37 41 48 62 100 55 141
Consolidation Paths (3)
Anzahl 28 37 41 48 62 5 95 55 52 27 62
BDM BM B
BD D
DM
Konsolidierung ist nicht nur möglich, indem man Dimensionen ausblendet, sondern auch durch das Zusammenfassen von Werten.
Tag
M
none
Monat Woche
Bundesland Hessen Bayern Saarland
Anzahl 131 240 141
Roll-up (Drill-up)
Jahr
Drill-down
keine Data Warehousing und Mining: Exploration des Data Cubes – 7
Klemens Böhm
Konzepthierarchie Data Warehousing und Mining: Exploration des Data Cubes – 8
W
W
Consolidation
Consolidation Paths (4)
‘BDM’ - ‘Bundesland - Datum - Marke’
Marke Opel
BDM
T Mo
Audi
J BMW
BD
BM
W
B
none
DM M
D none
BDM
07.01. 08.01. Datum Hessen
BMW
BMMo
DM
BD
Bayern Saarland
BM
Bundesland
BW
MW
BMJ
... Klemens Böhm
Data Warehousing und Mining: Exploration des Data Cubes – 9
Klemens Böhm
MMo
BMo
D Anzahl Ebenen?
Data Warehousing und Mining: Exploration des Data Cubes – 10
W
Consolidation Paths (5) z
Vorangegangene Folie verdeutlicht zweierlei: Kombinierbarkeit, sehr viele Kombinationsmöglichkeiten.
Was bedeutet Drill-Down im Kontext dieses Interfaces? Klemens Böhm
Data Warehousing und Mining: Exploration des Data Cubes – 11
Klemens Böhm
Data Warehousing und Mining: Exploration des Data Cubes – 12
Motivation z Einleitung
z
Ausnahmen Berechnung Ausnahmen
z
Implement. Bestandsaufnahme
z
DIFF-Op. Modell Schluß
Navigieren im Data Cube ist nur auf den ersten Blick leicht. Bei vielen Dimensionen ist die Suche nach hilfreicher Information mühsam. Anwender hat natürlich meist nicht exakte Hypothese. Exploration des Data Cubes: Finden von Ausnahmen, Herausfinden, warum sich Ausnahmen ergeben.
Klemens Böhm
Motivation z Einleitung Ausnahmen
Implement. Bestandsaufnahme DIFF-Op. Modell Schluß
Data Warehousing und Mining: Exploration des Data Cubes – 13
Einleitung Ausnahmen
z
Berechnung Ausnahmen Implement. Bestandsaufnahme DIFF-Op. Modell Schluß
z
Beispiel: Mobiltelefone im Monat Dezember im Media Markt Eschborn Umsatzplus 50%. Kein int‘santer Zusammenhang, da auch für andere Waren und Standorte Umsatz im Dezember hochgeht („Weihnachtsgeschäft“). Int‘santer Zusammenhang ist also auf anderer Ebene, nämlich ‚Monat Dezember‘, aber Abstraktion von restlichen Dimensionen.
z
Region Product Beer Cola Diet-S
all Jan
Feb Mar Apr Mai Jun Jul Aug Sep Okt Nov Dez 10% -7% 3% -4% 15% -12% -3% 1% 42% -14% -10% -1% 2% 3% 4% 9% 4% 1% -11% -8% -2% 7% 2% -1% 0% 0% 4% 2% 4% -9% 5% -3% 0%
Data Warehousing und Mining: Exploration des Data Cubes – 14
Klemens Böhm
Berechnung der Ausnahmen – Beispiel
Wann ist Zusammenhang interessant? z
z
Berechnung Ausnahmen
Operatoren wie Drilldown sind zwar nützlich, Benutzer muß aber interessante Zusammenhänge ‚von Hand‘ entdecken. Ziel im folgenden: Benutzer durch den Cube führen, Navigationsmöglichkeiten anzeigen, die zu interessanten Zusammenhängen führen. Beispiel:
Produkt Brot x
Einleitung
x
Ausnahmen Berechnung Ausnahmen
Milch
x
Implement.
x
Bestandsaufnahme Tee
DIFF-Op. Modell Schluß
07.01. 08.01.
x
x Irchel Central Wipkingen
x Filiale
Klemens Böhm
Data Warehousing und Mining: Exploration des Data Cubes – 15
Punkt ist Zusammenfassung oder Abstraktion eines anderen Punkts. Tatsächlicher Wert vs. erwarteter Wert.
Klemens Böhm
x
Datum
„ElementarPosition“ Data Warehousing und Mining: Exploration des Data Cubes – 16
Subcube von bestimmter Position (1)
Subcube von bestimmter Position (2)
Umsatz
Umsatz
300’
300’
Einleitung
Einleitung 200’
Ausnahmen
200’
Ausnahmen
Berechnung Ausnahmen
Berechnung Ausnahmen
Implement.
Implement.
100’
Bestandsaufnahme DIFF-Op.
DIFF-Op.
07.01. 08.01.
Modell
Datum
Schluß
100’
Bestandsaufnahme
100
07.01. 08.01.
Modell
Datum
Schluß
100
200
200
300
300
MA-Anzahl
MA-Anzahl
Bei mehr Dimensionen hat Subcube höhere Dimensionalität.
Bei mehr Dimensionen hat Subcube höhere Dimensionalität.
Data Warehousing und Mining: Exploration des Data Cubes – 17
Klemens Böhm
Data Warehousing und Mining: Exploration des Data Cubes – 18
Klemens Böhm
Drill-Down an bestimmter Position
Realisierter Ansatz
Umsatz
z
300’
Einleitung
Einleitung 200’
Ausnahmen
Ausnahmen
Berechnung Ausnahmen
z
Berechnung Ausnahmen
Implement.
Implement.
100’
Bestandsaufnahme DIFF-Op.
Bestandsaufnahme DIFF-Op.
07.01. 08.01.
Modell
Datum
Schluß
100
Modell Schluß
z
Für jede Zelle Berechnung eines erwarteten Werts ŷ über mehrere Dimensionen. Abweichung des tatsächlichen Wertes y vom erwarteten Wert ŷ bestimmt den "Überraschungswert" der Zelle. Berechnung von drei Überraschungswerten (Indikatoren) je Zelle: SelfExp, InExp, je Dimension: PathExp.
200 300 MA-Anzahl
Bei mehr Dimensionen mehr mögliche Drill-Downs. Klemens Böhm
Data Warehousing und Mining: Exploration des Data Cubes – 19
Region Product Beer Cola Diet-S Klemens Böhm
all Jan
Feb Mar Apr Mai Jun Jul Aug Sep Okt Nov Dez 10% -7% 3% -4% 15% -12% -3% 1% 42% -14% -10% -1% 2% 3% 4% 9% 4% 1% -11% -8% -2% 7% 2% -1% 0% 0% 4% 2% 4% -9% 5% -3% 0% Data Warehousing und Mining: Exploration des Data Cubes – 20
Beispiel (1) Product Region
all all Jan
Total
Beispiel (2) Product Region
Feb Mar Apr May Jun Jul Aug Sep Oct Nov Dec 2% 0% 2% 2% 4% 3% 0% -8% 0% -3% 4%
Total
Einleitung Ausnahmen Berechnung Ausnahmen
z
Implement. Bestandsaufnahme DIFF-Op. Modell
z
Schluß
z
SelfExp - "Überraschungswert" als Ergebnis eines Vergleichs mit den anderen Zellen auf gleicher Aggregationsstufe, InExp - max(SelfExp) für die durch Drill-Down erreichbaren Zellen (oben dargestellt), PathExp - max(SelfExp) aller erreichbarer Zellen entlang eines ausgewählten Pfades. Im Beispiel: ‘Überraschung’ größer bei Drill-Down entlang Product, verglichen mit Drill-Down entlang Region.
PR P
Einleitung Ausnahmen Berechnung Ausnahmen Implement. Bestandsaufnahme DIFF-Op.
all all Jan
Total
Region Product Beer Cola Diet-S
all Jan
Product
Diet-S
Region C E
Jan
R
RT T
Welcher Position im Cuboid entspricht die Tabelle oben?
Klemens Böhm
Data Warehousing und Mining: Exploration des Data Cubes – 22
Berechnung der Ausnahmen (1)
Feb Mar Apr May Jun Jul Aug Sep Oct Nov Dec 2% 0% 2% 2% 4% 3% 0% -8% 0% -3% 4%
Einleitung Ausnahmen Berechnung Ausnahmen
Feb Mar Apr Mai Jun Jul Aug Sep Okt Nov Dez 10% -7% 3% -4% 15% -12% -3% 1% 42% -14% -10% -1% 2% 3% 4% 9% 4% 1% -11% -8% -2% 7% 2% -1% 0% 0% 4% 2% 4% -9% 5% -3% 0%
Modell Schluß
PT
‘P’ – Product, ‘R’ – Region, ‘T’ – Time.
none
Beispiel (3) Product Region
Feb Mar Apr May Jun Jul Aug Sep Oct Nov Dec 2% 0% 2% 2% 4% 3% 0% -8% 0% -3% 4%
PRT
Data Warehousing und Mining: Exploration des Data Cubes – 21
Klemens Böhm
all all Jan
Implement. Bestandsaufnahme DIFF-Op. Modell
Abweichung des tatsächlichen vom erwarteten Wert muß größer als ein Schwellenwert sein (nach Normalisierung): z yi ,...,i – tatsächlicher Wert der Zelle i1...in, 1 n z ŷi ,...,i – erwarteter Wert dieser Zelle, 1 n z σ – Skalierungsfaktor, z θ – Schwellenwert, z Ausnahme liegt vor, falls |y - ŷ|/ σ > θ.
Schluß
Feb Mar Apr Mai Jun Jul Aug Sep Okt Nov Dez 0% -2% 0% 1% 4% 1% 5% -6% 2% -2% -2% 0% 2% -8% 7% 0% 5% -40% 10% -33% 2% 8%
z Klemens Böhm
Data Warehousing und Mining: Exploration des Data Cubes – 23
Klemens Böhm
Data Warehousing und Mining: Exploration des Data Cubes – 24
Berechnung der Ausnahmen (2)
Einleitung Ausnahmen
Cola Cola ZH GE
Cola
Bier ZH
Bier
Bier GE
Berechnung der Ausnahmen (3)
Einleitung Ausnahmen
Berechnung Ausnahmen
ZH
Bestandsaufnahme Modell
Cola
Bier ZH
Bier GE
Bier
ZH
GE
total
Berechnung Ausnahmen
Implement.
DIFF-Op.
Cola Cola ZH GE
z
Schluß
GE
Implement.
total
Bestandsaufnahme
Beispiel: „Anteil Kunden an Bevölkerung“ (Cola, ZH) = ∅ total „Anteil Kunden an Cola+ (∅ Cola – ∅ total) trinkender Bevölkerung“ + (∅ ZH – ∅ total) „Anteil Kunden in ZH“
DIFF-Op. Modell
z
Beispiel 2:
Schluß
(Cola, ZH) = ∅ total ⋅
∅ Cola ∅ ZH ⋅ ∅ total ∅ total
„Anteil Kunden „Anteil Kunden an Colaan Bevölkerung“ trinkender Bevölkerung“ Klemens Böhm
Data Warehousing und Mining: Exploration des Data Cubes – 25
Klemens Böhm
Berechnung der Ausnahmen (4) z
Einleitung Ausnahmen Berechnung Ausnahmen
z
Implement. Bestandsaufnahme DIFF-Op. Modell Schluß
z z
Beispiel: (Cola, ZH) = ∅ total + (∅ Cola – ∅ total) + (∅ ZH – ∅ total) Koeffizienten stehen für den Beitrag jeder Zelle zu den erwarteten Werten der ‚Zellen darunter‘, produkt produkt _ ort z. B. γ Cola oder γ Cola _ ZH
Cola Cola ZH GE
Cola
Bier ZH
Bier
Einleitung Ausnahmen Berechnung Ausnahmen
GE
total
ŷ=fAggregation(γi) Beispiel (wie oben): (Cola, ZH) = γ1 + γ2 + γ3 (Cola, ZH) = ∅ total + (∅ Cola - ∅ total) + (∅ ZH - ∅ total)
Klemens Böhm
z
Implement.
ZH
Data Warehousing und Mining: Exploration des Data Cubes – 26
Berechnung der Ausnahmen (5) z
Bier GE
„Anteil Kunden in ZH“
Data Warehousing und Mining: Exploration des Data Cubes – 27
Bestandsaufnahme DIFF-Op.
z
ŷ=fAggregation(γi) Festlegen von f: additiv f(γ1,γ2) = γ1 + γ2, multiplikativ f(γ1, γ2) = γ1 ⋅ γ2 Bestimmen der γi aus dem Ausgangsdatenbestand: Mittelwert bzw. trimmed-mean (Verallgemeinerung von trunc_avg).
Modell Schluß
Klemens Böhm
Data Warehousing und Mining: Exploration des Data Cubes – 28
Implementierung
Beispiel 1 2 3 Produkte
Einleitung Ausnahmen Berechnung Ausnahmen Implement.
γ 1,1 =
Bestandsaufnahme
1 9 3 3 15
2 3 3 3 9
3 9 9 9 27
51 15 51 21 51 51 − 6 + 12 19 +( − )+( − ) = = 9 3 9 3 9 9 3
Modell Schluß
All Klemens Böhm
Einleitung
Einleitung
z
Ausnahmen Berechnung Ausnahmen
z
Implement. Bestandsaufnahme
z
DIFF-Op. Modell Schluß
z
Bestandsaufnahme
2.
Modell Schluß
3.
3
Berechnung der Beiträge γi zu f, Berechnung von f und SelfExp γ3 = Mittelwert(3) γ21 = Mittelwert(2) - Mittelwert(3), analog γ22, γ23 γ11 = Mittelwert(1) - γ21 − γ22 − γ3, analog γ12, γ13 Berechnung von InExp und PathExp.
1.15
Data Warehousing und Mining: Exploration des Data Cubes – 29
Viele Möglichkeiten, mit dem Data Cube zu interagieren. Abweichung des tatsächlichen vom erwarteten Wert ist interessant. Methode für effektives Navigieren in großen Datacubes wurde vorgestellt. "Führen" des Benutzers zu interessanten Datenregionen mittels vorberechneter Indikatoren. Fundament: Modell zum Identifizieren der Abweichungen, Entwicklung eines Algorithmus zur Berechnung der verschiedenen Indikatoren.
Klemens Böhm
2
Implement.
Klemens Böhm
Data Warehousing und Mining: Exploration des Data Cubes – 31
Data Warehousing und Mining: Exploration des Data Cubes – 30
Von quantitativer zu qualitativer Datenanalyse
Zusammenfassung bis hierhin z
1
Berechnung Ausnahmen
DIFF-Op.
InExp 0.84 0.4 0.4
Berechnung der Aggregate und Mittelwerte: Für alle GroupBys wird Aggregation und Mittelwert berechnet. 0
Ausnahmen
außerdem Normalisierung
Filialen All Produkte 1 2 3 SelfExp 1 0.84 0.4 0.4 1.15 2 0.4 0.21 0.21 0.58 3 0.4 0.21 0.21 0.58 SelfExp 0.22 0.87 1.1 0 InExp 0.84 0.4 0.4
DIFF-Op.
1.
Filialen 21 15 15 51
z Einleitung Ausnahmen Berechnung Ausnahmen Implement. Bestandsaufnahme
z z
Die bis jetzt besprochene Methode identifiziert ‘Ausnahme-Zellen’. Hilfreich wäre Unterstützung bei der Suche nach Erklärungen für Ausnahmen. Mit herkömmlichen Mechanismen macht der Benutzer von der Ausnahme-Zelle aus Drill-Downs, um Erklärungen zu finden.
DIFF-Op. Modell Schluß
Klemens Böhm
Data Warehousing und Mining: Exploration des Data Cubes – 32
Illustration
Relevanter Ausschnitt des Raums (1)
Marke Opel
Einleitung
Einleitung Audi
Ausnahmen
Ausnahmen
Berechnung Ausnahmen
Berechnung Ausnahmen
Implement.
Sum of Revenue Prod_Category Cross Ind. Apps Home software Other Apps Vertical Apps
Time 1990 1974.57
1991 2484.2
843.31 898.06
1172.44 1460.83
1992 1993 1994 4563.57 7407.35 8149.86 293.91 574.89 3436.45 2826.9 7947.05 8663.39
Implement. BMW
Bestandsaufnahme DIFF-Op.
Bestandsaufnahme DIFF-Op.
07.01. 08.01.
Modell
Geography
Platform Product
Modell
Schluß
Datum
Hessen
Schluß
Time
Bayern 2826.9
Saarland
7947.0
Bundesland
Prod_Category
Begrifflichkeit für das Folgende: Elementarposition. Data Warehousing und Mining: Exploration des Data Cubes – 33
Klemens Böhm
Relevanter Ausschnitt des Raums (2) Sum of Revenue Prod_Category Cross Ind. Apps Home software Other Apps Vertical Apps
Einleitung Ausnahmen Berechnung Ausnahmen Implement.
z
Bestandsaufnahme DIFF-Op. Modell Schluß
z
z z
Time 1990 1974.57
1991 2484.2
843.31 898.06
1172.44 1460.83
1992 1993 1994 4563.57 7407.35 8149.86 293.91 574.89 3436.45 2826.9 7947.05 8663.39
Der angezeigte Ausschnitt des Data Cubes steht für konkreten Wert entlang mancher Dimensionen, für andere Dimensionen ist der Wert (ALL). Wir betrachten im folgenden die Subcubes über die Dimensionen, entlang denen Drill-Down noch möglich ist. Ca – Subcube mit erster Zelle, Cb – dto. zweite Zelle. Ca und Cb haben gleiche Struktur.
Klemens Böhm
Data Warehousing und Mining: Exploration des Data Cubes – 35
Data Warehousing und Mining: Exploration des Data Cubes – 34
Klemens Böhm
Motivation für den DIFF Operator
Einleitung Ausnahmen Berechnung Ausnahmen
Sum of Revenue Prod_Category Cross Ind. Apps Home software Other Apps Vertical Apps
Time 1990 1974.57
1991 2484.2
843.31 898.06
1172.44 1460.83
1992 1993 1994 4563.57 7407.35 8149.86 293.91 574.89 3436.45 2826.9 7947.05 8663.39
Implement.
Zelle 1
Bestandsaufnahme DIFF-Op.
Geography
Zelle 2
Platform
Modell
Product
Schluß
Time 2826.9
7947.0
Erklärung für die Differenz von über 5000?
Prod_Category
Klemens Böhm
Data Warehousing und Mining: Exploration des Data Cubes – 36
Illustration – Zellpaar Platform
Detail-N Ansatz (1) z
Platform
z Einleitung
Einleitung
Ausnahmen
Ausnahmen
Berechnung Ausnahmen
Berechnung Ausnahmen
Implement.
Implement.
Bestandsaufnahme
Product
Product
DIFF-Op. Modell
Bestandsaufnahme DIFF-Op.
Geography
Geography
Schluß
Modell Schluß
Subcube für 1992
Subcube für 1993
z
Mögliches Ergebnis des DIFF-Operators: N Zellpaare mit maximalem Detaillierungsgrad. Sie sollen am Aggregat beteiligt sein und möglichst großen Teil der Differenz ausmachen. Detail-N Antwort erklärt im Beispiel eine Differenz von knapp 1000.
Product Geography Other Vert. ApWestern Europe Other Vert. ApAsia/Pacific Other Vert. ApRest of World Other Vert. ApWestern Europe Other Vert. ApUnited States Other Vert. ApRest of World Other Vert. ApAsia/Pacific EDA Western Europe ManufacturingUnited States Health Care United States
Platform Year_92 Year_93 Ratio Multiuser Minicomputer 5,2 99,9 19,2 Singleuser MacOS 3,7 92,5 25 Multiuser Mainframe 2,8 88,1 31,4 Singleuser UNIX 7,3 96,3 13,1 Multiuser Minicomputer 2,9 97,2 33,5 Multiuser Minicomputer 12 99,5 8,29 Multiuser UNIX 1,7 99,6 41,3 Multiuser Mainframe 192,6 277,8 1,44 Multiuser Minicomputer 6,3 88,4 13,9 Multiuser Mainframe 2,4 88,2 30,5 236,9 1127,5
- Zahlen stimmen nicht, nur Illustration Klemens Böhm
Data Warehousing und Mining: Exploration des Data Cubes – 37
Detail-N Ansatz (3)
Detail-N Ansatz (2) z
Einleitung Ausnahmen Berechnung Ausnahmen Implement. Bestandsaufnahme DIFF-Op.
z z
Verbesserung: Nicht nur auf der detailliertesten Ebene arbeiten, sondern auf der aussagekräftigsten. D. h. Zeilen zusammenfassen, die unterschiedlichen Zellen entsprechen. Zugrundeliegende Annahme: Benutzer will nur bestimmte Anzahl von Zeilen sehen, z. B. eine Bildschirmseite voll.
Data Warehousing und Mining: Exploration des Data Cubes – 38
Klemens Böhm
Platform
Einleitung Ausnahmen Berechnung Ausnahmen Implement. Bestandsaufnahme
Product
Modell
Schluß
Schluß
Geography
Subcube für 1992
Data Warehousing und Mining: Exploration des Data Cubes – 39
Product
DIFF-Op.
Modell
Klemens Böhm
Platform
Klemens Böhm
Geography
Subcube für 1993
Data Warehousing und Mining: Exploration des Data Cubes – 40
Ergebnis des DIFF-Operators (2)
Ergebnis des DIFF Operators (1)
Product Geography Platform Year_92 Year_93 Ratio Abw. (All)(All)(All)2113 2763.5 1.3 200 Manufacturing - Pro(All) (All) 25.9 702.5 27.1 250 Other V. A. (All)(All) 20.3 1858.4 91.4 251 Other V. A. United States (All) 8.1 77.5 9.6 0 Other V. A. Western Europe(All) 7.3 96.3 13.2 0 Manufacturing - Dis(All) (All) 1135.2 218.3 22 Health Care (All)(All)6.9 820.4 118.2 98 Health Care United States Multiuser 1.5 10.6 6.9 0 Banking/Finance United States (All) 341.3 239.3 0.7 60 Mechanical CAD United States (All) 327.8 243.4 0.7 34
Bessere Antwort – erklärt eine Differenz von über 4500. Einleitung Ausnahmen Berechnung Ausnahmen Implement. Bestandsaufnahme DIFF-Op. Modell Schluß
Product Geography Platform Year_92 Year_93 Ratio Abw. (All)(All)(All) 2113 2763.5 1.3 200 (All) 25.9 702.5 27.1 250 Manufacturing - Pro(All) Other V. A. (All)(All) 20.3 1858.4 91.4 251 Other V. A. United States (All) 8.1 77.5 9.6 0 Other V. A. Western Europe(All) 7.3 96.3 13.2 0 (All) 1135.2 218.3 22 Manufacturing - Dis(All) Health Care (All)(All)6.9 820.4 118.2 98 Health Care United States Multiuser 1.5 10.6 6.9 0 Banking/Finance United States (All) 341.3 239.3 0.7 60 Mechanical CAD United States (All) 327.8 243.4 0.7 34
Klemens Böhm
Einleitung Ausnahmen Berechnung Ausnahmen Implement. Bestandsaufnahme DIFF-Op. Modell Schluß
Data Warehousing und Mining: Exploration des Data Cubes – 41
Erläuterungen: z Abkürzung für diese Tabelle: A z Jede Zeile entspricht einer Position im Raum. z Erste Zeile entspricht den markierten Zellen – abzüglich der Werte, die explizit aufgelistet sind. z Minuszeichen hinter (ALL) bedeutet, daß es sich nicht um Summe aller Werte handelt, sondern daß Zeile folgt, die für speziellere Zelle steht.
Wie kommt man auf die Ratios? (1) z z
Wie kommt man auf die Ratios? (2)
Rot unterlegte Zellen – klar. Sonstige Zellen – nicht ganz so offensichtlich.
z
Einleitung
Einleitung
Ausnahmen
Ausnahmen
Berechnung Ausnahmen
Berechnung Ausnahmen
Implement.
Implement.
Bestandsaufnahme
Bestandsaufnahme
DIFF-Op.
DIFF-Op.
Modell
Modell
Schluß
Schluß
Data Warehousing und Mining: Exploration des Data Cubes – 43
Angenommen, A beschreibt Unterschied zwischen 1992 und 1993. A hat zwei Zeilen: 1 A 2,5 B C Produkte
2
3
Prod.\Fil. 1 A 10 B 10 C 10
Filialen
0,5
Tabelle für 1993:
Tabelle für 1992:
z
Klemens Böhm
Data Warehousing und Mining: Exploration des Data Cubes – 42
Klemens Böhm
2 10 10 10
3 10 10 10
Prod.\Fil. A B C
1 ? ? ?
2 ? ? ?
3 ? ? ?
Ratio einer Zelle ergibt sich aus Ratio der unmittelbarsten Vorgängerzelle und den bekannten Ratios von Nachbarzellen.
Klemens Böhm
Data Warehousing und Mining: Exploration des Data Cubes – 44
Wie kommt man auf die Ratios? (3) z z Einleitung Ausnahmen Berechnung Ausnahmen
z
Es handelt sich um eine Möglichkeit, die Ratios zu interpretieren. Andere Interpretationen sind denkbar (z. B. auch teilweise Berücksichtigung der Nachbarzellen). Führt aber zu zusätzlichen Parametern, kompliziert.
Ergebnis des DIFF-Operators (3)
Einleitung Ausnahmen Berechnung Ausnahmen
Implement.
Implement.
Bestandsaufnahme
Bestandsaufnahme
DIFF-Op.
DIFF-Op.
Modell
Modell
Schluß
Schluß
Data Warehousing und Mining: Exploration des Data Cubes – 45
Klemens Böhm
Product Geography Platform Year_92 Year_93 Ratio Abw. (All)(All)(All) 2113 2763.5 1.3 200 (All) 25.9 702.5 27.1 250 Manufacturing - Pro(All) Other V. A. (All)(All) 20.3 1858.4 91.4 251 Other V. A. United States (All) 8.1 77.5 9.6 0 Other V. A. Western Europe(All) 7.3 96.3 13.2 0 Manufacturing - Dis(All) (All) 1135.2 22 Health Care (All)(All)6.9 820.4 118.2 98 Health Care United States Multiuser 1.5 10.6 6.9 0 Banking/Finance United States (All) 341.3 239.3 0.7 60 Mechanical CAD United States (All) 327.8 243.4 0.7 34
Error (“Abw.”) – Erläuterung: z Reflektiert, inwieweit der Verhältnis-Wert (“Ratio”) auch für die Kinder gilt, die nicht explizit aufgeführt sind. z Großer Error: Im Mittel starke Abweichung der einzelnen Kinder. z Formel hier: Wurzel der Summen der Abweichung jeder Detail-Zeile zum Quadrat, d. h. L2-Norm. Klemens Böhm
Beispiel für großen und kleinen Error
Tradeoff
z Großer Error: Einleitung Ausnahmen Berechnung Ausnahmen
Product Health Care Health Care Health Care Health Care Health Care
z Geography United States United States United States United States United States
Platform Year_92 Year_93 (All) 28 280 Multiuser 7.9 800 Single-User 7.1 70 Palm 20.2 20.1 Xbox 15.6 1.1
Implement. Bestandsaufnahme DIFF-Op. Modell Schluß
z Einleitung Ausnahmen Berechnung Ausnahmen Implement.
z Kleiner Error: Product Health Care Health Care Health Care Health Care
Geography United States United States United States United States
Platform Year_92 Year_93 (All) 28 280 Multiuser 7.9 79 Single-User 7.1 71 Palm 20.2 201
z
Bestandsaufnahme DIFF-Op.
z
Modell Schluß
z
Klemens Böhm
Data Warehousing und Mining: Exploration des Data Cubes – 47
Data Warehousing und Mining: Exploration des Data Cubes – 46
Welche Zeilen? DIFF-Ergebnis mit wenigen Zeilen, die Großteil der Differenz erklären, hat i. a. recht großen Fehler (“zu allgemeine Aussagen”). DIFF-Ergebnis mit kleinem Fehler ist i. a. zu ausführlich (“zu detaillierte Aussagen”), bzw. reicht vorgegebene Zeilenanzahl nicht aus. Ziel daher: Zusammenfassen von Zeilen, die ähnliches Verhältnis haben. Bei großem Unterschied explizit aufführen. Motiviert informationstheoretische Behandlung des Sachverhalts.
Klemens Böhm
Data Warehousing und Mining: Exploration des Data Cubes – 48
Modell (1) Angenommen, wir wollen jemandem, der Ca kennt, mitteilen, wie sich Cb von Ca unterscheidet. Möglich, Cb zu schicken. Aber aufwendig. Stattdessen ungefähre, aber möglichst gute Zusammenfassung der Differenz. Tabelle A.
z z Einleitung Ausnahmen
z
Berechnung Ausnahmen Implement. Bestandsaufnahme DIFF-Op. Modell Schluß
Modell (2)
1 A 2,5 B C Produkte
2
3
z
Einleitung
z
Anzahl der Zeilen der Tabelle zunächst von außen vorgegeben. A so wählen, daß Fehler minimal.
Ausnahmen Berechnung Ausnahmen Implement.
Filialen
Bestandsaufnahme DIFF-Op. Modell
0,5
Tabelle für 1993 – Cb:
Tabelle für 1992 – Ca: Prod.\Fil. 1 A 10 B 10 C 10
2 10 10 10
Schluß
Prod.\Fil. 1 A 25 B 2,5 C 2,5
3 10 10 10
2 2,5 2,5 2,5
3 2,5 2,5 2,5
Data Warehousing und Mining: Exploration des Data Cubes – 49
Klemens Böhm
Klemens Böhm
Modell (3)
Fehler – Illustration Tabelle für 1992 – Ca: Einleitung Ausnahmen Berechnung Ausnahmen Implement. Bestandsaufnahme DIFF-Op. Modell Schluß
Prod.\Fil. A B C
A
1 1 1 1
2 1 1 1
1 A 2,5 B C Produkte
z 3 1 1 1
2
Einleitung Ausnahmen
Fehler = Anzahl der Bits, die für Übermittlung des Fehlers erforderlich wären, wenn man A statt Cb überträgt.
Berechnung Ausnahmen
3
Filialen
Implement. Bestandsaufnahme DIFF-Op. Modell
0,5
Schluß
Vorhersage für Cb:
Tabelle für 1993 – Cb:
Prod.\Fil. 1 2 3 A 2,5 0,25 0,25 B 0,25 0,25 0,25 C 0,25 0,25 0,25
Prod.\Fil. 1 2 3 A 2,5 0,1 0,25 B 0,25 0,3 0,2 C 0,25 0,4 0,25
Klemens Böhm
Data Warehousing und Mining: Exploration des Data Cubes – 50
Data Warehousing und Mining: Exploration des Data Cubes – 51
Klemens Böhm
Data Warehousing und Mining: Exploration des Data Cubes – 52
Fehlerwahrscheinlichkeit z
Einleitung
z
Ausnahmen Berechnung Ausnahmen Implement.
z
Modell (4)
Angenommen, tatsächliche Werte normalverteilt um Vorhersagewert. WS(Differenz zwischen tatsächlichem und Vorhersagewert ≥ 0) = 1 WS(Differenz zwischen tatsächlichem und Vorhersagewert ≥ δ) = cδ
z
Einleitung Ausnahmen Berechnung Ausnahmen Implement.
Bestandsaufnahme
Bestandsaufnahme
DIFF-Op.
DIFF-Op.
Modell
Modell
Schluß
Schluß
Data Warehousing und Mining: Exploration des Data Cubes – 53
Klemens Böhm
z
Klemens Böhm
Wie groß ist der Fehler?
Einleitung Ausnahmen Berechnung Ausnahmen Bestandsaufnahme DIFF-Op. Modell Schluß
A B C Produkte
1 2,5
2
3
Klemens Böhm
z
Einleitung Ausnahmen Berechnung Ausnahmen
0,5
1 1 1 1
2 1 1 1
z
Implement.
M
Bestandsaufnahme DIFF-Op.
x
Modell
z
Zur Berechnung der WS vergleichen wir tatsächlichen Wert in Cb mit erwartetem Wert gemäß Ca und A für jede Elementar-Position. Ausgehend von WS-Verteilung (z. B. Normalvert.) um erwarteten Wert; cost(v)=-logPr[tatsächlicher Wert | erwarteter Wert] Codierungsaufwand, d. h. Abweichung von A = Summe der Kosten für jede Elementar-Position.
Schluß
Tabelle für 1993 – Cb:
Tabelle für 1992 – Ca: Prod.\Fil. A B C
Filialen
Data Warehousing und Mining: Exploration des Data Cubes – 54
Aussage zu Codierungsaufwand
z Informationstheoretisches Theorem (Shannon). z Sei x eine Aussage. Sei M ein Modell. Wieviele Bits reichen, um x in M zu codieren? z Gemäß Theorem sind es -log Pr[x|M] Bits. (Pr [x|M] – WS, daß x eintritt, gegeben Modell M.)
Implement.
Anzahl der Bits für Fehlerübermittlung mit Hilfe dieser Wahrscheinlichkeit berechenbar. Berechnung dieser Anzahl der Bits gemäß Theorem (s. b. folgende Folie).
3 1 1 1
Prod.\Fil. 1 2 3 A 2,5 0,1 0,25 B 0,25 0,3 0,2 C 0,25 0,4 0,25 Data Warehousing und Mining: Exploration des Data Cubes – 55
Klemens Böhm
Data Warehousing und Mining: Exploration des Data Cubes – 56
Modell (5)
Berechnung der Anzahl Bits
Einleitung Ausnahmen Berechnung Ausnahmen Implement. Bestandsaufnahme DIFF-Op. Modell Schluß
forall (v ist Detail-Zeile von Cb) if (v ist Bestandteil von A) WS = 1; cost(v)=0; else finde unmittelbarsten Vorgänger p in A; r = Ratio von p; erwarteter Wert vb von v in Cb ist r⋅va; ausgehend von WS-Verteilung um r⋅va; cost(v)=-logPr[vb| r⋅va] // Normalverteilung meist OK
inkrementiere Gesamtanzahl Bits um cost(v)
Klemens Böhm
z
Einleitung Ausnahmen Berechnung Ausnahmen Implement. Bestandsaufnahme DIFF-Op. Modell Schluß
Data Warehousing und Mining: Exploration des Data Cubes – 57
z
Anzahl der Zeilen N war bis jetzt gegeben, kann aber miteinbezogen werden, indem wir Kosten des Transfers von A explizit machen. Kosten einer Zeile: Σ(log(ni+1))+log c ni – Kardinalität der Dimension i von Ca. Summand 1 – berücksichtigt, daß auch (ALL) möglich ist. c – Verhältnis selbst muß auch kodiert werden.
Product Geography Platform Year_92 Year_93 Ratio Abw. (All)(All)(All) 2113 2763.5 1.3 200 Manufacturing - Pro(All) (All) 25.9 702.5 27.1 250 Other V. A. (All)(All) 20.3 1858.4 91.4 251 Other V. A. United States (All) 8.1 77.5 9.6 0 Other V. A. Western Europe(All) 7.3 96.3 13.2 0 Manufacturing - Dis(All) (All) 1135.2 22 Health Care (All)(All)6.9 820.4 118.2 98 Health Care United States Multiuser 1.5 10.6 6.9 0 Banking/Finance United States (All) 341.3 239.3 0.7 60 Mechanical CAD United States (All) 327.8 243.4 0.7 34 Klemens Böhm
Schluß (1)
Einleitung Ausnahmen Berechnung Ausnahmen Implement.
z Jetzt müßte noch besprochen werden: Schneller Algorithmus, der das A bestimmt, Umgang mit fehlenden Werten. z Ansatz nicht darauf beschränkt, daß Zellen sich nur in einer Dimension unterscheiden. Es muß aber gemeinsame Subcubes geben.
Schluß (2)
Einleitung Ausnahmen Berechnung Ausnahmen Implement.
Bestandsaufnahme
Bestandsaufnahme
DIFF-Op.
DIFF-Op.
Modell
Modell
Schluß
Schluß
Klemens Böhm
Data Warehousing und Mining: Exploration des Data Cubes – 59
Data Warehousing und Mining: Exploration des Data Cubes – 58
z Kapitel hat behandelt: Motivation für das Sichtbarmachen von Ausnahmen, unterschiedliche Überraschungswerte, unterschiedliche Definitionen auf der technischen Ebene, Motivation für das Zusammenfassen von Unterschieden zwischen Subcubes, Vorgehen, um zu aussagekräftiger, aber prägnanter Zusammenfassung zu kommen. z Insgesamt: Sinnvolle Maßnahmen zur Unterstützung der Exploration des Cubes; generisches Interface bietet zuviele Interaktionsmöglichkeiten. Klemens Böhm
Data Warehousing und Mining: Exploration des Data Cubes – 60
Prüfungsfragen, beispielhaft
Literatur Sunita Sarawagi, Rakesh Agrawal, Nimrod Megiddo, Discovery-driven Exploration of OLAP Data Cubes, Proc. of the Sixth Int'l Conference on Extending Database Technology (EDBT), Valencia, Spain, March 1998. z Sunita Sarawagi, Explaining Differences in Multidimensional Aggregates, Proc. of the 25th Int’l Conference on Very Large Databases, 1999. z
z
z z z
Klemens Böhm
Data Warehousing und Mining: Exploration des Data Cubes – 61
Was bedeutet 'erwarteter Wert' im multidimensionalen Modell? Wie kann man ihn berechnen? Was bedeutet 'Ausnahme' gemäß der Vorlesung im multidimensionalen Modell? Wie kann man Ausnahmen zur Verbesserung der Visualisierung des Data Cubes verwenden? Erklären Sie den DIFF-Operator (Motivation, Umsetzung).
Klemens Böhm
Data Warehousing und Mining: Exploration des Data Cubes – 62