Kapitel 10: Exploration des Data Cubes

WEin möglicher Ansatz zur Beschreibung einer Tabelle, anhand eines Beispiels z z Kapitel 10: Exploration des Data Cubes W Beispiel 2: Gleiche Rela...
Author: Björn Kappel
0 downloads 3 Views 303KB Size
WEin möglicher Ansatz zur Beschreibung

einer Tabelle, anhand eines Beispiels z z

Kapitel 10: Exploration des Data Cubes

W

Beispiel 2: Gleiche Relation, andere Tabelle

z

z

SALES

TIME Year 1996 Month Jan Feb … CATEGORY Part City (Cost, Sale) PC Montreal (5,6) (5,7) … Toronto (5,7) (5,8) … … … … Inkjet Montreal (7,8) (7,9) New York (6,9) (6,9) … … … … … … …

Data Warehousing und Mining: Exploration des Data Cubes – 1

Klemens Böhm

z

z

Attribute Dimensionen Relation R(Part, City, Year, Month, Cost, Sale), Schema der Tabelle: Sales= mit par(Category)={Part, City} und par(Time)={Year, Month} Im Gegensatz zur Verwendung des Begriffs ‚Dimension‘ vorher werden jetzt mehrere Attribute zu einer Dimension (mit neuem Namen) zusammengefaßt. par identifiziert die Bestandteile der Dimensionen.

LOCA- City TION Montreal Montreal … Montreal Montreal … Toronto Toronto … Klemens Böhm

COMPONENT Part PC (Year,Month, Cost,Sale) (1996, Jan, 5, 6) (1996, Jan, 5, 7) … (1997, Jan, 4, 6) (1997, Feb, 4, 8) … (1997, Jan, 5,7) (1996, Feb, 5, 8) …

Inkjet



(1996, Jan, 5, 6) (1996, Jan, 5, 7) … (1997, Jan, 4, 6) (1997, Feb, 4, 8) … / / …

… …

Data Warehousing und Mining: Exploration des Data Cubes – 3

… … … …

Data Cube - Repräsentation aggregierter Werte Marke Opel

Audi

Bundesland Hessen Bayern Saarland

BMW

Anzahl 131 240 141

07.01. 08.01. Datum Bayern Saarland

… …

(4,8) (4,9) … (6,8) (5,9) … …

W

Hessen

… …

(4,6) (4,8) … (6,9) (5,8) … …



Data Warehousing und Mining: Exploration des Data Cubes – 2

Klemens Böhm

Schema der Tabelle: Sales= mit par(Location)={City} und par(Component)={Part} Dimensionen, Attribute, par identifiziert die Bestandteile der Dimensionen.

SALES

1997 Jan Feb

GroupBy-Operator berechnet Punkte in einer Hyperebene.

Bundesland

Klemens Böhm

Data Warehousing und Mining: Exploration des Data Cubes – 4

W

Data Cube - Repräsentation aggregierter Werte (2)

W

Consolidation Paths

Marke Opel Marke BMW BMW BMW Opel Opel Opel Audi Audi

Audi

BMW

Bundesland Hessen Bayern Saarland Hessen Bayern Saarland Hessen Bayern

Marke BMW BMW BMW Opel Opel Opel Opel Audi Audi Audi Audi

Anzahl 28 37 41 48 62 100 55 141

Datum 07.01. 1994 08.01. 1994 07.01. 1994 07.01. 1994 08.01. 1994 08.01. 1994 09.01. 1994 07.01. 1994 08.01. 1994 09.01. 1994 10.01. 1994

Bundesland Hessen Bayern Saarland Hessen Bayern Saarland Saarland Hessen Bayern Bayern Bayern

Anzahl 28 37 41 48 62 5 95 55 52 27 62

BDM BM B

BD D

DM M

none

07.01. 08.01. Marke BMW BMW BMW Opel Opel Opel Audi Audi

Datum

Hessen Bayern Saarland

Wofür steht Zahl im Ursprung?

Bundesland

Data Warehousing und Mining: Exploration des Data Cubes – 5

Klemens Böhm

W

Bundesland Hessen Bayern Saarland Hessen Bayern Saarland Hessen Bayern

Anzahl 28 37 41 48 62 100 55 141

Bundesland Hessen Bayern Saarland

Anzahl 131 240 141

Data Warehousing und Mining: Exploration des Data Cubes – 6

Klemens Böhm

W

Consolidation Paths (2) Marke BMW BMW BMW Opel Opel Opel Opel Audi Audi Audi Audi

Datum 07.01. 1994 08.01. 1994 07.01. 1994 07.01. 1994 08.01. 1994 08.01. 1994 09.01. 1994 07.01. 1994 08.01. 1994 09.01. 1994 10.01. 1994

Marke BMW BMW BMW Opel Opel Opel Audi Audi

Bundesland Hessen Bayern Saarland Hessen Bayern Saarland Saarland Hessen Bayern Bayern Bayern

Bundesland Hessen Bayern Saarland Hessen Bayern Saarland Hessen Bayern

Klemens Böhm

Anzahl 28 37 41 48 62 100 55 141

Consolidation Paths (3)

Anzahl 28 37 41 48 62 5 95 55 52 27 62

BDM BM B

BD D

DM

Konsolidierung ist nicht nur möglich, indem man Dimensionen ausblendet, sondern auch durch das Zusammenfassen von Werten.

Tag

M

none

Monat Woche

Bundesland Hessen Bayern Saarland

Anzahl 131 240 141

Roll-up (Drill-up)

Jahr

Drill-down

keine Data Warehousing und Mining: Exploration des Data Cubes – 7

Klemens Böhm

Konzepthierarchie Data Warehousing und Mining: Exploration des Data Cubes – 8

W

W

Consolidation

Consolidation Paths (4)

‘BDM’ - ‘Bundesland - Datum - Marke’

Marke Opel

BDM

T Mo

Audi

J BMW

BD

BM

W

B

none

DM M

D none

BDM

07.01. 08.01. Datum Hessen

BMW

BMMo

DM

BD

Bayern Saarland

BM

Bundesland

BW

MW

BMJ

... Klemens Böhm

Data Warehousing und Mining: Exploration des Data Cubes – 9

Klemens Böhm

MMo

BMo

D Anzahl Ebenen?

Data Warehousing und Mining: Exploration des Data Cubes – 10

W

Consolidation Paths (5) z

Vorangegangene Folie verdeutlicht zweierlei: ‹ Kombinierbarkeit, ‹ sehr viele Kombinationsmöglichkeiten.

Was bedeutet Drill-Down im Kontext dieses Interfaces? Klemens Böhm

Data Warehousing und Mining: Exploration des Data Cubes – 11

Klemens Böhm

Data Warehousing und Mining: Exploration des Data Cubes – 12

Motivation z Einleitung

z

Ausnahmen Berechnung Ausnahmen

z

Implement. Bestandsaufnahme

z

DIFF-Op. Modell Schluß

Navigieren im Data Cube ist nur auf den ersten Blick leicht. Bei vielen Dimensionen ist die Suche nach hilfreicher Information mühsam. Anwender hat natürlich meist nicht exakte Hypothese. Exploration des Data Cubes: ‹ Finden von Ausnahmen, ‹ Herausfinden, warum sich Ausnahmen ergeben.

Klemens Böhm

Motivation z Einleitung Ausnahmen

Implement. Bestandsaufnahme DIFF-Op. Modell Schluß

Data Warehousing und Mining: Exploration des Data Cubes – 13

Einleitung Ausnahmen

z

Berechnung Ausnahmen Implement. Bestandsaufnahme DIFF-Op. Modell Schluß

z

Beispiel: Mobiltelefone im Monat Dezember im Media Markt Eschborn Umsatzplus 50%. Kein int‘santer Zusammenhang, da auch für andere Waren und Standorte Umsatz im Dezember hochgeht („Weihnachtsgeschäft“). Int‘santer Zusammenhang ist also auf anderer Ebene, nämlich ‚Monat Dezember‘, aber Abstraktion von restlichen Dimensionen.

z

Region Product Beer Cola Diet-S

all Jan

Feb Mar Apr Mai Jun Jul Aug Sep Okt Nov Dez 10% -7% 3% -4% 15% -12% -3% 1% 42% -14% -10% -1% 2% 3% 4% 9% 4% 1% -11% -8% -2% 7% 2% -1% 0% 0% 4% 2% 4% -9% 5% -3% 0%

Data Warehousing und Mining: Exploration des Data Cubes – 14

Klemens Böhm

Berechnung der Ausnahmen – Beispiel

Wann ist Zusammenhang interessant? z

z

Berechnung Ausnahmen

Operatoren wie Drilldown sind zwar nützlich, Benutzer muß aber interessante Zusammenhänge ‚von Hand‘ entdecken. Ziel im folgenden: Benutzer durch den Cube führen, Navigationsmöglichkeiten anzeigen, die zu interessanten Zusammenhängen führen. Beispiel:

Produkt Brot x

Einleitung

x

Ausnahmen Berechnung Ausnahmen

Milch

x

Implement.

x

Bestandsaufnahme Tee

DIFF-Op. Modell Schluß

07.01. 08.01.

x

x Irchel Central Wipkingen

x Filiale

Klemens Böhm

Data Warehousing und Mining: Exploration des Data Cubes – 15

Punkt ist Zusammenfassung oder Abstraktion eines anderen Punkts. Tatsächlicher Wert vs. erwarteter Wert.

Klemens Böhm

x

Datum

„ElementarPosition“ Data Warehousing und Mining: Exploration des Data Cubes – 16

Subcube von bestimmter Position (1)

Subcube von bestimmter Position (2)

Umsatz

Umsatz

300’

300’

Einleitung

Einleitung 200’

Ausnahmen

200’

Ausnahmen

Berechnung Ausnahmen

Berechnung Ausnahmen

Implement.

Implement.

100’

Bestandsaufnahme DIFF-Op.

DIFF-Op.

07.01. 08.01.

Modell

Datum

Schluß

100’

Bestandsaufnahme

100

07.01. 08.01.

Modell

Datum

Schluß

100

200

200

300

300

MA-Anzahl

MA-Anzahl

Bei mehr Dimensionen hat Subcube höhere Dimensionalität.

Bei mehr Dimensionen hat Subcube höhere Dimensionalität.

Data Warehousing und Mining: Exploration des Data Cubes – 17

Klemens Böhm

Data Warehousing und Mining: Exploration des Data Cubes – 18

Klemens Böhm

Drill-Down an bestimmter Position

Realisierter Ansatz

Umsatz

z

300’

Einleitung

Einleitung 200’

Ausnahmen

Ausnahmen

Berechnung Ausnahmen

z

Berechnung Ausnahmen

Implement.

Implement.

100’

Bestandsaufnahme DIFF-Op.

Bestandsaufnahme DIFF-Op.

07.01. 08.01.

Modell

Datum

Schluß

100

Modell Schluß

z

Für jede Zelle Berechnung eines erwarteten Werts ŷ über mehrere Dimensionen. Abweichung des tatsächlichen Wertes y vom erwarteten Wert ŷ bestimmt den "Überraschungswert" der Zelle. Berechnung von drei Überraschungswerten (Indikatoren) ‹ je Zelle: SelfExp, InExp, ‹ je Dimension: PathExp.

200 300 MA-Anzahl

Bei mehr Dimensionen mehr mögliche Drill-Downs. Klemens Böhm

Data Warehousing und Mining: Exploration des Data Cubes – 19

Region Product Beer Cola Diet-S Klemens Böhm

all Jan

Feb Mar Apr Mai Jun Jul Aug Sep Okt Nov Dez 10% -7% 3% -4% 15% -12% -3% 1% 42% -14% -10% -1% 2% 3% 4% 9% 4% 1% -11% -8% -2% 7% 2% -1% 0% 0% 4% 2% 4% -9% 5% -3% 0% Data Warehousing und Mining: Exploration des Data Cubes – 20

Beispiel (1) Product Region

all all Jan

Total

Beispiel (2) Product Region

Feb Mar Apr May Jun Jul Aug Sep Oct Nov Dec 2% 0% 2% 2% 4% 3% 0% -8% 0% -3% 4%

Total

Einleitung Ausnahmen Berechnung Ausnahmen

z

Implement. Bestandsaufnahme DIFF-Op. Modell

z

Schluß

z

SelfExp - "Überraschungswert" als Ergebnis eines Vergleichs mit den anderen Zellen auf gleicher Aggregationsstufe, InExp - max(SelfExp) für die durch Drill-Down erreichbaren Zellen (oben dargestellt), PathExp - max(SelfExp) aller erreichbarer Zellen entlang eines ausgewählten Pfades. Im Beispiel: ‘Überraschung’ größer bei Drill-Down entlang Product, verglichen mit Drill-Down entlang Region.

PR P

Einleitung Ausnahmen Berechnung Ausnahmen Implement. Bestandsaufnahme DIFF-Op.

all all Jan

Total

Region Product Beer Cola Diet-S

all Jan

Product

Diet-S

Region C E

Jan

R

RT T

Welcher Position im Cuboid entspricht die Tabelle oben?

Klemens Böhm

Data Warehousing und Mining: Exploration des Data Cubes – 22

Berechnung der Ausnahmen (1)

Feb Mar Apr May Jun Jul Aug Sep Oct Nov Dec 2% 0% 2% 2% 4% 3% 0% -8% 0% -3% 4%

Einleitung Ausnahmen Berechnung Ausnahmen

Feb Mar Apr Mai Jun Jul Aug Sep Okt Nov Dez 10% -7% 3% -4% 15% -12% -3% 1% 42% -14% -10% -1% 2% 3% 4% 9% 4% 1% -11% -8% -2% 7% 2% -1% 0% 0% 4% 2% 4% -9% 5% -3% 0%

Modell Schluß

PT

‘P’ – Product, ‘R’ – Region, ‘T’ – Time.

none

Beispiel (3) Product Region

Feb Mar Apr May Jun Jul Aug Sep Oct Nov Dec 2% 0% 2% 2% 4% 3% 0% -8% 0% -3% 4%

PRT

Data Warehousing und Mining: Exploration des Data Cubes – 21

Klemens Böhm

all all Jan

Implement. Bestandsaufnahme DIFF-Op. Modell

Abweichung des tatsächlichen vom erwarteten Wert muß größer als ein Schwellenwert sein (nach Normalisierung): z yi ,...,i – tatsächlicher Wert der Zelle i1...in, 1 n z ŷi ,...,i – erwarteter Wert dieser Zelle, 1 n z σ – Skalierungsfaktor, z θ – Schwellenwert, z Ausnahme liegt vor, falls |y - ŷ|/ σ > θ.

Schluß

Feb Mar Apr Mai Jun Jul Aug Sep Okt Nov Dez 0% -2% 0% 1% 4% 1% 5% -6% 2% -2% -2% 0% 2% -8% 7% 0% 5% -40% 10% -33% 2% 8%

z Klemens Böhm

Data Warehousing und Mining: Exploration des Data Cubes – 23

Klemens Böhm

Data Warehousing und Mining: Exploration des Data Cubes – 24

Berechnung der Ausnahmen (2)

Einleitung Ausnahmen

Cola Cola ZH GE

Cola

Bier ZH

Bier

Bier GE

Berechnung der Ausnahmen (3)

Einleitung Ausnahmen

Berechnung Ausnahmen

ZH

Bestandsaufnahme Modell

Cola

Bier ZH

Bier GE

Bier

ZH

GE

total

Berechnung Ausnahmen

Implement.

DIFF-Op.

Cola Cola ZH GE

z

Schluß

GE

Implement.

total

Bestandsaufnahme

Beispiel: „Anteil Kunden an Bevölkerung“ (Cola, ZH) = ∅ total „Anteil Kunden an Cola+ (∅ Cola – ∅ total) trinkender Bevölkerung“ + (∅ ZH – ∅ total) „Anteil Kunden in ZH“

DIFF-Op. Modell

z

Beispiel 2:

Schluß

(Cola, ZH) = ∅ total ⋅

∅ Cola ∅ ZH ⋅ ∅ total ∅ total

„Anteil Kunden „Anteil Kunden an Colaan Bevölkerung“ trinkender Bevölkerung“ Klemens Böhm

Data Warehousing und Mining: Exploration des Data Cubes – 25

Klemens Böhm

Berechnung der Ausnahmen (4) z

Einleitung Ausnahmen Berechnung Ausnahmen

z

Implement. Bestandsaufnahme DIFF-Op. Modell Schluß

z z

Beispiel: (Cola, ZH) = ∅ total + (∅ Cola – ∅ total) + (∅ ZH – ∅ total) Koeffizienten stehen für den Beitrag jeder Zelle zu den erwarteten Werten der ‚Zellen darunter‘, produkt produkt _ ort z. B. γ Cola oder γ Cola _ ZH

Cola Cola ZH GE

Cola

Bier ZH

Bier

Einleitung Ausnahmen Berechnung Ausnahmen

GE

total

ŷ=fAggregation(γi) Beispiel (wie oben): (Cola, ZH) = γ1 + γ2 + γ3 (Cola, ZH) = ∅ total + (∅ Cola - ∅ total) + (∅ ZH - ∅ total)

Klemens Böhm

z

Implement.

ZH

Data Warehousing und Mining: Exploration des Data Cubes – 26

Berechnung der Ausnahmen (5) z

Bier GE

„Anteil Kunden in ZH“

Data Warehousing und Mining: Exploration des Data Cubes – 27

Bestandsaufnahme DIFF-Op.

z

ŷ=fAggregation(γi) Festlegen von f: ‹ additiv f(γ1,γ2) = γ1 + γ2, ‹ multiplikativ f(γ1, γ2) = γ1 ⋅ γ2 Bestimmen der γi aus dem Ausgangsdatenbestand: Mittelwert bzw. trimmed-mean (Verallgemeinerung von trunc_avg).

Modell Schluß

Klemens Böhm

Data Warehousing und Mining: Exploration des Data Cubes – 28

Implementierung

Beispiel 1 2 3 Produkte

Einleitung Ausnahmen Berechnung Ausnahmen Implement.

γ 1,1 =

Bestandsaufnahme

1 9 3 3 15

2 3 3 3 9

3 9 9 9 27

51 15 51 21 51 51 − 6 + 12 19 +( − )+( − ) = = 9 3 9 3 9 9 3

Modell Schluß

All Klemens Böhm

Einleitung

Einleitung

z

Ausnahmen Berechnung Ausnahmen

z

Implement. Bestandsaufnahme

z

DIFF-Op. Modell Schluß

z

Bestandsaufnahme

2.

Modell Schluß

3.

3

Berechnung der Beiträge γi zu f, Berechnung von f und SelfExp γ3 = Mittelwert(3) γ21 = Mittelwert(2) - Mittelwert(3), analog γ22, γ23 γ11 = Mittelwert(1) - γ21 − γ22 − γ3, analog γ12, γ13 Berechnung von InExp und PathExp.

1.15

Data Warehousing und Mining: Exploration des Data Cubes – 29

Viele Möglichkeiten, mit dem Data Cube zu interagieren. Abweichung des tatsächlichen vom erwarteten Wert ist interessant. Methode für effektives Navigieren in großen Datacubes wurde vorgestellt. "Führen" des Benutzers zu interessanten Datenregionen mittels vorberechneter Indikatoren. Fundament: ‹ Modell zum Identifizieren der Abweichungen, ‹ Entwicklung eines Algorithmus zur Berechnung der verschiedenen Indikatoren.

Klemens Böhm

2

Implement.

Klemens Böhm

Data Warehousing und Mining: Exploration des Data Cubes – 31

Data Warehousing und Mining: Exploration des Data Cubes – 30

Von quantitativer zu qualitativer Datenanalyse

Zusammenfassung bis hierhin z

1

Berechnung Ausnahmen

DIFF-Op.

InExp 0.84 0.4 0.4

Berechnung der Aggregate und Mittelwerte: Für alle GroupBys wird Aggregation und Mittelwert berechnet. 0

Ausnahmen

außerdem Normalisierung

Filialen All Produkte 1 2 3 SelfExp 1 0.84 0.4 0.4 1.15 2 0.4 0.21 0.21 0.58 3 0.4 0.21 0.21 0.58 SelfExp 0.22 0.87 1.1 0 InExp 0.84 0.4 0.4

DIFF-Op.

1.

Filialen 21 15 15 51

z Einleitung Ausnahmen Berechnung Ausnahmen Implement. Bestandsaufnahme

z z

Die bis jetzt besprochene Methode identifiziert ‘Ausnahme-Zellen’. Hilfreich wäre Unterstützung bei der Suche nach Erklärungen für Ausnahmen. Mit herkömmlichen Mechanismen macht der Benutzer von der Ausnahme-Zelle aus Drill-Downs, um Erklärungen zu finden.

DIFF-Op. Modell Schluß

Klemens Böhm

Data Warehousing und Mining: Exploration des Data Cubes – 32

Illustration

Relevanter Ausschnitt des Raums (1)

Marke Opel

Einleitung

Einleitung Audi

Ausnahmen

Ausnahmen

Berechnung Ausnahmen

Berechnung Ausnahmen

Implement.

Sum of Revenue Prod_Category Cross Ind. Apps Home software Other Apps Vertical Apps

Time 1990 1974.57

1991 2484.2

843.31 898.06

1172.44 1460.83

1992 1993 1994 4563.57 7407.35 8149.86 293.91 574.89 3436.45 2826.9 7947.05 8663.39

Implement. BMW

Bestandsaufnahme DIFF-Op.

Bestandsaufnahme DIFF-Op.

07.01. 08.01.

Modell

Geography

Platform Product

Modell

Schluß

Datum

Hessen

Schluß

Time

Bayern 2826.9

Saarland

7947.0

Bundesland

Prod_Category

Begrifflichkeit für das Folgende: Elementarposition. Data Warehousing und Mining: Exploration des Data Cubes – 33

Klemens Böhm

Relevanter Ausschnitt des Raums (2) Sum of Revenue Prod_Category Cross Ind. Apps Home software Other Apps Vertical Apps

Einleitung Ausnahmen Berechnung Ausnahmen Implement.

z

Bestandsaufnahme DIFF-Op. Modell Schluß

z

z z

Time 1990 1974.57

1991 2484.2

843.31 898.06

1172.44 1460.83

1992 1993 1994 4563.57 7407.35 8149.86 293.91 574.89 3436.45 2826.9 7947.05 8663.39

Der angezeigte Ausschnitt des Data Cubes steht für konkreten Wert entlang mancher Dimensionen, für andere Dimensionen ist der Wert (ALL). Wir betrachten im folgenden die Subcubes über die Dimensionen, entlang denen Drill-Down noch möglich ist. Ca – Subcube mit erster Zelle, Cb – dto. zweite Zelle. Ca und Cb haben gleiche Struktur.

Klemens Böhm

Data Warehousing und Mining: Exploration des Data Cubes – 35

Data Warehousing und Mining: Exploration des Data Cubes – 34

Klemens Böhm

Motivation für den DIFF Operator

Einleitung Ausnahmen Berechnung Ausnahmen

Sum of Revenue Prod_Category Cross Ind. Apps Home software Other Apps Vertical Apps

Time 1990 1974.57

1991 2484.2

843.31 898.06

1172.44 1460.83

1992 1993 1994 4563.57 7407.35 8149.86 293.91 574.89 3436.45 2826.9 7947.05 8663.39

Implement.

Zelle 1

Bestandsaufnahme DIFF-Op.

Geography

Zelle 2

Platform

Modell

Product

Schluß

Time 2826.9

7947.0

Erklärung für die Differenz von über 5000?

Prod_Category

Klemens Böhm

Data Warehousing und Mining: Exploration des Data Cubes – 36

Illustration – Zellpaar Platform

Detail-N Ansatz (1) z

Platform

z Einleitung

Einleitung

Ausnahmen

Ausnahmen

Berechnung Ausnahmen

Berechnung Ausnahmen

Implement.

Implement.

Bestandsaufnahme

Product

Product

DIFF-Op. Modell

Bestandsaufnahme DIFF-Op.

Geography

Geography

Schluß

Modell Schluß

Subcube für 1992

Subcube für 1993

z

Mögliches Ergebnis des DIFF-Operators: N Zellpaare mit maximalem Detaillierungsgrad. Sie sollen am Aggregat beteiligt sein und möglichst großen Teil der Differenz ausmachen. Detail-N Antwort erklärt im Beispiel eine Differenz von knapp 1000.

Product Geography Other Vert. ApWestern Europe Other Vert. ApAsia/Pacific Other Vert. ApRest of World Other Vert. ApWestern Europe Other Vert. ApUnited States Other Vert. ApRest of World Other Vert. ApAsia/Pacific EDA Western Europe ManufacturingUnited States Health Care United States

Platform Year_92 Year_93 Ratio Multiuser Minicomputer 5,2 99,9 19,2 Singleuser MacOS 3,7 92,5 25 Multiuser Mainframe 2,8 88,1 31,4 Singleuser UNIX 7,3 96,3 13,1 Multiuser Minicomputer 2,9 97,2 33,5 Multiuser Minicomputer 12 99,5 8,29 Multiuser UNIX 1,7 99,6 41,3 Multiuser Mainframe 192,6 277,8 1,44 Multiuser Minicomputer 6,3 88,4 13,9 Multiuser Mainframe 2,4 88,2 30,5 236,9 1127,5

- Zahlen stimmen nicht, nur Illustration Klemens Böhm

Data Warehousing und Mining: Exploration des Data Cubes – 37

Detail-N Ansatz (3)

Detail-N Ansatz (2) z

Einleitung Ausnahmen Berechnung Ausnahmen Implement. Bestandsaufnahme DIFF-Op.

z z

Verbesserung: Nicht nur auf der detailliertesten Ebene arbeiten, sondern auf der aussagekräftigsten. D. h. Zeilen zusammenfassen, die unterschiedlichen Zellen entsprechen. Zugrundeliegende Annahme: Benutzer will nur bestimmte Anzahl von Zeilen sehen, z. B. eine Bildschirmseite voll.

Data Warehousing und Mining: Exploration des Data Cubes – 38

Klemens Böhm

Platform

Einleitung Ausnahmen Berechnung Ausnahmen Implement. Bestandsaufnahme

Product

Modell

Schluß

Schluß

Geography

Subcube für 1992

Data Warehousing und Mining: Exploration des Data Cubes – 39

Product

DIFF-Op.

Modell

Klemens Böhm

Platform

Klemens Böhm

Geography

Subcube für 1993

Data Warehousing und Mining: Exploration des Data Cubes – 40

Ergebnis des DIFF-Operators (2)

Ergebnis des DIFF Operators (1)

Product Geography Platform Year_92 Year_93 Ratio Abw. (All)(All)(All)2113 2763.5 1.3 200 Manufacturing - Pro(All) (All) 25.9 702.5 27.1 250 Other V. A. (All)(All) 20.3 1858.4 91.4 251 Other V. A. United States (All) 8.1 77.5 9.6 0 Other V. A. Western Europe(All) 7.3 96.3 13.2 0 Manufacturing - Dis(All) (All) 1135.2 218.3 22 Health Care (All)(All)6.9 820.4 118.2 98 Health Care United States Multiuser 1.5 10.6 6.9 0 Banking/Finance United States (All) 341.3 239.3 0.7 60 Mechanical CAD United States (All) 327.8 243.4 0.7 34

Bessere Antwort – erklärt eine Differenz von über 4500. Einleitung Ausnahmen Berechnung Ausnahmen Implement. Bestandsaufnahme DIFF-Op. Modell Schluß

Product Geography Platform Year_92 Year_93 Ratio Abw. (All)(All)(All) 2113 2763.5 1.3 200 (All) 25.9 702.5 27.1 250 Manufacturing - Pro(All) Other V. A. (All)(All) 20.3 1858.4 91.4 251 Other V. A. United States (All) 8.1 77.5 9.6 0 Other V. A. Western Europe(All) 7.3 96.3 13.2 0 (All) 1135.2 218.3 22 Manufacturing - Dis(All) Health Care (All)(All)6.9 820.4 118.2 98 Health Care United States Multiuser 1.5 10.6 6.9 0 Banking/Finance United States (All) 341.3 239.3 0.7 60 Mechanical CAD United States (All) 327.8 243.4 0.7 34

Klemens Böhm

Einleitung Ausnahmen Berechnung Ausnahmen Implement. Bestandsaufnahme DIFF-Op. Modell Schluß

Data Warehousing und Mining: Exploration des Data Cubes – 41

Erläuterungen: z Abkürzung für diese Tabelle: A z Jede Zeile entspricht einer Position im Raum. z Erste Zeile entspricht den markierten Zellen – abzüglich der Werte, die explizit aufgelistet sind. z Minuszeichen hinter (ALL) bedeutet, daß es sich nicht um Summe aller Werte handelt, sondern daß Zeile folgt, die für speziellere Zelle steht.

Wie kommt man auf die Ratios? (1) z z

Wie kommt man auf die Ratios? (2)

Rot unterlegte Zellen – klar. Sonstige Zellen – nicht ganz so offensichtlich.

z

Einleitung

Einleitung

Ausnahmen

Ausnahmen

Berechnung Ausnahmen

Berechnung Ausnahmen

Implement.

Implement.

Bestandsaufnahme

Bestandsaufnahme

DIFF-Op.

DIFF-Op.

Modell

Modell

Schluß

Schluß

Data Warehousing und Mining: Exploration des Data Cubes – 43

Angenommen, A beschreibt Unterschied zwischen 1992 und 1993. A hat zwei Zeilen: 1 A 2,5 B C Produkte

2

3

Prod.\Fil. 1 A 10 B 10 C 10

Filialen

0,5

Tabelle für 1993:

Tabelle für 1992:

z

Klemens Böhm

Data Warehousing und Mining: Exploration des Data Cubes – 42

Klemens Böhm

2 10 10 10

3 10 10 10

Prod.\Fil. A B C

1 ? ? ?

2 ? ? ?

3 ? ? ?

Ratio einer Zelle ergibt sich aus Ratio der unmittelbarsten Vorgängerzelle und den bekannten Ratios von Nachbarzellen.

Klemens Böhm

Data Warehousing und Mining: Exploration des Data Cubes – 44

Wie kommt man auf die Ratios? (3) z z Einleitung Ausnahmen Berechnung Ausnahmen

z

Es handelt sich um eine Möglichkeit, die Ratios zu interpretieren. Andere Interpretationen sind denkbar (z. B. auch teilweise Berücksichtigung der Nachbarzellen). Führt aber zu zusätzlichen Parametern, kompliziert.

Ergebnis des DIFF-Operators (3)

Einleitung Ausnahmen Berechnung Ausnahmen

Implement.

Implement.

Bestandsaufnahme

Bestandsaufnahme

DIFF-Op.

DIFF-Op.

Modell

Modell

Schluß

Schluß

Data Warehousing und Mining: Exploration des Data Cubes – 45

Klemens Böhm

Product Geography Platform Year_92 Year_93 Ratio Abw. (All)(All)(All) 2113 2763.5 1.3 200 (All) 25.9 702.5 27.1 250 Manufacturing - Pro(All) Other V. A. (All)(All) 20.3 1858.4 91.4 251 Other V. A. United States (All) 8.1 77.5 9.6 0 Other V. A. Western Europe(All) 7.3 96.3 13.2 0 Manufacturing - Dis(All) (All) 1135.2 22 Health Care (All)(All)6.9 820.4 118.2 98 Health Care United States Multiuser 1.5 10.6 6.9 0 Banking/Finance United States (All) 341.3 239.3 0.7 60 Mechanical CAD United States (All) 327.8 243.4 0.7 34

Error (“Abw.”) – Erläuterung: z Reflektiert, inwieweit der Verhältnis-Wert (“Ratio”) auch für die Kinder gilt, die nicht explizit aufgeführt sind. z Großer Error: Im Mittel starke Abweichung der einzelnen Kinder. z Formel hier: Wurzel der Summen der Abweichung jeder Detail-Zeile zum Quadrat, d. h. L2-Norm. Klemens Böhm

Beispiel für großen und kleinen Error

Tradeoff

z Großer Error: Einleitung Ausnahmen Berechnung Ausnahmen

Product Health Care Health Care Health Care Health Care Health Care

z Geography United States United States United States United States United States

Platform Year_92 Year_93 (All) 28 280 Multiuser 7.9 800 Single-User 7.1 70 Palm 20.2 20.1 Xbox 15.6 1.1

Implement. Bestandsaufnahme DIFF-Op. Modell Schluß

z Einleitung Ausnahmen Berechnung Ausnahmen Implement.

z Kleiner Error: Product Health Care Health Care Health Care Health Care

Geography United States United States United States United States

Platform Year_92 Year_93 (All) 28 280 Multiuser 7.9 79 Single-User 7.1 71 Palm 20.2 201

z

Bestandsaufnahme DIFF-Op.

z

Modell Schluß

z

Klemens Böhm

Data Warehousing und Mining: Exploration des Data Cubes – 47

Data Warehousing und Mining: Exploration des Data Cubes – 46

Welche Zeilen? DIFF-Ergebnis mit wenigen Zeilen, die Großteil der Differenz erklären, hat i. a. recht großen Fehler (“zu allgemeine Aussagen”). DIFF-Ergebnis mit kleinem Fehler ist i. a. zu ausführlich (“zu detaillierte Aussagen”), bzw. reicht vorgegebene Zeilenanzahl nicht aus. Ziel daher: ‹ Zusammenfassen von Zeilen, die ähnliches Verhältnis haben. ‹ Bei großem Unterschied explizit aufführen. Motiviert informationstheoretische Behandlung des Sachverhalts.

Klemens Böhm

Data Warehousing und Mining: Exploration des Data Cubes – 48

Modell (1) Angenommen, wir wollen jemandem, der Ca kennt, mitteilen, wie sich Cb von Ca unterscheidet. Möglich, Cb zu schicken. Aber aufwendig. Stattdessen ungefähre, aber möglichst gute Zusammenfassung der Differenz. Tabelle A.

z z Einleitung Ausnahmen

z

Berechnung Ausnahmen Implement. Bestandsaufnahme DIFF-Op. Modell Schluß

Modell (2)

1 A 2,5 B C Produkte

2

3

z

Einleitung

z

Anzahl der Zeilen der Tabelle zunächst von außen vorgegeben. A so wählen, daß Fehler minimal.

Ausnahmen Berechnung Ausnahmen Implement.

Filialen

Bestandsaufnahme DIFF-Op. Modell

0,5

Tabelle für 1993 – Cb:

Tabelle für 1992 – Ca: Prod.\Fil. 1 A 10 B 10 C 10

2 10 10 10

Schluß

Prod.\Fil. 1 A 25 B 2,5 C 2,5

3 10 10 10

2 2,5 2,5 2,5

3 2,5 2,5 2,5

Data Warehousing und Mining: Exploration des Data Cubes – 49

Klemens Böhm

Klemens Böhm

Modell (3)

Fehler – Illustration Tabelle für 1992 – Ca: Einleitung Ausnahmen Berechnung Ausnahmen Implement. Bestandsaufnahme DIFF-Op. Modell Schluß

Prod.\Fil. A B C

A

1 1 1 1

2 1 1 1

1 A 2,5 B C Produkte

z 3 1 1 1

2

Einleitung Ausnahmen

Fehler = Anzahl der Bits, die für Übermittlung des Fehlers erforderlich wären, wenn man A statt Cb überträgt.

Berechnung Ausnahmen

3

Filialen

Implement. Bestandsaufnahme DIFF-Op. Modell

0,5

Schluß

Vorhersage für Cb:

Tabelle für 1993 – Cb:

Prod.\Fil. 1 2 3 A 2,5 0,25 0,25 B 0,25 0,25 0,25 C 0,25 0,25 0,25

Prod.\Fil. 1 2 3 A 2,5 0,1 0,25 B 0,25 0,3 0,2 C 0,25 0,4 0,25

Klemens Böhm

Data Warehousing und Mining: Exploration des Data Cubes – 50

Data Warehousing und Mining: Exploration des Data Cubes – 51

Klemens Böhm

Data Warehousing und Mining: Exploration des Data Cubes – 52

Fehlerwahrscheinlichkeit z

Einleitung

z

Ausnahmen Berechnung Ausnahmen Implement.

z

Modell (4)

Angenommen, tatsächliche Werte normalverteilt um Vorhersagewert. WS(Differenz zwischen tatsächlichem und Vorhersagewert ≥ 0) = 1 WS(Differenz zwischen tatsächlichem und Vorhersagewert ≥ δ) = cδ

z

Einleitung Ausnahmen Berechnung Ausnahmen Implement.

Bestandsaufnahme

Bestandsaufnahme

DIFF-Op.

DIFF-Op.

Modell

Modell

Schluß

Schluß

Data Warehousing und Mining: Exploration des Data Cubes – 53

Klemens Böhm

z

Klemens Böhm

Wie groß ist der Fehler?

Einleitung Ausnahmen Berechnung Ausnahmen Bestandsaufnahme DIFF-Op. Modell Schluß

A B C Produkte

1 2,5

2

3

Klemens Böhm

z

Einleitung Ausnahmen Berechnung Ausnahmen

0,5

1 1 1 1

2 1 1 1

z

Implement.

M

Bestandsaufnahme DIFF-Op.

x

Modell

z

Zur Berechnung der WS vergleichen wir tatsächlichen Wert in Cb mit erwartetem Wert gemäß Ca und A für jede Elementar-Position. Ausgehend von WS-Verteilung (z. B. Normalvert.) um erwarteten Wert; cost(v)=-logPr[tatsächlicher Wert | erwarteter Wert] Codierungsaufwand, d. h. Abweichung von A = Summe der Kosten für jede Elementar-Position.

Schluß

Tabelle für 1993 – Cb:

Tabelle für 1992 – Ca: Prod.\Fil. A B C

Filialen

Data Warehousing und Mining: Exploration des Data Cubes – 54

Aussage zu Codierungsaufwand

z Informationstheoretisches Theorem (Shannon). z Sei x eine Aussage. Sei M ein Modell. Wieviele Bits reichen, um x in M zu codieren? z Gemäß Theorem sind es -log Pr[x|M] Bits. (Pr [x|M] – WS, daß x eintritt, gegeben Modell M.)

Implement.

Anzahl der Bits für Fehlerübermittlung mit Hilfe dieser Wahrscheinlichkeit berechenbar. Berechnung dieser Anzahl der Bits gemäß Theorem (s. b. folgende Folie).

3 1 1 1

Prod.\Fil. 1 2 3 A 2,5 0,1 0,25 B 0,25 0,3 0,2 C 0,25 0,4 0,25 Data Warehousing und Mining: Exploration des Data Cubes – 55

Klemens Böhm

Data Warehousing und Mining: Exploration des Data Cubes – 56

Modell (5)

Berechnung der Anzahl Bits

Einleitung Ausnahmen Berechnung Ausnahmen Implement. Bestandsaufnahme DIFF-Op. Modell Schluß

forall (v ist Detail-Zeile von Cb) if (v ist Bestandteil von A) WS = 1; cost(v)=0; else finde unmittelbarsten Vorgänger p in A; r = Ratio von p; erwarteter Wert vb von v in Cb ist r⋅va; ausgehend von WS-Verteilung um r⋅va; cost(v)=-logPr[vb| r⋅va] // Normalverteilung meist OK

inkrementiere Gesamtanzahl Bits um cost(v)

Klemens Böhm

z

Einleitung Ausnahmen Berechnung Ausnahmen Implement. Bestandsaufnahme DIFF-Op. Modell Schluß

Data Warehousing und Mining: Exploration des Data Cubes – 57

z

Anzahl der Zeilen N war bis jetzt gegeben, kann aber miteinbezogen werden, indem wir Kosten des Transfers von A explizit machen. Kosten einer Zeile: Σ(log(ni+1))+log c ‹ ni – Kardinalität der Dimension i von Ca. Summand 1 – berücksichtigt, daß auch (ALL) möglich ist. ‹ c – Verhältnis selbst muß auch kodiert werden.

Product Geography Platform Year_92 Year_93 Ratio Abw. (All)(All)(All) 2113 2763.5 1.3 200 Manufacturing - Pro(All) (All) 25.9 702.5 27.1 250 Other V. A. (All)(All) 20.3 1858.4 91.4 251 Other V. A. United States (All) 8.1 77.5 9.6 0 Other V. A. Western Europe(All) 7.3 96.3 13.2 0 Manufacturing - Dis(All) (All) 1135.2 22 Health Care (All)(All)6.9 820.4 118.2 98 Health Care United States Multiuser 1.5 10.6 6.9 0 Banking/Finance United States (All) 341.3 239.3 0.7 60 Mechanical CAD United States (All) 327.8 243.4 0.7 34 Klemens Böhm

Schluß (1)

Einleitung Ausnahmen Berechnung Ausnahmen Implement.

z Jetzt müßte noch besprochen werden: ‹ Schneller Algorithmus, der das A bestimmt, ‹ Umgang mit fehlenden Werten. z Ansatz nicht darauf beschränkt, daß Zellen sich nur in einer Dimension unterscheiden. Es muß aber gemeinsame Subcubes geben.

Schluß (2)

Einleitung Ausnahmen Berechnung Ausnahmen Implement.

Bestandsaufnahme

Bestandsaufnahme

DIFF-Op.

DIFF-Op.

Modell

Modell

Schluß

Schluß

Klemens Böhm

Data Warehousing und Mining: Exploration des Data Cubes – 59

Data Warehousing und Mining: Exploration des Data Cubes – 58

z Kapitel hat behandelt: ‹ Motivation für das Sichtbarmachen von Ausnahmen, ‹ unterschiedliche Überraschungswerte, ‹ unterschiedliche Definitionen auf der technischen Ebene, ‹ Motivation für das Zusammenfassen von Unterschieden zwischen Subcubes, ‹ Vorgehen, um zu aussagekräftiger, aber prägnanter Zusammenfassung zu kommen. z Insgesamt: Sinnvolle Maßnahmen zur Unterstützung der Exploration des Cubes; generisches Interface bietet zuviele Interaktionsmöglichkeiten. Klemens Böhm

Data Warehousing und Mining: Exploration des Data Cubes – 60

Prüfungsfragen, beispielhaft

Literatur Sunita Sarawagi, Rakesh Agrawal, Nimrod Megiddo, Discovery-driven Exploration of OLAP Data Cubes, Proc. of the Sixth Int'l Conference on Extending Database Technology (EDBT), Valencia, Spain, March 1998. z Sunita Sarawagi, Explaining Differences in Multidimensional Aggregates, Proc. of the 25th Int’l Conference on Very Large Databases, 1999. z

z

z z z

Klemens Böhm

Data Warehousing und Mining: Exploration des Data Cubes – 61

Was bedeutet 'erwarteter Wert' im multidimensionalen Modell? Wie kann man ihn berechnen? Was bedeutet 'Ausnahme' gemäß der Vorlesung im multidimensionalen Modell? Wie kann man Ausnahmen zur Verbesserung der Visualisierung des Data Cubes verwenden? Erklären Sie den DIFF-Operator (Motivation, Umsetzung).

Klemens Böhm

Data Warehousing und Mining: Exploration des Data Cubes – 62