Universität Karlsruhe (TH) Systeme der Informationsverwaltung

Vorbesprechung

Praktikum: Data Warehousing und Data Mining

Universität Karlsruhe (TH) Systeme der Informationsverwaltung

Team •  Matthias Bracht •  matthias DOT bracht AT stud DOT uni-karlsruhe DOT de •  Frank Eichinger •  eichinger AT ipd DOT uka DOT de •  Matthias Huber •  matthiashuber AT gmx DOT de •  Steffen Lang •  steffen DOT lang AT stud DOT uni-karlsruhe DOT de

•  Stephan Schosser •  schosser AT ipd DOT uka DOT de Praktikum Data Warehousing und Mining

2

Universität Karlsruhe (TH) Systeme der Informationsverwaltung

Motivation •  Grosse Datensammlungen in Unternehmen •  Jede Abteilung hat eigene Datenbestände •  Daten beschreiben alle Aspekte der Organisation

•  Wissen in Daten nicht offensichtlich •  •  •  • 

Zu viele Attribute Niemand hat Überblick über alle Daten Mitarbeiter wechseln, alte Daten werden uninterpretierbar Daten im Unternehmen verstreut

•  Thema •  Wie in der Vorlesung: Wie kommt man in diesem Szenario zu Wissen? •  … praktisch an Beispielen mit marktüblicher Software Praktikum Data Warehousing und Mining

3

Universität Karlsruhe (TH) Systeme der Informationsverwaltung

Data Warehousing •  Ziel •  Integration von Unternehmensdaten in zentralen Datenbestand •  Anfragen / Analysen auf diesem Datenbestand

•  Charakteristika •  Materialisierte Sichten auf unterschiedliche andere Quellen •  Daten aus unterschiedlichen Quellen im Unternehmen •  Daten meist sind aggregiert  OLAP (Online Analytical Processing)

Praktikum Data Warehousing und Mining

4

Universität Karlsruhe (TH) Systeme der Informationsverwaltung

OLAP vs. OLTP (Data Warehouse vs. Datenbank)

•  Anfragecharakteristika transaktional

analytisch

Fokus

Lesen, Schreiben, Modifizieren, Löschen

Lesen, periodisches Hinzufügen

Transaktionsdauer und -typ

Kurze Lese- / Schreibtransaktionen

Lange Lesetransaktionen

Anfragestruktur

Einfach strukturiert

komplex

Datenvolumen einer Anfrage

Wenige Datensätze

Viele Datensätze

nach Bauer, Günzel (Hrsg): Data Warehouse Systeme – Architektur, Entwicklung, Anwendung

Praktikum Data Warehousing und Mining

5

Universität Karlsruhe (TH) Systeme der Informationsverwaltung

Data Warehousing in diesem Praktikum •  Benutzung der Tools •  Oracle und Cognos ReportStudio

•  Oracle •  Datenwürfel entwerfen •  Anfragen auf dem relationalen Datenbestand •  Datenwürfel erstellen

•  Cognos •  Stellen von Anfragen auf dem Würfel •  Erstellen von Analysen Praktikum Data Warehousing und Mining

6

Universität Karlsruhe (TH) Systeme der Informationsverwaltung

Data Mining •  Menge von Techniken •  Klassifikation Ist der Kunde kreditwürdig? •  Clustering Welche Kundengruppen gibt es? •  Assoziations Rules Welche Produkte werden zusammen gekauft?

•  Ziel •  Finden interessanter Muster und Eigenschaften in großen Datenbeständen Praktikum Data Warehousing und Mining

7

Universität Karlsruhe (TH) Systeme der Informationsverwaltung

Data Mining in diesem Praktikum •  Benutzung der Tools •  SPSS Clementine •  Weka •  Knime

•  Aufgaben zu •  Datenbereinigung •  Klassifikation •  Optionalem Thema

•  Daten aus dem Data Mining Cup Praktikum Data Warehousing und Mining

8

Universität Karlsruhe (TH) Systeme der Informationsverwaltung

Synergieeffekte Data Warehousing und Data Mining •  Aufwändigster Schritt: Datenbereinigung •  Fällt bei Data Warehousing und Data Mining an  Daten des Data Warehouse eignen sich für Data Mining

•  Data Mining als Analysekonzept im Data Warehouse •  Problem: •  Data Mining benötigt operative, transaktionsorientierte Daten (z. B. Kassenbons) •  Data Warehouse benötigt häufig aggregierte Daten  granulare Informationen gehen verloren

Praktikum Data Warehousing und Mining

9

Universität Karlsruhe (TH) Systeme der Informationsverwaltung

Data Preprocessing

Praktikum: Data Warehousing und Data Mining

Universität Karlsruhe (TH) Systeme der Informationsverwaltung

Motivation •  We are drowning in information, but starving for knowledge! (John Naisbett) •  Was genau ist Datenanalyse? •  Was ist Data Mining? •  Techniken zur Mustererkennung •  Ziel: unerwartete Muster •  Beispiele für Muster: Assotiation Rules, Cluster… Praktikum Data Warehousing und Mining

11

Universität Karlsruhe (TH) Systeme der Informationsverwaltung

Von Daten zur Entscheidung (Gianotti und Pedreschi) Interpretation

Entscheidung •  •  • 

Aggregation (zielgerichtet)

Sonderangebot für Produkt A in Gebiet Z Mailings an Familien mit Profil P Cross-Selling von Produkt an Kunden C

Wissen • 

Inspektion

Daten •  •  •  • 

• 

Information •  •  •  • 

X lebt in Z S ist Y Jahre alt X und S sind umgezogen W hat Geld in Z

Anzahl Y des Produkts A wird in Gebiet Z verwendet Kunden der Klasse Y verwenden x% von C in Zeitraum D

Kundendaten Daten aus den Filialen Demographische Daten Geographische Daten Praktikum Data Warehousing und Mining

12

Universität Karlsruhe (TH) Systeme der Informationsverwaltung

Knowledge Discovery in Databases Zieldefinition

Konsolidierung

Datenauswahl

Datenbereinigung

Data Mining

Interpretation

Praktikum Data Warehousing und Mining

13

Universität Karlsruhe (TH) Systeme der Informationsverwaltung

Data Mining Projekt - Zeitaufwand •  Problemspezifikation:

20%

•  Was ist das Problem? •  Wie sollte das Ergebnis aussehen? •  Formale Spezifikation

•  Finden von Wissen: •  •  •  •  • 

Datenbeschaffung Datenaufbereitung (Data Preprocessing) Data Mining Evaluierung Weiterführende Massnahmen

80% 60%

Vgl.: Vorlesung „Data Mining for Business Applications“; M. Spiliopoulou Praktikum Data Warehousing und Mining

14

Universität Karlsruhe (TH) Systeme der Informationsverwaltung

Vorverarbeitung

Universität Karlsruhe (TH) Systeme der Informationsverwaltung

Teilnehmerliste des Praktikums •  Ziel: •  Alle Studenten sollen teilnehmen!

•  Vorgehen •  Liste wurde handschriftlich ausgefüllt •  Dann in Teilnehmerdatenbank übertragen

•  Probleme •  Feld männlich/weiblich fehlt •  Ist Conny männlich oder weiblich?

•  Feld Fachsemester ist nicht vielsagend •  Student ist im 15. Fachsemester, hat aber 5 Jahre davon Data Warehouses administriert

•  Feld Prüfung Datenbankeinsatz Vorlesung fehlt •  Ist Prüfung geplant oder nie angedacht? •  Wurde aus Datenschutzgründen auf Angabe verzichtet?

•  Beim Übertragen in Datenbank treten Fehler auf •  E-Mail Adressen sind undeutlich geschrieben •  Übertragender ist im Stress und liest nur oberflächlich Praktikum Data Warehousing und Mining

16

Universität Karlsruhe (TH) Systeme der Informationsverwaltung

Teilnehmerliste des Praktikums II •  Probleme (fortges.) •  Eintrag in der Teilnehmerdatenbank ist 30 Fachsemester •  Gibt es einen gravierenden Unterschied zwischen 25 und 30 Semester?

•  Student hat Datenbankeinsatz im „SoSe 2007“ gehört. •  Suche nach SS05 (Datenbankstandardformat) wirft Datensatz nicht aus

•  Was ist zu tun? •  Hier: •  Alle Angemeldeten können teilnehmen. •  „Politisch korrekt“

•  Aber: •  Was, wenn Unternehmenserfolg von Prognose abhängt?

•  Dann: •  Datenqualität essentiell •  Daten müssen vorverarbeitet werden Praktikum Data Warehousing und Mining

17

Universität Karlsruhe (TH) Systeme der Informationsverwaltung

Eigenschaften von Produktivdaten •  Daten sind meist… •  Unvollständig •  Enthalten NULL-Werte •  Enthalten Aggregate •  Interessante Informationen fehlen

•  Verunreinigt: •  Enthalten Fehler •  Enthalten Ausreißer

•  Inkonsistent: •  Daten in unterschiedlichen Quellen inkonsistent Praktikum Data Warehousing und Mining

18

Universität Karlsruhe (TH) Systeme der Informationsverwaltung

Data Preprocessing – Vorgehen •  Analyse der Daten •  „Ansehen“ einzelner Tupel / Aggregate von Tupeln •  Deskriptive Statistik •  Visualisierung der Eingangsdaten

•  Durchführung des Data Preprocessing •  •  •  • 

Datenbereinigung Datenintegration Datentransformation Datenreduktion

Praktikum Data Warehousing und Mining

19

Universität Karlsruhe (TH) Systeme der Informationsverwaltung

„Ansehen“ der Daten •  Nutzen: •  Oft sind Eigenschaften am leichtesten beim direkten Betrachten der Daten zu entdecken

•  Meist erster Schritt des Data Preprocessing •  Beispiele •  •  •  •  • 

Entdecken von NULL-Werten Skalentypen der Werte Größe der Wertebereiche Diskrepanz zwischen Attributlänge und Datenlänge …

Praktikum Data Warehousing und Mining

20

Universität Karlsruhe (TH) Systeme der Informationsverwaltung

Skalentypen Skalentyp

Wertebereich

Mögliche Operationen

Beispiele

Nominale Größen

diskret, endlich

Gleichheit

Geschlecht Augenfarbe

Ordinale Größen

diskret, endlich, Ordnung

Gleichheit, größer / kleiner als

Prüfungsnoten Schulabschluß

Intervallgrößen

kontinuierlich bzw. ganzzahlig, unendlich

Gleichheit, größer / kleiner als Differenz

Datum Temperatur

Ratiogrößen

kontinuierlich bzw. ganzzahlig, unendlich

Gleichheit größer / kleiner als Differenz Verhältnis

Abstand Alter

•  Anwendbarkeit der Statistiken abhängig vom Skalentyp •  Mittelwert des Geschlechts •  Modalwert der Prüfungsnoten Praktikum Data Warehousing und Mining

21

Universität Karlsruhe (TH) Systeme der Informationsverwaltung

Deskriptive Statistik •  Nutzen •  Identifikation typischer Dateneigenschaften •  Identifikation von Ausreißern und Datenfehlern

•  Wichtige Statistiken •  Masse für die Zentralität •  Mittelwert •  Median •  Modalwert

•  Masse für die Verteilung •  •  •  • 

Interquartilabstand Varianz Skewness …

Praktikum Data Warehousing und Mining

22

Universität Karlsruhe (TH) Systeme der Informationsverwaltung

Masse für Zentralität •  Mittelwert

•  Entspricht average (avg()) in SQL

•  Median •  „Mittlere Wert“ aller sortierten Werte •  Durchschnitt der zwei „mittleren Werte“ bei gerader Wertanzahl

•  Modalwert •  Häufigster Wert •  Abhängig von Anzahl der Werte: unimodal, bimodal, …

Praktikum Data Warehousing und Mining

23

Universität Karlsruhe (TH) Systeme der Informationsverwaltung

Masse für die Verteilung I •  Quartil •  •  •  • 

Seien Daten aufsteigend sortiert 1. Quartil enthält unterste 25% der sortierten Werte 2. Quartil enthält untere 25% - 50% der sortierten Werte usw.

•  Interquartilabstand •  Abstand zwischen drittem und erstem Quartil •  Einfaches Maß für die Verteilung der Daten

•  Varianz

•  Nur sinnvoll, wenn Mittelwert als Zentrum der Daten •  Maß für die Verteilung der Daten Praktikum Data Warehousing und Mining

24

Universität Karlsruhe (TH) Systeme der Informationsverwaltung

Masse für die Verteilung II •  Skewness

mit

und

•  Mass für Abweichung von symmetrischer Verteilung

rechtssteil Praktikum Data Warehousing und Mining

symmetrisch

linkssteil 25

Universität Karlsruhe (TH) Systeme der Informationsverwaltung

Masse für die Verteilung III •  Kurtosis

mit

und

•  Mass für Krümmung der Verteilung

leptokurtic Praktikum Data Warehousing und Mining

Gauss

platikurtic 26

Universität Karlsruhe (TH) Systeme der Informationsverwaltung

Visualisierung der Eingangsdaten •  Nutzen •  Menschliches Gehirn ist auf Erfassung graphischer Inhalte optimiert •  Mehrere Aspekte können simultan untersucht werden

•  Wichtige Visualisierungen •  •  •  •  • 

Boxplot Histogram Scatterplot Web Parallelkoordinaten

Praktikum Data Warehousing und Mining

27

Universität Karlsruhe (TH) Systeme der Informationsverwaltung

Visualisierung - Boxplot •  Fasst mehrer statistische Masse zusammen Maximum

•  Zeigt •  Mittelwert, Quartile, Minimum Maximum, Interquartilabstand

3. Quartil Mittelwert 2. Quartil

•  Nutzen •  Finden der Verteilung •  Finden von Ausreißern

Praktikum Data Warehousing und Mining

1. Quartil

Minimum

28

Universität Karlsruhe (TH) Systeme der Informationsverwaltung

Visualisierung - Histogram •  Zeigt die Verteilung einzelner, numerischer Attribute •  Verteilung abhängig von kategorischem Attribut möglich •  Darstellung der Anzahl •  Prozentsatz interpretierbar •  Kenngröße gegebenenfalls in Buckets gruppiert •  Nutzen •  Finden von Ausreisern •  Finden der Verteilung •  Erkennen von Tupelcharakteristika Praktikum Data Warehousing und Mining

29

Universität Karlsruhe (TH) Systeme der Informationsverwaltung

Visualisierung – Scatterplot •  Visualisiert einzelne Tupel •  Bis zu drei numerische Attribute angebbar •  Formatierung der Datenpunkte abhängig von weiteren Attributen •  Nutzen •  Finden von Korrelationen •  Finden von Clustern •  Finden von Ausreisern Praktikum Data Warehousing und Mining

30

Universität Karlsruhe (TH) Systeme der Informationsverwaltung

Visualisierung – dreidimensionaler Scatterplot

Praktikum Data Warehousing und Mining

31

Universität Karlsruhe (TH) Systeme der Informationsverwaltung

Visualisierung - Webs •  Visualisiert Beziehungen zwischen zwei kategorischen Attributen •  „Dicke“ Verbindungslinie zwischen häufig auftretenden Attributwertkombination •  Nutzen •  Frequent Itemsets erkennbar •  Beziehungen auffindbar

Praktikum Data Warehousing und Mining

32

Universität Karlsruhe (TH) Systeme der Informationsverwaltung

Parallelkoordinaten •  •  •  • 

Visualisiert unterschiedliche Attribute Attributwerte normiert auf einheitliche Skala Einfärbung nach Klasse Pro Tupel ein Graph

•  Nutzen •  Erkennen von Tupelcharakteristika •  Finden von Selektionsattributen Praktikum Data Warehousing und Mining

Attribut A

Attribut B

Attribut C

Attribut D

33

Universität Karlsruhe (TH) Systeme der Informationsverwaltung

Exkurs: Risiken I

Quelle dieser und der folgenden Diagramme: D. Huff: How to Lie with Statistics bzw. W. Krämer: So lügt man mit Statistik. Nach einer Auwahl von C. Borgelt: Inteligent Data Analysis

Praktikum Data Warehousing und Mining

34

Universität Karlsruhe (TH) Systeme der Informationsverwaltung

Exkurs: Risiken II

Praktikum Data Warehousing und Mining

35

Universität Karlsruhe (TH) Systeme der Informationsverwaltung

Data Preprocessing – Vorgehen •  Analyse der Daten •  „Ansehen“ einzelner Tupel / Aggregate von Tupeln •  Deskriptive Statistik •  Visualisierung der Eingangsdaten

•  Durchführung des Data Preprocessing •  •  •  • 

Datenbereinigung Datenintegration Datentransformation Datenreduktion

Praktikum Data Warehousing und Mining

36

Universität Karlsruhe (TH) Systeme der Informationsverwaltung

Datenbereinigung

•  Beseitigung von… •  fehlenden Werten •  verunreinigten Daten

Praktikum Data Warehousing und Mining

37

Universität Karlsruhe (TH) Systeme der Informationsverwaltung

Beseitigung von fehlenden Werten I •  Ignorieren von Tupeln •  Notgedrungen bei Klassifikation: fehlt Klasse •  Sinnvoll wenn in Tupel viele Werte fehlen •  Sonst vorsichtig: •  Fehlender Wert kann Logik sein •  Kritisch, wenn Häufigkeit der fehlenden Werte unter Attributen unterschiedlich •  Beispiele: •  Beruf: Hausfrau •  Sensor fällt bei großer Kälte aus

•  Manuelles Auffüllen •  Nur bei geringer Zahl fehlender Werte sinnvoll •  Auffüllender muss über Expertenwissen verfügen

•  Ersetzen durch globale Konstante •  Beispiel: Alles durch „unbekannt“ oder „-∞“ •  Aber vorsichtig: •  Kann als besonderer Wert interpretiert werden Praktikum Data Warehousing und Mining

38

Universität Karlsruhe (TH) Systeme der Informationsverwaltung

Beseitigung von fehlenden Werten II •  Einsetzen des Mittelwertes •  Beispiel: Mittelwert des Einkommens •  Aber: nur bei metrischen Attributen sinnvoll •  Vorsicht: Daten werden gebiast

•  Einsetzen des Mittelwertes der Klasse •  Beispiel: Mittelwert des Einkommens über alle in derselben KreditrisikoKlasse •  Aber: nur bei metrischen Attributen sinnvoll •  Vorsicht: Daten werden gebiast

•  Einsetzen des wahrscheinlichsten Wertes •  Finden des Wertes über Modalwert •  Finden mit Klassifikationsalgorithmen •  Vorsicht: Daten werden gebiast

•  Wichtig: •  Einige Algorithmen können mit fehlenden Daten umgehen Praktikum Data Warehousing und Mining

39

Universität Karlsruhe (TH) Systeme der Informationsverwaltung

Beseitigung von verunreinigten Daten •  Binning •  …mit gemeinsamer Häufigkeit •  Ersetzen durch Mittelwert •  Ersetzen durch Median •  Ersetzen durch nächste Bucketgrenze

•  …mit gemeinsamer Breite der Buckets •  Hilft bei Glätten der Eingangsdaten

•  Regression •  Daten werden durch Regressionsfunktion beschrieben

•  Clustering •  Daten werden geclustert •  Dabei können Ausreißer identifiziert werden

•  Hinweis: •  Verfahren können auch zur Datenreduktion genutzt werden Praktikum Data Warehousing und Mining

40

Universität Karlsruhe (TH) Systeme der Informationsverwaltung

Datenintegration

•  Ziel… •  Integration von Daten aus verschiedenen Quellen Praktikum Data Warehousing und Mining

41

Universität Karlsruhe (TH) Systeme der Informationsverwaltung

Datenintegration •  Daten aus Unternehmensquellen •  … ähnlich Data Warehousing •  Jetzt nicht Fokus

•  Daten aus zusätzlichen Quellen •  Frei verfügbar •  Postleitzahlen zu Adressen •  Umrechnungskurse zwischen Währungen

•  Extern zukaufbar •  Schufa-Daten •  Daten von der Post •  Diverse andere Datenquellen Praktikum Data Warehousing und Mining

42

Universität Karlsruhe (TH) Systeme der Informationsverwaltung

Datenintegration - Schwierigkeiten •  Entitätsidentifikationsproblem •  Attributnamen: •  Stimmt „Kunden-ID“ mit „Kundennummer“ überein?

•  Attributwerte: •  Ist „m“ in Geschlecht gleich „männlich“?

•  Korrelationsanalyse •  Finden von Redundanzen: •  Mehrinformation Jahres- gegenüber Monatseinkommen

•  Skalierungsprobleme •  Beispiele: •  Temperaturen in Celsius bzw. Fahrenheit •  Einkommen in Dollar bzw. Euro Praktikum Data Warehousing und Mining

43

Universität Karlsruhe (TH) Systeme der Informationsverwaltung

Datentransformation

-3; 45; 12,0; 17 -0.03, 0.45, 0.12, 0.17

•  Ziel •  Vorbereitung der Daten für das Data Mining Praktikum Data Warehousing und Mining

44

Universität Karlsruhe (TH) Systeme der Informationsverwaltung

Datentransformation •  Bereinigung von Daten •  Wie eben

•  Aggregation •  Aggregat über Tageseinnahmen zu Monatseinnahmen •  Besonders interessant, wenn auch Data Warehouse erstellt wird

•  Generalisierung •  Daten werden auf sinnvolles Niveau aggregiert •  Beispiel: Von Adresse auf Stadt

•  Normalisierung •  Skalierung auf überschaubaren Wertebereich •  Beispiel: auf 0,0 bis 1,0

•  Attributgenerierung •  Zusammenfassen mehrerer Attribute zu einem •  Beispiel: Umrechnung in Vergleichswährung Praktikum Data Warehousing und Mining

45

Universität Karlsruhe (TH) Systeme der Informationsverwaltung

Datentransformation – Normalisierung (Bsp.)

Praktikum Data Warehousing und Mining

46

Universität Karlsruhe (TH) Systeme der Informationsverwaltung

Datenreduktion A1

A2

A3



A150

B1 B2 B3 … B200

A1

•  Ziel:

A3



A123

B1 B3 … B154

•  Eingrenzen des Curse of Dimensionality Praktikum Data Warehousing und Mining

47

Universität Karlsruhe (TH) Systeme der Informationsverwaltung

Feature Selection •  Vorteile •  Gewonnene Regeln sind leichter interpretierbar •  Skalierbarkeit ermöglicht

•  Vorgehen (allgemein) • 

Bestimmen des Attributwertes •  … über statistische Signifikanz •  … über Information Gain

•  Vorgehen (Alternativen) •  Schrittweise Vorwärtsselektion •  Ausgangssituation: Leere Attributmenge •  Rekursive Erweiterung um je ein Attribut

•  Schrittweise Rückwärtsselektion •  Ausgangssituation: Vollständige Attributmenge •  Rekursive Entfernung um je ein Attribut

•  Entscheidungsbauminduktion •  Entscheidungsbaum wird generiert •  Alle Attribute im Entscheidungsbaum werden genutzt

•  Optional: •  Expertenwissen nutzen Praktikum Data Warehousing und Mining

48

Universität Karlsruhe (TH) Systeme der Informationsverwaltung

Sampling •  Motivation •  Zu viele Lerndatensätze •  Balancieren der Klassengröße

•  Vorgehen •  Auswahl einzelner Tupel

•  Einfaches zufälliges Sampling •  Zufälliges Ziehen von Tupeln

•  Stratified Sampling •  Attribut wird gewählt •  Anteil der einzelnen Attributwerte in Ausgangsdaten gleich dem Anteil im Sample Praktikum Data Warehousing und Mining

49

Universität Karlsruhe (TH) Systeme der Informationsverwaltung

Organisatorisches

Praktikum: Data Warehousing und Data Mining

Universität Karlsruhe (TH) Systeme der Informationsverwaltung

Veranstaltungstermine

Praktikum Data Warehousing und Mining

51

Universität Karlsruhe (TH) Systeme der Informationsverwaltung

Data Mining Cup •  Thema: Lotterielose •  Fragestellung: Wie lange spielen Kunden? •  Ziel: Kunde soll richtig eingeordnet werden

•  Aufgabenstellung und Anmeldung unter •  http://www.data-mining-cup.de

Praktikum Data Warehousing und Mining

52

Universität Karlsruhe (TH) Systeme der Informationsverwaltung

Ausflug – Besuch von IBM in Böblingen •  Programm (für den 16.05.08) •  •  •  •  •  •  •  •  •  • 

7:00 9:30 10:00 11:00 11:30 12:30 13:30 14:30 15:30 17:00

Abfahrt Karlsruhe Welcome und Überblick BB Lab DB2 Warehouse Überblick Kaffeepause Data Mining mit Demo Mittagessen Unstructured Analytics mit Demo Chiptest Demo Karriere bei IBM Ankunft Karlsruhe

Praktikum Data Warehousing und Mining

53

Universität Karlsruhe (TH) Systeme der Informationsverwaltung

Scheinvoraussetzungen •  Für jede Leistung sind Punkte erreichbar •  Zwischenpräsentation Data Mining Cup:

2 Punkte

•  Jedes Team präsentiert Lösung in 15 Minuten

•  Ergebnis Data Mining Cup:

7 Punkte

•  Lösung unter Top 12,5%: 7 Punkte •  Lösung unter Top 25,0%: 6 Punkte •  Usw.

•  Data Mining (II):

3 Punkte

•  Je nach Qualität der Lösung 0 bis 3 Punkte

•  Data Warehousing (I):

3 Punkte

•  Je nach Qualität der Lösung 0 bis 3 Punkte

•  Data Warehousing (II):

3 Punkte

•  Je nach Qualität der Lösung 0 bis 3 Punkte

•  Summe:

18 Punkte

•  Scheinvoraussetzung: •  Erlangen von 10 Punkten und mehr und Teilnahme am Ausflug! Praktikum Data Warehousing und Mining

54

Universität Karlsruhe (TH) Systeme der Informationsverwaltung

Tutoren •  Teams •  Je 4 Studenten •  Geben Lösungen gemeinsam ab

•  Tutorien •  Je 1,5 Stunden pro Team, Woche

•  Tutoren •  •  •  • 

Betreuen je 2 Team Führen Tutorien durch Sind Ansprechpartner nach den Veranstaltungen Nehmen auch am Data Mining Cup teil

Praktikum Data Warehousing und Mining

55

Universität Karlsruhe (TH) Systeme der Informationsverwaltung

Was fehlt noch? •  Ausblick auf nächste Woche •  Klassifikation •  Bestätigung der Teilnahme •  Anmeldung beim Data Mining Cup! •  Accounts beantragen •  Termin für die folgenden Treffen •  Nächste Woche Montag 9:45 (Wichtig: bis 13:00 Uhr) •  http://dbis.ipd.uni-karlsruhe.de/dwm2008.php •  Verteilung auf Tutoren

Praktikum Data Warehousing und Mining

56

Universität Karlsruhe (TH) Systeme der Informationsverwaltung

Quellen J. Han und M. Kamber: „Data mining : concepts and techniques“, Morgan Kaufmann, 2006. C. Borgelt: Folien zur Vorlesung „Intelligent Data Analysis“, 2004 F. Klawonn: Folien zur Vorlesung „Data Mining“, 2006. M. Spiliopoulou: Vorlesung „Data Mining for Business Applications“, 2003. Praktikum Data Warehousing und Mining

57

Universität Karlsruhe (TH) Systeme der Informationsverwaltung

Tutorentermine

Steffen Lang

Montag

11:30 Uhr Christoph, Fabian, Robert, Mirko

Dienstag 11:30 Uhr Tilmann, Marcel, Moritz, Mathilde Matthias Bracht Montag

11:30 Uhr Grigor, Kristina, Hristina, Pierre

Dienstag 11:30 Uhr Matthias, Ahmet, Dan, Benjamin Matthias Huber Montag Montag

14:00 Uhr Martin, Feng, Elena, Kiril 15:45 Uhr Roland, Michael, Alexander

Praktikum Data Warehousing und Mining

58