Do you know what K-Means …for your Business? Cluster-Analysen mit Oracle
Harald Erb Oracle Business Analytics & Big Data
Copyright © 2016, Oracle and/or its affiliates. All rights reserved. |
DOAG 2016 Konferenz, Nürnberg
Kontakt • Harald Erb • Principal Sales Consultant • Information Architect • Kontakt +49 (0)6103 397-403 •
[email protected]
Copyright © 2016, Oracle and/or its affiliates. All rights reserved. |
DOAG 2016 Konferenz, Nürnberg
K-Means Verfahren im Oracle-Kontext
(Echtzeit-) Datenstrom
Handlungsrelevante Informationen
Umsetzbare Erkenntnisse
Intelligente Prozesse
Event Engine
Data Reservoir
Data Factory
Unternehmensdaten (ERP, CRM, operative Daten)
Enterprise Information Store
BI & Analyse
Externe strukturierte Daten
“Tagesgeschäft” Line of Governance
Innovation Discovery Output
Events & Daten Data Lab
Oracle White Paper - Information Management & Big Data, A Reference Architecture, 2014 Copyright © 2016, Oracle and/or its affiliates. All rights reserved. |
DOAG 2016 Konferenz, Nürnberg
3
Cluster-Analysen mit k-Means Allgemeines, k-Means Algorithmen bzw. Erweiterungen • Cluster-Analyse: ̶ Oberbegriff für multivariate Methoden, die versuchen, Strukturen (Cluster) in den Daten zu finden ̶ Methoden basieren meist auf Berechnungen der Distanz der Beobachtungen im multidimensionalen Datenraum • Typische Fragestellungen: ̶ Abnormale Datenpunkte innerhalb eines großen Data Sets finden ̶ Cluster ähnlicher Textdokumente oder Kundensegmente ̶ Guter Einstieg in Datenanalysen, bevor Klassifikationsoder Regressionsmethoden zum Einsatz kommen • k-Means Clustering : ̶ gehört zu den Austauschverfahren und ist ein partitionierender Clustering Algorithmus ̶ Unterscheidung. Algorithmus von Lloyd ("der" k-Means Algorithmus) vs. MacQueen (führte mit dem Begriff "kMeans allerdings einen anderen Algorithmus ein)
• Vor- und Nachteile ̶ Einfache und schnelle Implementierung, gute Laufzeiten ̶ Schwachstelle: Die gefundene Lösung hängt stark von den gewählten Startpunkten ab • Verschiedene k-Means Variationen, u.a.: ̶ k-Medians: verwendet statt der euklidischen Distanz, u.a. die sog. „Manhattan-Distanz“ zur Abstandsberechnung ̶ k-Means++-Algorithmus: wählt die Cluster-Schwerpunkte nicht zufällig, sondern nach Vorschrift ̶ k-Medoids (PAM, Partitioning Around Medoids) minimiert die Distanzen (statt der Summe der Varianzen bei k-Means)
Copyright © 2016, Oracle and/or its affiliates. All rights reserved. |
DOAG 2016 Konferenz, Nürnberg
4
Prinzip von k-Means Ablauf 1. Initialisierung
2. Klassifizierung
3. Cluster-Zentren (Mean) berechnen
4. Iteration
n Durchgänge bis die Verschiebung der Cluster-Zentren ausreichend klein ist bzw. gegen 0 geht Copyright © 2016, Oracle and/or its affiliates. All rights reserved. |
DOAG 2016 Konferenz, Nürnberg
5
Cluster-Analysen für alle
Oracle Data Visualization
Copyright © 2016, Oracle and/or its affiliates. All rights reserved. |
DOAG 2016 Konferenz, Nürnberg
6
Oracle Data Visualization Desktop Tool-Überblick
Datenquellen anbinden
Daten visualisieren und Data Sets inspizieren, aufbereiten & mit anderen Daten verknüpfen
Copyright © 2016, Oracle and/or its affiliates. All rights reserved. |
übergreifend über alle Data Sets hinweg analysieren
DOAG 2016 Konferenz, Nürnberg
7
Cluster-Analyse mit Oracle Data Visualization Desktop Out-of-the Box: Analytische Funktionen Für Ad-hoc Abfragen und im Data Visualization Tool bekommen Business Analysten mächtige aber leicht anwendbare Rechenfunktionen angeboten: 1. Trend Lines 2. Bin / Histogram 3. Regression Analysis 4. Forecast 5. Cluster 6. Outliers 7. Custom R scripts
Business Analysts
Anwendung der neuen Analytics Funktionen oder Custom R Scripts
Neue Erkenntnisse erlangen
Data Lab
Copyright © 2016, Oracle and/or its affiliates. All rights reserved. |
DOAG 2016 Konferenz, Nürnberg
8
Cluster-Analyse mit Oracle Data Visualization Desktop Verwendung: Analytics 1-Click-Funktionen
Copyright © 2016, Oracle and/or its affiliates. All rights reserved. |
DOAG 2016 Konferenz, Nürnberg
9
Cluster-Analyse mit Oracle Data Visualization Desktop Verwendung: cluster()-Funktion im Berechnungseditor
Detailinformationen zur Cluster-Bildung sind abrufbar
Verfügbare Methoden für K-Means: MacQueen, Lloyd, Hartigan-Wong, Forgy Copyright © 2016, Oracle and/or its affiliates. All rights reserved. |
DOAG 2016 Konferenz, Nürnberg
10
Copyright © 2016, Oracle and/or its affiliates. All rights reserved. |
11
Cluster-Analyse im Data Lab
Oracle Big Data Discovery vs. BDD-Shell und Jupyter Notebook
Copyright © 2016, Oracle and/or its affiliates. All rights reserved. |
DOAG 2016 Konferenz, Nürnberg
12
Oracle Big Data Discovery Team Sport: Ein Tool für Business Analysts and Data Scientists Database Administrator (Enterprise IT)
Business Analyst
Arbeiten in einem Team New KPI, Report Requirement
DWH / OLTP Databases
Discovery Output
Hadoop
Data Integration Specialist (Enterprise IT)
New Data Set (cleaned / enriched)
Data Engineer
Data Scientist
Data Science
Copyright © 2016, Oracle and/or its affiliates. All rights reserved. |
DOAG 2016 Konferenz, Nürnberg
13
Oracle Big Data Discovery Visual Data Discovery
Copyright © 2016, Oracle and/or its affiliates. All rights reserved. |
DOAG 2016 Konferenz, Nürnberg
14
Oracle Big Data Discovery Data Scientist setzt Analyse mit anderen Techniken fort Database Administrator (Enterprise IT)
Business Analyst New KPI, Report Requirement
DWH / OLTP Databases
Discovery Output
Hadoop
Data Integration Specialist (Enterprise IT)
New Data Set (cleaned / enriched)
Data Engineer
Data Scientist
Data Science
Copyright © 2016, Oracle and/or its affiliates. All rights reserved. |
DOAG 2016 Konferenz, Nürnberg
16
Oracle Big Data Discovery BDD Shell Import Package NumPy (Numerical Python) Import der Spark Machine Learning library MLlib Liste mit Oracle Big Data Discovery Data Sets
Konvertierung eines Oracle Big Data Discovery Data Sets in einen Apache Spark Dataframe
Copyright © 2016, Oracle and/or its affiliates. All rights reserved. |
DOAG 2016 Konferenz, Nürnberg
17
Jupyter Notebook Direktzugriff auf Oracle Big Data Discovery Data Sets
Copyright © 2016, Oracle and/or its affiliates. All rights reserved. |
DOAG 2016 Konferenz, Nürnberg
18
Cluster-Analyse in Echtzeit
Oracle Stream Analytics
Copyright © 2016, Oracle and/or its affiliates. All rights reserved. |
DOAG 2016 Konferenz, Nürnberg
19
IoT Logical Reference Architecture
Adapted from: Internet of Things (IoT) - are traditional architectures good enough?, 2016, Guido Schmutz, SlideShare Copyright © 2016, Oracle and/or its affiliates. All rights reserved. |
DOAG 2016 Konferenz, Nürnberg
20
Oracle Stream Analytics Prinzip der Anomalie-Erkennung (im 2-dimensionalen Raum)
K-Means Machine Learning Pattern
Beispiel: Herstellung von Netzteilen. Ein 2dimensionaler Raum ist über 2 Variablen (Features) definiert, die Messpunkte liegen üblicherweise in 2 Gruppen. Ein auffälliges Gerät ( x ) liegt zwar im Toleranzbereich aber außerhalb der beiden Gruppen
Copyright © 2016, Oracle and/or its affiliates. All rights reserved. |
DOAG 2016 Konferenz, Nürnberg
21
Oracle Stream Analytics Live Output
Event Stream zuweisen
Topolgie-Ansicht
Copyright © 2016, Oracle and/or its affiliates. All rights reserved. |
DOAG 2016 Konferenz, Nürnberg
22
Oracle Stream Analytics vs. Apache Streaming Lösungen
Adapted from: Introduction to Streaming Analytics, 2016, Guido Schmutz, SlideShare Copyright © 2016, Oracle and/or its affiliates. All rights reserved. |
DOAG 2016 Konferenz, Nürnberg
23
K-Means Cluster Resultate interpretieren Hier geht die Analyse erst richtig los
www.quora.com/How-do-you-interpret-k-means-clustering-results
Copyright © 2016, Oracle and/or its affiliates. All rights reserved. |
DOAG 2016 Konferenz, Nürnberg
24
Take away Message Smart analysieren – mit Vorgehensmodell, Wissen und Oracle Business Analytics
Data Analytics Kreislauf ein iterativer Prozess inkl. Fehlschläge! Im Fokus steht dabei immer die fachliche Aufgabe bzw. das Ziel der Analyse
...K-means clustering (und die Anwendung anderer Algorithmen) is not a free lunch Trotz komfortabler Analyse-Tools kommt Man nicht an solcher Lektüre vorbei, denn....
Copyright © 2016, Oracle and/or its affiliates. All rights reserved. |
http://varianceexplained.org/r/kmeans-free-lunch
DOAG 2016 Konferenz, Nürnberg
25
Wie weiter? Nächster Talk
Copyright © 2016, Oracle and/or its affiliates. All rights reserved. |
DOAG 2016 Konferenz, Nürnberg
26
Wie weiter? Oracle Technology Network: Data Visualization Desktop Tool • Software-Download (incl. Oracle R Distribution 3.1.1) öffen Oracle Technology Network: Data Visualization Public Gallery • Diverse Advanced Analytics Beispiele inkl. Deployments öffen Oracle BI TECHDEMO YouTube Channel • u.a. mit Sample App Version v607 und Advanced Analytics öffnen Oracle Business Intelligence 12c Dokumentation • Beschreibung aller logischen Advanced Analytics SQL-Funktionen öffnen Boris Dahav (Oracle USA) – Blog: • Enabling R and the relevant Analytics functions on OBIEE 12c öffnen • OBIEE 12c Adv. Analytics Functions – Part 1: Introduction & Trendline öffnen • OBIEE 12c Adv. Analytics Functions – Part 2: BIN and WIDTH_BUCKET öffnen • OBIEE 12c Adv. Analytics Functions – Part 3: Forecast öffnen
• OBIEE 12c Adv. Analytics Functions – Part 4: Cluster öffnen • OBIEE 12c Adv. Analytics Functions – Part 5: Outlier öffnen • OBIEE 12c Adv. Analytics Functions – Part 6: Regression öffnen • OBIEE 12c Adv. Analytics Functions – Part 7: EVALUATE_SCRIPT öffnen Copyright © 2016, Oracle and/or its affiliates. All rights reserved. |
27
Copyright © 2016, Oracle and/or its affiliates. All rights reserved. |
DOAG 2016 Konferenz, Nürnberg
28