Do you know what K-Means for your Business?

Do you know what K-Means …for your Business? Cluster-Analysen mit Oracle Harald Erb Oracle Business Analytics & Big Data Copyright © 2016, Oracle an...
Author: Babette Martin
24 downloads 2 Views 5MB Size
Do you know what K-Means …for your Business? Cluster-Analysen mit Oracle

Harald Erb Oracle Business Analytics & Big Data

Copyright © 2016, Oracle and/or its affiliates. All rights reserved. |

DOAG 2016 Konferenz, Nürnberg

Kontakt • Harald Erb • Principal Sales Consultant • Information Architect • Kontakt +49 (0)6103 397-403 • [email protected]

Copyright © 2016, Oracle and/or its affiliates. All rights reserved. |

DOAG 2016 Konferenz, Nürnberg

K-Means Verfahren im Oracle-Kontext

(Echtzeit-) Datenstrom

Handlungsrelevante Informationen

Umsetzbare Erkenntnisse

Intelligente Prozesse

Event Engine

Data Reservoir

Data Factory

Unternehmensdaten (ERP, CRM, operative Daten)

Enterprise Information Store

BI & Analyse

Externe strukturierte Daten

“Tagesgeschäft” Line of Governance

Innovation Discovery Output

Events & Daten Data Lab

Oracle White Paper - Information Management & Big Data, A Reference Architecture, 2014 Copyright © 2016, Oracle and/or its affiliates. All rights reserved. |

DOAG 2016 Konferenz, Nürnberg

3

Cluster-Analysen mit k-Means Allgemeines, k-Means Algorithmen bzw. Erweiterungen • Cluster-Analyse: ̶ Oberbegriff für multivariate Methoden, die versuchen, Strukturen (Cluster) in den Daten zu finden ̶ Methoden basieren meist auf Berechnungen der Distanz der Beobachtungen im multidimensionalen Datenraum • Typische Fragestellungen: ̶ Abnormale Datenpunkte innerhalb eines großen Data Sets finden ̶ Cluster ähnlicher Textdokumente oder Kundensegmente ̶ Guter Einstieg in Datenanalysen, bevor Klassifikationsoder Regressionsmethoden zum Einsatz kommen • k-Means Clustering : ̶ gehört zu den Austauschverfahren und ist ein partitionierender Clustering Algorithmus ̶ Unterscheidung. Algorithmus von Lloyd ("der" k-Means Algorithmus) vs. MacQueen (führte mit dem Begriff "kMeans allerdings einen anderen Algorithmus ein)

• Vor- und Nachteile ̶ Einfache und schnelle Implementierung, gute Laufzeiten ̶ Schwachstelle: Die gefundene Lösung hängt stark von den gewählten Startpunkten ab • Verschiedene k-Means Variationen, u.a.: ̶ k-Medians: verwendet statt der euklidischen Distanz, u.a. die sog. „Manhattan-Distanz“ zur Abstandsberechnung ̶ k-Means++-Algorithmus: wählt die Cluster-Schwerpunkte nicht zufällig, sondern nach Vorschrift ̶ k-Medoids (PAM, Partitioning Around Medoids) minimiert die Distanzen (statt der Summe der Varianzen bei k-Means)

Copyright © 2016, Oracle and/or its affiliates. All rights reserved. |

DOAG 2016 Konferenz, Nürnberg

4

Prinzip von k-Means Ablauf 1. Initialisierung

2. Klassifizierung

3. Cluster-Zentren (Mean) berechnen

4. Iteration

n Durchgänge bis die Verschiebung der Cluster-Zentren ausreichend klein ist bzw. gegen 0 geht Copyright © 2016, Oracle and/or its affiliates. All rights reserved. |

DOAG 2016 Konferenz, Nürnberg

5

Cluster-Analysen für alle

Oracle Data Visualization

Copyright © 2016, Oracle and/or its affiliates. All rights reserved. |

DOAG 2016 Konferenz, Nürnberg

6

Oracle Data Visualization Desktop Tool-Überblick

 Datenquellen anbinden

 Daten visualisieren und  Data Sets inspizieren, aufbereiten & mit anderen Daten verknüpfen

Copyright © 2016, Oracle and/or its affiliates. All rights reserved. |

übergreifend über alle Data Sets hinweg analysieren

DOAG 2016 Konferenz, Nürnberg

7

Cluster-Analyse mit Oracle Data Visualization Desktop Out-of-the Box: Analytische Funktionen Für Ad-hoc Abfragen und im Data Visualization Tool bekommen Business Analysten mächtige aber leicht anwendbare Rechenfunktionen angeboten: 1. Trend Lines 2. Bin / Histogram 3. Regression Analysis 4. Forecast 5. Cluster 6. Outliers 7. Custom R scripts 

Business Analysts

 Anwendung der neuen Analytics Funktionen oder Custom R Scripts

Neue Erkenntnisse erlangen

Data Lab

Copyright © 2016, Oracle and/or its affiliates. All rights reserved. |

DOAG 2016 Konferenz, Nürnberg

8

Cluster-Analyse mit Oracle Data Visualization Desktop Verwendung: Analytics 1-Click-Funktionen







Copyright © 2016, Oracle and/or its affiliates. All rights reserved. |



DOAG 2016 Konferenz, Nürnberg

9

Cluster-Analyse mit Oracle Data Visualization Desktop Verwendung: cluster()-Funktion im Berechnungseditor

Detailinformationen zur Cluster-Bildung sind abrufbar

Verfügbare Methoden für K-Means: MacQueen, Lloyd, Hartigan-Wong, Forgy Copyright © 2016, Oracle and/or its affiliates. All rights reserved. |

DOAG 2016 Konferenz, Nürnberg

10

Copyright © 2016, Oracle and/or its affiliates. All rights reserved. |

11

Cluster-Analyse im Data Lab

Oracle Big Data Discovery vs. BDD-Shell und Jupyter Notebook

Copyright © 2016, Oracle and/or its affiliates. All rights reserved. |

DOAG 2016 Konferenz, Nürnberg

12

Oracle Big Data Discovery Team Sport: Ein Tool für Business Analysts and Data Scientists Database Administrator (Enterprise IT)

Business Analyst

Arbeiten in einem Team New KPI, Report Requirement

DWH / OLTP Databases

Discovery Output

Hadoop

Data Integration Specialist (Enterprise IT)

New Data Set (cleaned / enriched)

Data Engineer

Data Scientist

Data Science

Copyright © 2016, Oracle and/or its affiliates. All rights reserved. |

DOAG 2016 Konferenz, Nürnberg

13

Oracle Big Data Discovery Visual Data Discovery

Copyright © 2016, Oracle and/or its affiliates. All rights reserved. |

DOAG 2016 Konferenz, Nürnberg

14

Oracle Big Data Discovery Data Scientist setzt Analyse mit anderen Techniken fort Database Administrator (Enterprise IT)

Business Analyst New KPI, Report Requirement

DWH / OLTP Databases

Discovery Output

Hadoop

Data Integration Specialist (Enterprise IT)

New Data Set (cleaned / enriched)

Data Engineer

Data Scientist

Data Science

Copyright © 2016, Oracle and/or its affiliates. All rights reserved. |

DOAG 2016 Konferenz, Nürnberg

16

Oracle Big Data Discovery BDD Shell Import Package NumPy (Numerical Python) Import der Spark Machine Learning library MLlib Liste mit Oracle Big Data Discovery Data Sets

Konvertierung eines Oracle Big Data Discovery Data Sets in einen Apache Spark Dataframe

Copyright © 2016, Oracle and/or its affiliates. All rights reserved. |

DOAG 2016 Konferenz, Nürnberg

17

Jupyter Notebook Direktzugriff auf Oracle Big Data Discovery Data Sets

Copyright © 2016, Oracle and/or its affiliates. All rights reserved. |

DOAG 2016 Konferenz, Nürnberg

18

Cluster-Analyse in Echtzeit

Oracle Stream Analytics

Copyright © 2016, Oracle and/or its affiliates. All rights reserved. |

DOAG 2016 Konferenz, Nürnberg

19

IoT Logical Reference Architecture

Adapted from: Internet of Things (IoT) - are traditional architectures good enough?, 2016, Guido Schmutz, SlideShare Copyright © 2016, Oracle and/or its affiliates. All rights reserved. |

DOAG 2016 Konferenz, Nürnberg

20

Oracle Stream Analytics Prinzip der Anomalie-Erkennung (im 2-dimensionalen Raum)



K-Means Machine Learning Pattern

Beispiel: Herstellung von Netzteilen. Ein 2dimensionaler Raum ist über 2 Variablen (Features) definiert, die Messpunkte liegen üblicherweise in 2 Gruppen. Ein auffälliges Gerät ( x ) liegt zwar im Toleranzbereich aber außerhalb der beiden Gruppen

Copyright © 2016, Oracle and/or its affiliates. All rights reserved. |

DOAG 2016 Konferenz, Nürnberg

21

Oracle Stream Analytics  Live Output



Event Stream zuweisen



Topolgie-Ansicht

Copyright © 2016, Oracle and/or its affiliates. All rights reserved. |

DOAG 2016 Konferenz, Nürnberg

22

Oracle Stream Analytics vs. Apache Streaming Lösungen

Adapted from: Introduction to Streaming Analytics, 2016, Guido Schmutz, SlideShare Copyright © 2016, Oracle and/or its affiliates. All rights reserved. |

DOAG 2016 Konferenz, Nürnberg

23

K-Means Cluster Resultate interpretieren Hier geht die Analyse erst richtig los

www.quora.com/How-do-you-interpret-k-means-clustering-results

Copyright © 2016, Oracle and/or its affiliates. All rights reserved. |

DOAG 2016 Konferenz, Nürnberg

24

Take away Message Smart analysieren – mit Vorgehensmodell, Wissen und Oracle Business Analytics

Data Analytics Kreislauf  ein iterativer Prozess inkl. Fehlschläge! Im Fokus steht dabei immer die fachliche Aufgabe bzw. das Ziel der Analyse

...K-means clustering (und die Anwendung anderer Algorithmen) is not a free lunch Trotz komfortabler Analyse-Tools kommt Man nicht an solcher Lektüre vorbei, denn....

Copyright © 2016, Oracle and/or its affiliates. All rights reserved. |

http://varianceexplained.org/r/kmeans-free-lunch

DOAG 2016 Konferenz, Nürnberg

25

Wie weiter? Nächster Talk

Copyright © 2016, Oracle and/or its affiliates. All rights reserved. |

DOAG 2016 Konferenz, Nürnberg

26

Wie weiter? Oracle Technology Network: Data Visualization Desktop Tool • Software-Download (incl. Oracle R Distribution 3.1.1)  öffen Oracle Technology Network: Data Visualization Public Gallery • Diverse Advanced Analytics Beispiele inkl. Deployments  öffen Oracle BI TECHDEMO YouTube Channel • u.a. mit Sample App Version v607 und Advanced Analytics  öffnen Oracle Business Intelligence 12c Dokumentation • Beschreibung aller logischen Advanced Analytics SQL-Funktionen  öffnen Boris Dahav (Oracle USA) – Blog: • Enabling R and the relevant Analytics functions on OBIEE 12c  öffnen • OBIEE 12c Adv. Analytics Functions – Part 1: Introduction & Trendline  öffnen • OBIEE 12c Adv. Analytics Functions – Part 2: BIN and WIDTH_BUCKET  öffnen • OBIEE 12c Adv. Analytics Functions – Part 3: Forecast  öffnen

• OBIEE 12c Adv. Analytics Functions – Part 4: Cluster  öffnen • OBIEE 12c Adv. Analytics Functions – Part 5: Outlier  öffnen • OBIEE 12c Adv. Analytics Functions – Part 6: Regression  öffnen • OBIEE 12c Adv. Analytics Functions – Part 7: EVALUATE_SCRIPT  öffnen Copyright © 2016, Oracle and/or its affiliates. All rights reserved. |

27

Copyright © 2016, Oracle and/or its affiliates. All rights reserved. |

DOAG 2016 Konferenz, Nürnberg

28