Schema Matching und Integration

Schema Matching und Integration Dr. Armin Roth arminroth.de 25.04.2013 Dr. Armin Roth (arminroth.de) II – Schema Matching und Integr. 25.04.2013 ...
Author: Emil Ritter
2 downloads 2 Views 1MB Size
Schema Matching und Integration Dr. Armin Roth arminroth.de

25.04.2013

Dr. Armin Roth (arminroth.de)

II – Schema Matching und Integr.

25.04.2013

1 / 26

Agenda

1

Schema Matching

2

Schema Integration

Dr. Armin Roth (arminroth.de)

II – Schema Matching und Integr.

25.04.2013

2 / 26

Schema Matching

Schema Matching – Problemstellung Gegeben: Zwei Datenbankinstanzen mit jeweiligem Schema Gesucht: Korrespondenzen zwischen Elementen der Schemata (und optional den Daten (data-schema interplay)) (a) Source Schema

+ Montreal Hospital +

Patient ? * @ Treat ID MedCr# Name Hist * Doc Event Desc Problem Date

ID/IDREF

@

* AdmDate

DisDate PatRef

*

Admission * * Coronary Pulmonary @

Admission

(b) Target Schema

Boston Hosptial

ID/IDREF

Progress @ * * PatRef Symptom Treatment ?

@ ID InsName

Policy#

Enter Leave Patient

Date

Desc

+ 05] ping two Heterogeneous Peer DTDs. Every unlabeled Quelle: edge [BCH is labeled Dr. Armin Roth (arminroth.de)

II – Schema Matching und Integr.

25.04.2013

3 / 26

Schema Matching

Schema Matching – Motivation Große Schemas > 100 Tabellen, viele Attribute Bildschirm nicht lang genug

Un¨ubersichtliche Schemas Tiefe Schachtelungen Fremdschl¨ ussel Bildschirm nicht breit genug XML Schema

Irref¨uhrende Schemas Unbekannte Homonyme Fremdsprachliche Schemas Kryptische Schemas Attributnamen < 8 Zeichen Tabellennamen < 8 Zeichen

Fremde Schemas Unbekannte Synonyme Dr. Armin Roth (arminroth.de)

II – Schema Matching und Integr.

25.04.2013

4 / 26

Schema Matching

Komplexe Schemata

Man beachte die Scrollbar!

Man beachte die Schachtelungstiefe!

Dr. Armin Roth (arminroth.de)

II – Schema Matching und Integr.

25.04.2013

5 / 26

Schema Matching

Schema Matching Ans¨atze [RB01]

Dr. Armin Roth (arminroth.de)

II – Schema Matching und Integr.

25.04.2013

6 / 26

Schema Matching

Schema Matching – Klassifikation

Schema Matching basierend auf Namen der Schemaelemente (label-based) Darunterliegende Daten (instance-based) Struktur des Schemas (structure-based) Mischformen

Dr. Armin Roth (arminroth.de)

II – Schema Matching und Integr.

25.04.2013

7 / 26

Schema Matching

Schema Matching – Label-based Gegeben: Zwei Schemata mit Attributmengen A und B Kernidee: Bilde Kreuzprodukt aller Attribute aus A und B ¨ F¨ ur jedes Paar: vergleiche Ahnlichkeit bzgl. Attributnamen ¨ (Label) anhand Ahnlichkeitsmaß (z.B. Edit distance f¨ ur Zeichenketten) ¨ Ahnlichste Paare sind Matches

Probleme: Effizienz Auswahl der besten Matches (globales Matching) Synonyme und Homonyme werden nicht erkannt

Dr. Armin Roth (arminroth.de)

II – Schema Matching und Integr.

25.04.2013

8 / 26

Schema Matching

Schema Matching – Instance-based Gegeben: Zwei Schemata mit Attributmengen A und B (jeweils mit darunterliegenden Daten) Kernidee: F¨ ur jedes Attribut: extrahiere interessante Eigenschaften der Daten (z.B. Buchstabenverteilung, L¨ange) Bilde Kreuzprodukt aller Attribute aus A und B ¨ F¨ ur jedes Paar: vergleiche Ahnlichkeit bzgl. der Eigenschaften

Probleme: Auswahl der Eigenschaften Menge der Daten: Sampling? Vergleichsmethode (z.B. Naive Bayes) Gewichtung (Maschinelles Lernen) Dr. Armin Roth (arminroth.de)

II – Schema Matching und Integr.

25.04.2013

9 / 26

Schema Matching

Instance-based Verfahren Konventionelle L¨osung: Vertikal Vergleich von Spalten Attribute classification Beispiel: [NHT+ 02]

Andere L¨osung: Horizontal Vergleich von Tupeln Duplicate detection (trotz fehlender Attribut-Korrespondenzen) Attribut-Matching auf Basis der Duplikate Beispiel: [BN05]

Dr. Armin Roth (arminroth.de)

II – Schema Matching und Integr.

25.04.2013

10 / 26

Schema Matching

Schema Matching – Structure-based

Gegeben: Zwei Schemata mit Attributmengen A und B Kernidee: Nutze (komplexe) Struktur des Schemas aus Hierarchieebene Elementtyp (Attribut, Relation, ...) Nachbarschaftsbeziehungen

Dr. Armin Roth (arminroth.de)

II – Schema Matching und Integr.

25.04.2013

11 / 26

Schema Matching

Beispiel: Similarity Flooding [MGMR02] ¨ Gegeben initiale Ahnlichkeit zwischen Schemaelementen (z.B. durch edit distance oder Instanzanalyse) ¨ Lasse Ahnlichkeiten abf¨arben auf die Nachbarn Nachbarn sind durch Struktur definiert Sind alle Nachbarn von x und y ¨ahnlich zueinander, sind (vielleicht) auch x und y ein match

¨ Analogie: Man flutet das Netzwerk der Ahnlichkeiten bis ein Gleichgewicht erreicht ist

Dr. Armin Roth (arminroth.de)

II – Schema Matching und Integr.

25.04.2013

12 / 26

Schema Matching

Schema Matching – Mischformen

Hybrid Gleichzeitige Anwendung mehrerer Techniken Beispiel: Instance-based + Datentypvergleich

Composite Repertoire bekannter Techniken (inkl. hybrider Techniken) Kombination dieser unabh¨angigen Verfahren Beispiel: durch Gewichtung Beispiel: durch automatisches Lernen (bestes Verfahren, beste Gewichtung)

Dr. Armin Roth (arminroth.de)

II – Schema Matching und Integr.

25.04.2013

13 / 26

Schema Matching

Schema Matching – Weitere Anwendungen

Herk¨ommlich: Korrespondenzen finden Schl¨ussel - Fremdschl¨ussel finden (¨ahnliche Attribute innerhalb eines Schemas sind gute Kandidaten) H¨oher-stufige Korrespondenzen finden ¨ (Ahnlichkeiten von Tabellen durch Aggregation der Matches ihrer Attribute)

Dr. Armin Roth (arminroth.de)

II – Schema Matching und Integr.

25.04.2013

14 / 26

Schema Matching

Schema Matching – Erweiterungen n : 1 und 1 : n Matches Viele Kombinationsm¨ oglichkeiten Viele Funktionen denkbar (die Quell- in Zielwerte transformieren) Parsingregeln

Matching in komplexen Schemata (Ziel: Finde Mapping, nicht (nur) Korrespondenzen) Globales Matching Matching von Tabellen und Schemata, nicht nur Attribute Stable Marriage bzw. Maximum Weighted Matching

A 0.81

B Dr. Armin Roth (arminroth.de)

1.0 0.54

C

0.27

D

II – Schema Matching und Integr.

25.04.2013

15 / 26

Schema Matching

Schema Matching – Stable Marriage Gegeben: n Frauen (Attribute in Schema A) und m M¨anner (Attribute in Schema B) Monogamie: Je eine Frau kann nur mit je einem Mann verheiratet sein (nur 1:1 Matches) Jede Frau hat eine Rangliste der M¨anner und umgekehrt. Zum Schema Matching: ¨ Attribut-Ahnlichkeit gem¨aß eines der vorigen Verfahren Rangliste (normalerweise) symmetrisch

Gesucht: Paarung (globales Matching), so dass niemals gilt: f1 heiratet m1 , f2 heiratet m2 aber f1 bevorzugt m2 und m2 bevorzugt f1 (instabil!) Dr. Armin Roth (arminroth.de)

II – Schema Matching und Integr.

25.04.2013

16 / 26

Schema Matching

Schema Matching – Stable Marriage M¨anner (1-4) 1: B , D, A, C 2: C, A, D, B 3: B, C, A, D 4: D, A, C, B 1 2 3 1 4 4

stellt stellt stellt stellt stellt stellt

Antrag Antrag Antrag Antrag Antrag Antrag

Dr. Armin Roth (arminroth.de)

an an an an an an

Frauen (A-D) A: 2, 1, 4, 3 B: 4, 3, 1, 2 C: 1, 4, 3, 2 D: 2, 1, 4, 3

B, sie willigt ein : (1, B) C, sie willigt ein : (1, B) (2, C) B, sie willigt ein und verl¨asst 1: (2, C) (3, B) D, sie willigt ein : (1, D) (2, C) (3, B) D, sie lehnt ab: (1, D) (2, C) (3, B) A, sie willigt ein : (1, D) (2, C) (3, B) (4, A) II – Schema Matching und Integr.

25.04.2013

17 / 26

Schema Matching

Maximum Weighted Matching

Alternative zu Stable Marriage Suche Matching mit maximalem Gewicht in bipartiten Graphen Bipartit: Knoten in zwei Klassen (Quelle & Ziel) Kanten nur zwischen Knoten verschiedener Klassen (Korrespondenzen)

¨ Maximiere Summe der einzelnen Gewichte/Ahnlichkeiten

Dr. Armin Roth (arminroth.de)

II – Schema Matching und Integr.

25.04.2013

18 / 26

Schema Matching

Zusammenfassung Schema Matching

Schema Matching basierend auf Namen der Schemaelemente (label-based) Darunterliegende Daten (instance-based) Struktur des Schemas (structure-based) Mischformen, Meta-Matcher

Globales Matching

Dr. Armin Roth (arminroth.de)

II – Schema Matching und Integr.

25.04.2013

19 / 26

Schema Integration

Agenda

1

Schema Matching

2

Schema Integration

Dr. Armin Roth (arminroth.de)

II – Schema Matching und Integr.

25.04.2013

20 / 26

Schema Integration

Schemaintegration Gegeben: mehrere Quellschemata Gesucht: ein integriertes Schema, das bestm¨oglich auf Quellschemata abbildbar ist Bottom-up-Entwurf Dazu: gemeinsames Datenmodell (evtl. Transformation der Quellschemata) Ziele [BLN86]: Vollst¨andigkeit Minimalit¨at Korrektheit Verst¨andlichkeit

Dr. Armin Roth (arminroth.de)

II – Schema Matching und Integr.

25.04.2013

21 / 26

Schema Integration

Schemaintegration – Vorgehen

Halbautomatischer Prozess Schritte [BLN86]: Vorintegration: Schemaauswahl, bin¨ares oder n-¨ares Integrieren Schemavergleich: Schema Matching, Semantische und strukturelle Konflikte Schemaangleichung: Schema Mapping Schemafusion und Umstrukturierung

Dr. Armin Roth (arminroth.de)

II – Schema Matching und Integr.

25.04.2013

22 / 26

Schema Integration

Korrespondenzbasierte Schemaintegration [SPD92] Korrespondenzen zwischen Elementen der zu integrierenden Schemata. Attribute, Konzepte oder Pfade

Korrespondenzen geben semantische Beziehung der Elemente an: ¨ ¨ Aquivalenz ≡, Uberlapping ⊆, ⊇, Disjunktion 6= Integrationsregeln 1 2

3 4 5

¨ Ubernehme Elemente ohne Entsprechung in anderen Schemata ¨ Aquivalente Elemente mit Vereinigung der beiden Attributmengen u ¨bernehmen Beziehungen zwischen ¨aquivalenten Elementen u ¨bernehmen Pfade zwischen ¨aquivalenten Elementen u ¨bernehmen ¨ Aquivalenzen zwischen Klassen und Attributen als Beziehungen u ¨bernehmen

Dr. Armin Roth (arminroth.de)

II – Schema Matching und Integr.

25.04.2013

23 / 26

filmstudio

s_name

tribute und . Dies liegt daran, da Schema Integration unterschiedlichen Beziehungen zu Filmen stehen: In d

5.1 Schemaintegration Schema Integration –fuehrt_regie Beispiel on

117 wird gespeichert, wo ein Film gedre

Dieses Studio muss z.B. nicht mit dem Studio überein

das die Rechte an einem Film besitzt (oder was auch im n den folgenden Abschnitten erläutern wir zunächst die Ziele

generellen Vorgehensweisen bei der Schemaintegration. Dann rechte zu integrierende Schema darstellte).

en wir zwei ausgewählte Ansätze der Schemaintegration vor.

Integriertes Schema:

e werden wir anhand der Schemata in Abbildung 5.2 verdeut-

n.

Quellschemata: Abbildung 5.2 Zwei heterogene Schemata als Input zur Schemaintegration

der Schemaintegration Quelle: Ulf Leser, Felix Naumann. Informationsintegration. dpunkt Verlag, 2006 [NL06]

Dr. Armin Roth (arminroth.de) II – Schema MatchingZieund Integr. ntegration mehrerer heterogener Schemata hat mehrere

25.04.2013

24 / 26

Schema Integration

Literatur I [BCH+ 05]

Angela Bonifati, Qing (Elaine) Chang, Terence Ho, Laks V.S. Lakshmanan, and Rachel Pottinger. HePToX: Marrying XML and heterogeneity in your P2P databases. In Proc. of the Int. Conf. on Very Large Databases (VLDB), 2005. Demo paper.

[BLN86]

C. Batini, M. Lenzerini, and S.B. Navathe. A comparative analysis of methodologies for database schema integration. ACM Computing Surveys, 18(4):323–364, 1986.

[BN05]

Alexander Bilke and Felix Naumann. Schema matching using duplicates. In Proc. of the Int. Conf. on Data Engineering (ICDE), 2005.

[Len02]

Maurizio Lenzerini. Data integration: A theoretical perspective. In Proc. of the Symposium on Principles of Database Systems (PODS), 2002. (optional, sehr theoretisch).

Dr. Armin Roth (arminroth.de)

II – Schema Matching und Integr.

25.04.2013

25 / 26

Schema Integration

Literatur II [MGMR02] Sergey Melnik, Hector Garcia-Molina, and Erhard Rahm. Similarity flooding: A versatile graph matching algorithm and its application to schema matching. In Proc. of the Int. Conf. on Data Engineering (ICDE), 2002. [NHT+ 02]

Felix Naumann, Ching-Tien Ho, Xuqing Tian, Laura Haas, and Nimrod Megiddo. Attribute classification using feature analysis. In Proc. of the Int. Conf. on Data Engineering (ICDE), 2002.

[NL06]

Felix Naumann and Ulf Leser. Informationsintegration. dpunkt.verlag, 2006. In German.

[RB01]

E. Rahm and P.A. Bernstein. A survey of approaches to automatic schema matching. The VLDB Journal, 10(4):334–350, 2001.

[SPD92]

S. Spaccapietra, C. Parent, and Y. Dupont. Model independent assertions for integration of heterogeneous schemas. The VLDB Jounal, 1(1):81–126, 1992.

Dr. Armin Roth (arminroth.de)

II – Schema Matching und Integr.

25.04.2013

26 / 26

Suggest Documents