Schema Matching und Integration Dr. Armin Roth arminroth.de
25.04.2013
Dr. Armin Roth (arminroth.de)
II – Schema Matching und Integr.
25.04.2013
1 / 26
Agenda
1
Schema Matching
2
Schema Integration
Dr. Armin Roth (arminroth.de)
II – Schema Matching und Integr.
25.04.2013
2 / 26
Schema Matching
Schema Matching – Problemstellung Gegeben: Zwei Datenbankinstanzen mit jeweiligem Schema Gesucht: Korrespondenzen zwischen Elementen der Schemata (und optional den Daten (data-schema interplay)) (a) Source Schema
+ Montreal Hospital +
Patient ? * @ Treat ID MedCr# Name Hist * Doc Event Desc Problem Date
ID/IDREF
@
* AdmDate
DisDate PatRef
*
Admission * * Coronary Pulmonary @
Admission
(b) Target Schema
Boston Hosptial
ID/IDREF
Progress @ * * PatRef Symptom Treatment ?
@ ID InsName
Policy#
Enter Leave Patient
Date
Desc
+ 05] ping two Heterogeneous Peer DTDs. Every unlabeled Quelle: edge [BCH is labeled Dr. Armin Roth (arminroth.de)
II – Schema Matching und Integr.
25.04.2013
3 / 26
Schema Matching
Schema Matching – Motivation Große Schemas > 100 Tabellen, viele Attribute Bildschirm nicht lang genug
Un¨ubersichtliche Schemas Tiefe Schachtelungen Fremdschl¨ ussel Bildschirm nicht breit genug XML Schema
Irref¨uhrende Schemas Unbekannte Homonyme Fremdsprachliche Schemas Kryptische Schemas Attributnamen < 8 Zeichen Tabellennamen < 8 Zeichen
Fremde Schemas Unbekannte Synonyme Dr. Armin Roth (arminroth.de)
II – Schema Matching und Integr.
25.04.2013
4 / 26
Schema Matching
Komplexe Schemata
Man beachte die Scrollbar!
Man beachte die Schachtelungstiefe!
Dr. Armin Roth (arminroth.de)
II – Schema Matching und Integr.
25.04.2013
5 / 26
Schema Matching
Schema Matching Ans¨atze [RB01]
Dr. Armin Roth (arminroth.de)
II – Schema Matching und Integr.
25.04.2013
6 / 26
Schema Matching
Schema Matching – Klassifikation
Schema Matching basierend auf Namen der Schemaelemente (label-based) Darunterliegende Daten (instance-based) Struktur des Schemas (structure-based) Mischformen
Dr. Armin Roth (arminroth.de)
II – Schema Matching und Integr.
25.04.2013
7 / 26
Schema Matching
Schema Matching – Label-based Gegeben: Zwei Schemata mit Attributmengen A und B Kernidee: Bilde Kreuzprodukt aller Attribute aus A und B ¨ F¨ ur jedes Paar: vergleiche Ahnlichkeit bzgl. Attributnamen ¨ (Label) anhand Ahnlichkeitsmaß (z.B. Edit distance f¨ ur Zeichenketten) ¨ Ahnlichste Paare sind Matches
Probleme: Effizienz Auswahl der besten Matches (globales Matching) Synonyme und Homonyme werden nicht erkannt
Dr. Armin Roth (arminroth.de)
II – Schema Matching und Integr.
25.04.2013
8 / 26
Schema Matching
Schema Matching – Instance-based Gegeben: Zwei Schemata mit Attributmengen A und B (jeweils mit darunterliegenden Daten) Kernidee: F¨ ur jedes Attribut: extrahiere interessante Eigenschaften der Daten (z.B. Buchstabenverteilung, L¨ange) Bilde Kreuzprodukt aller Attribute aus A und B ¨ F¨ ur jedes Paar: vergleiche Ahnlichkeit bzgl. der Eigenschaften
Probleme: Auswahl der Eigenschaften Menge der Daten: Sampling? Vergleichsmethode (z.B. Naive Bayes) Gewichtung (Maschinelles Lernen) Dr. Armin Roth (arminroth.de)
II – Schema Matching und Integr.
25.04.2013
9 / 26
Schema Matching
Instance-based Verfahren Konventionelle L¨osung: Vertikal Vergleich von Spalten Attribute classification Beispiel: [NHT+ 02]
Andere L¨osung: Horizontal Vergleich von Tupeln Duplicate detection (trotz fehlender Attribut-Korrespondenzen) Attribut-Matching auf Basis der Duplikate Beispiel: [BN05]
Dr. Armin Roth (arminroth.de)
II – Schema Matching und Integr.
25.04.2013
10 / 26
Schema Matching
Schema Matching – Structure-based
Gegeben: Zwei Schemata mit Attributmengen A und B Kernidee: Nutze (komplexe) Struktur des Schemas aus Hierarchieebene Elementtyp (Attribut, Relation, ...) Nachbarschaftsbeziehungen
Dr. Armin Roth (arminroth.de)
II – Schema Matching und Integr.
25.04.2013
11 / 26
Schema Matching
Beispiel: Similarity Flooding [MGMR02] ¨ Gegeben initiale Ahnlichkeit zwischen Schemaelementen (z.B. durch edit distance oder Instanzanalyse) ¨ Lasse Ahnlichkeiten abf¨arben auf die Nachbarn Nachbarn sind durch Struktur definiert Sind alle Nachbarn von x und y ¨ahnlich zueinander, sind (vielleicht) auch x und y ein match
¨ Analogie: Man flutet das Netzwerk der Ahnlichkeiten bis ein Gleichgewicht erreicht ist
Dr. Armin Roth (arminroth.de)
II – Schema Matching und Integr.
25.04.2013
12 / 26
Schema Matching
Schema Matching – Mischformen
Hybrid Gleichzeitige Anwendung mehrerer Techniken Beispiel: Instance-based + Datentypvergleich
Composite Repertoire bekannter Techniken (inkl. hybrider Techniken) Kombination dieser unabh¨angigen Verfahren Beispiel: durch Gewichtung Beispiel: durch automatisches Lernen (bestes Verfahren, beste Gewichtung)
Dr. Armin Roth (arminroth.de)
II – Schema Matching und Integr.
25.04.2013
13 / 26
Schema Matching
Schema Matching – Weitere Anwendungen
Herk¨ommlich: Korrespondenzen finden Schl¨ussel - Fremdschl¨ussel finden (¨ahnliche Attribute innerhalb eines Schemas sind gute Kandidaten) H¨oher-stufige Korrespondenzen finden ¨ (Ahnlichkeiten von Tabellen durch Aggregation der Matches ihrer Attribute)
Dr. Armin Roth (arminroth.de)
II – Schema Matching und Integr.
25.04.2013
14 / 26
Schema Matching
Schema Matching – Erweiterungen n : 1 und 1 : n Matches Viele Kombinationsm¨ oglichkeiten Viele Funktionen denkbar (die Quell- in Zielwerte transformieren) Parsingregeln
Matching in komplexen Schemata (Ziel: Finde Mapping, nicht (nur) Korrespondenzen) Globales Matching Matching von Tabellen und Schemata, nicht nur Attribute Stable Marriage bzw. Maximum Weighted Matching
A 0.81
B Dr. Armin Roth (arminroth.de)
1.0 0.54
C
0.27
D
II – Schema Matching und Integr.
25.04.2013
15 / 26
Schema Matching
Schema Matching – Stable Marriage Gegeben: n Frauen (Attribute in Schema A) und m M¨anner (Attribute in Schema B) Monogamie: Je eine Frau kann nur mit je einem Mann verheiratet sein (nur 1:1 Matches) Jede Frau hat eine Rangliste der M¨anner und umgekehrt. Zum Schema Matching: ¨ Attribut-Ahnlichkeit gem¨aß eines der vorigen Verfahren Rangliste (normalerweise) symmetrisch
Gesucht: Paarung (globales Matching), so dass niemals gilt: f1 heiratet m1 , f2 heiratet m2 aber f1 bevorzugt m2 und m2 bevorzugt f1 (instabil!) Dr. Armin Roth (arminroth.de)
II – Schema Matching und Integr.
25.04.2013
16 / 26
Schema Matching
Schema Matching – Stable Marriage M¨anner (1-4) 1: B , D, A, C 2: C, A, D, B 3: B, C, A, D 4: D, A, C, B 1 2 3 1 4 4
stellt stellt stellt stellt stellt stellt
Antrag Antrag Antrag Antrag Antrag Antrag
Dr. Armin Roth (arminroth.de)
an an an an an an
Frauen (A-D) A: 2, 1, 4, 3 B: 4, 3, 1, 2 C: 1, 4, 3, 2 D: 2, 1, 4, 3
B, sie willigt ein : (1, B) C, sie willigt ein : (1, B) (2, C) B, sie willigt ein und verl¨asst 1: (2, C) (3, B) D, sie willigt ein : (1, D) (2, C) (3, B) D, sie lehnt ab: (1, D) (2, C) (3, B) A, sie willigt ein : (1, D) (2, C) (3, B) (4, A) II – Schema Matching und Integr.
25.04.2013
17 / 26
Schema Matching
Maximum Weighted Matching
Alternative zu Stable Marriage Suche Matching mit maximalem Gewicht in bipartiten Graphen Bipartit: Knoten in zwei Klassen (Quelle & Ziel) Kanten nur zwischen Knoten verschiedener Klassen (Korrespondenzen)
¨ Maximiere Summe der einzelnen Gewichte/Ahnlichkeiten
Dr. Armin Roth (arminroth.de)
II – Schema Matching und Integr.
25.04.2013
18 / 26
Schema Matching
Zusammenfassung Schema Matching
Schema Matching basierend auf Namen der Schemaelemente (label-based) Darunterliegende Daten (instance-based) Struktur des Schemas (structure-based) Mischformen, Meta-Matcher
Globales Matching
Dr. Armin Roth (arminroth.de)
II – Schema Matching und Integr.
25.04.2013
19 / 26
Schema Integration
Agenda
1
Schema Matching
2
Schema Integration
Dr. Armin Roth (arminroth.de)
II – Schema Matching und Integr.
25.04.2013
20 / 26
Schema Integration
Schemaintegration Gegeben: mehrere Quellschemata Gesucht: ein integriertes Schema, das bestm¨oglich auf Quellschemata abbildbar ist Bottom-up-Entwurf Dazu: gemeinsames Datenmodell (evtl. Transformation der Quellschemata) Ziele [BLN86]: Vollst¨andigkeit Minimalit¨at Korrektheit Verst¨andlichkeit
Dr. Armin Roth (arminroth.de)
II – Schema Matching und Integr.
25.04.2013
21 / 26
Schema Integration
Schemaintegration – Vorgehen
Halbautomatischer Prozess Schritte [BLN86]: Vorintegration: Schemaauswahl, bin¨ares oder n-¨ares Integrieren Schemavergleich: Schema Matching, Semantische und strukturelle Konflikte Schemaangleichung: Schema Mapping Schemafusion und Umstrukturierung
Dr. Armin Roth (arminroth.de)
II – Schema Matching und Integr.
25.04.2013
22 / 26
Schema Integration
Korrespondenzbasierte Schemaintegration [SPD92] Korrespondenzen zwischen Elementen der zu integrierenden Schemata. Attribute, Konzepte oder Pfade
Korrespondenzen geben semantische Beziehung der Elemente an: ¨ ¨ Aquivalenz ≡, Uberlapping ⊆, ⊇, Disjunktion 6= Integrationsregeln 1 2
3 4 5
¨ Ubernehme Elemente ohne Entsprechung in anderen Schemata ¨ Aquivalente Elemente mit Vereinigung der beiden Attributmengen u ¨bernehmen Beziehungen zwischen ¨aquivalenten Elementen u ¨bernehmen Pfade zwischen ¨aquivalenten Elementen u ¨bernehmen ¨ Aquivalenzen zwischen Klassen und Attributen als Beziehungen u ¨bernehmen
Dr. Armin Roth (arminroth.de)
II – Schema Matching und Integr.
25.04.2013
23 / 26
filmstudio
s_name
tribute und . Dies liegt daran, da Schema Integration unterschiedlichen Beziehungen zu Filmen stehen: In d
5.1 Schemaintegration Schema Integration –fuehrt_regie Beispiel on
117 wird gespeichert, wo ein Film gedre
Dieses Studio muss z.B. nicht mit dem Studio überein
das die Rechte an einem Film besitzt (oder was auch im n den folgenden Abschnitten erläutern wir zunächst die Ziele
generellen Vorgehensweisen bei der Schemaintegration. Dann rechte zu integrierende Schema darstellte).
en wir zwei ausgewählte Ansätze der Schemaintegration vor.
Integriertes Schema:
e werden wir anhand der Schemata in Abbildung 5.2 verdeut-
n.
Quellschemata: Abbildung 5.2 Zwei heterogene Schemata als Input zur Schemaintegration
der Schemaintegration Quelle: Ulf Leser, Felix Naumann. Informationsintegration. dpunkt Verlag, 2006 [NL06]
Dr. Armin Roth (arminroth.de) II – Schema MatchingZieund Integr. ntegration mehrerer heterogener Schemata hat mehrere
25.04.2013
24 / 26
Schema Integration
Literatur I [BCH+ 05]
Angela Bonifati, Qing (Elaine) Chang, Terence Ho, Laks V.S. Lakshmanan, and Rachel Pottinger. HePToX: Marrying XML and heterogeneity in your P2P databases. In Proc. of the Int. Conf. on Very Large Databases (VLDB), 2005. Demo paper.
[BLN86]
C. Batini, M. Lenzerini, and S.B. Navathe. A comparative analysis of methodologies for database schema integration. ACM Computing Surveys, 18(4):323–364, 1986.
[BN05]
Alexander Bilke and Felix Naumann. Schema matching using duplicates. In Proc. of the Int. Conf. on Data Engineering (ICDE), 2005.
[Len02]
Maurizio Lenzerini. Data integration: A theoretical perspective. In Proc. of the Symposium on Principles of Database Systems (PODS), 2002. (optional, sehr theoretisch).
Dr. Armin Roth (arminroth.de)
II – Schema Matching und Integr.
25.04.2013
25 / 26
Schema Integration
Literatur II [MGMR02] Sergey Melnik, Hector Garcia-Molina, and Erhard Rahm. Similarity flooding: A versatile graph matching algorithm and its application to schema matching. In Proc. of the Int. Conf. on Data Engineering (ICDE), 2002. [NHT+ 02]
Felix Naumann, Ching-Tien Ho, Xuqing Tian, Laura Haas, and Nimrod Megiddo. Attribute classification using feature analysis. In Proc. of the Int. Conf. on Data Engineering (ICDE), 2002.
[NL06]
Felix Naumann and Ulf Leser. Informationsintegration. dpunkt.verlag, 2006. In German.
[RB01]
E. Rahm and P.A. Bernstein. A survey of approaches to automatic schema matching. The VLDB Journal, 10(4):334–350, 2001.
[SPD92]
S. Spaccapietra, C. Parent, and Y. Dupont. Model independent assertions for integration of heterogeneous schemas. The VLDB Jounal, 1(1):81–126, 1992.
Dr. Armin Roth (arminroth.de)
II – Schema Matching und Integr.
25.04.2013
26 / 26