3 Grundlagen der Datenmodellierung

22 3 Grundlagen der Datenmodellierung Das Verständnis für den in der vorliegenden Arbeit gewählten Lösungsansatz erfordert eine Einführung in die Me...
Author: Arnim Fromm
1 downloads 1 Views 141KB Size
22

3 Grundlagen der Datenmodellierung

Das Verständnis für den in der vorliegenden Arbeit gewählten Lösungsansatz erfordert eine Einführung in die Methoden und Konzepte des Datenbankentwurfes. Grundlegend ist hierbei die ausdrückliche Unterscheidung in eine operative und eine analytische Datensicht als Basis eines hybriden Modellierungsansatzes. Das Kapitel arbeitet Unterschiede und Gemeinsamkeiten beider Datensichten heraus und verweist auf Konsequenzen für die Modellierung. Weiterhin wird der Prozess des Datenbankentwurfes kurz vorgestellt.

3.1 Charakterisierung verschiedener Datensichten 3.1.1 Operative Datensicht Ausgehend von den Merkmalen operativer Anwendungssysteme (vgl. Kapitel 2.2.1) wird im Folgenden die Sicht auf Daten im operativen Umfeld genauer spezifiziert. Die Aktualität operativer Daten zur Charakterisierung der entscheidungsrelevanten Umwelt wurde bereits herausgearbeitet. Eine operative Datensicht muss deshalb notwendigerweise den aktuellen Zustand des abzubildenden Realitätsausschnittes wiedergeben, der über Zustände darin enthaltener Objekte und deren Beziehungen zueinander charakterisiert wird. Die Zustandsbeschreibung wiederum erfolgt über die Zuweisung von Eigenschaften. Der Begriff des Objektes bezeichnet in diesem Zusammenhang zum einen materielle Objekte (z.B. Gegenstände und Lebewesen) und zum anderen immaterielle Objekte (z.B. Unternehmen oder Konzepte). Ereignisse im Realitätsausschnitt sind bei dieser Sichtweise als Zustandsänderung der modellierten Objekte und Beziehungen zu sehen. Ein Beispiel für ein operatives Datum ist die Frage nach einer bestehenden Milchsperre für eine Milchkuh. Der Milchkuh kann unter anderem die Eigenschaft „Enddatum Milchsperre“ zugewiesen werden. Für eine Kuh wird somit beispielsweise nach jeder Krankheitsbehandlung definiert, ob und bis wann die betreffende Kuh mit einer Milchsperre belegt ist. Vor jedem Melken ist somit zu prüfen, ob aktuell eine Milchsperre vorliegt und die Kuh deshalb nicht in die Ablieferungsmilch gemolken werden darf.

3 Grundlagen der Datenmodellierung

23

Die operative Datensicht stellt demnach originäre, zeitaktuelle und detaillierte Daten bereit. Damit im Zusammenhang steht eine hohe Änderungshäufigkeit in Abhängigkeit der Frequenz von Zustandsänderungen des abgebildeten Realitätsausschnittes, bedingt durch die Aktualität und den Detailliertheitsgrad operativer Daten. 3.1.2

Analytische Datensicht

Im Unterschied zur operativen ist die analytische Sichtweise durch Betrachtung weitestgehend vergangenheitsbezogener, integrierter und aggregierter Daten charakterisiert. Der Fokus liegt nicht auf der detaillierten Zustandbeschreibung einzelner Objekte, sondern auf der Darstellung von Kennzahlausprägungen in Abhängigkeit von aktuellen und historischen Objekteigenschaften (vgl. Kapitel 2.2.2.1). Das Beispiel der Milchsperren aus dem letzten Kapitel (3.1.1.1) wieder aufgreifend, interessiert in einer analytischen Sicht nicht die Frage nach einer aktuellen Milchsperre, sondern beispielsweise nach der durchschnittlichen Anzahl der Tage mit Milchsperre je Tier in Tiergruppen in Abhängigkeit vom Milchleistungsniveau. Derartige Erweiterungen des Betrachtungsraumes erfordern ein Schema der Datenverdichtung zur Darstellung von Abhängigkeiten zwischen Objekten. Die Erhöhung der Aussagefähigkeit von Daten erfolgt mittels Aggregation zu Kennzahlen (HIRSCHAUER, 2001, S. 282) bei gleichzeitiger Reduktion der Komplexität des Betrachtungsraumes. Abhängigkeiten zwischen Informationsobjekten, aus denen Kennzahlausprägungen begründet sind, werden als Auswertepfade betrachtet. Die Pfade stellen Strukturen einer Kennzahlaggregation dar. Die entsprechende Semantik wurde in Kapitel 2.2.2.1 unter den Stichworten Multidimensionalität und OLAP-Konzept beschrieben. Eine Menge vergleichbarer Objekte wird als Objekttyp bezeichnet. Beispielsweise können Tiere als Objekte über einen Objekttyp „Tier“ dargestellt werden. Entsprechend dem bereits eingeführten multidimensionalen Vokabular werden diese auch als Klassifikationsstufen bezeichnet. Ein Klassifikationsschema, das sich aus der Hierarchie von Objekten (multidimensional: Klassifikationshierarchie) vom Tier über die Tiergruppe bis zum Stall ableitet, zeigt Abbildung 8. Informationen über Milchsperren der Einzeltiere lassen sich damit entlang des dargestellten Klassifikationspfades zu Häufigkeiten von Milchsperren in Tiergruppen oder Ställen verdichten (Tabelle 1). Bei der Modellierung entsprechender Datensichten sind deshalb nicht mehr nur Datenstrukturen, sondern gleichzeitig die damit verbundene Auswertesemantik in Form von Klassifikationsschemata abzubilden. Dadurch

3 Grundlagen der Datenmodellierung

24

ergibt sich als weiterer Unterschied zur operativen Datensicht ein klarer Funktionsbezug der analytischen Datensicht, nämlich der einer Analyseunterstützung.

Abbildung 8:

Klassifikationsschema und Klassifikationshierarchie

Tabelle 1: Durchschnittliche Anzahl an Tagen mit Milchsperre Stall 1

Stall 2

Tiergruppe 1

Stall 1

Tiergruppe 2

Tiergruppe 3

Stall 2

Tier 1

Tier 2

Gesamt

Gesamt

Tier 13

Gesamt

Tier 3

Tier 4

Gesamt

Gesamt

Jan 06

2,3

0,0

1,2

1,2

12,0

12,0

0,9

23,0

12,0

12,0

Feb 06

2,1

0,0

1,1

1,1

19,0

19,0

4,5

0,0

2,3

7,8

Mrz 06

0,0

1,1

0,6

0,6

9,0

9,0

0,0

3,0

1,5

4,0

I. Quartal 06

1,5

0,4

0,9

0,9

13,3

13,3

1,8

8,7

5,2

7,9

3.2 Modellierungsprozess Die Modellierung einer Datenbank kann als Prozess mit dem Ziel aufgefasst werden, ausgehend von bestehenden Nutzeranforderungen eine technische Organisation der Datenspeicherung zu entwerfen (Abbildung 9).

Abbildung 9:

Schritte des Datenbankentwurfsprozesses

Nach MAYR et al. (1987, S. 482) sind unter dem Datenbankentwurf „[…] alle Aufgaben und Tätigkeiten zur Ermittlung und Festlegung der für einen Anwendungsfall ‚aktuellen Parameter’ für Art und Struktur der durch ein gegebenes Datenbanksystem zu verwaltenden Informationen […]“ zu verstehen. Entsprechend dabei anfallender Aufgaben kann der Modellierungsprozess in eine Reihe aufeinander aufbauender Entwurfsschritte unterteilt

3 Grundlagen der Datenmodellierung

25

werden, die verschiedene Ebenen der Modellabstraktion darstellen (Abbildung 9). Entgegen der in der Literatur weit verbreiteten Unterscheidung in einen konzeptuellen und einen logischen Entwurf (z.B. ELMASRI und NAVATHE, 2002, S. 571 ff.) wird im Folgenden der logische Entwurf auf Grund seines konzeptuellen Charakters als Teil des konzeptuellen Entwurfes angesehen. Damit wird die von FISCHER (1992, S. 72 f.) vorgenommene Aufspaltung des konzeptuellen Schemas der 3-Schichten-Architektur der ANSI-SPARC in ein semantisches und ein logisches Subschema auf den Modellierungsprozess übertragen. Ziel der Unterteilung des Entwurfsprozesses in einzelne Entwurfsschritte ist eine Verringerung der Komplexität des Modellierungsprozesses, die zum einen die Handhabbarkeit und Nachvollziehbarkeit der Entwurfsergebnisse für den Nutzer erhöht und zum anderen die Abhängigkeit der Modellierungsergebnisse von der konkreten technischen Realisierung (Hardware, Datenbankmanagementsystem, etc.) reduziert. Besonders bei der Erstellung eines Referenzmodells ist darauf zu achten, den Modellierungsprozess transparent zu gestalten und die entsprechenden Modellierungsschritte einzuhalten. Grundsätzlich ist der Modellierungsprozess als gerichtete Folge der Entwurfsschritte zu sehen, das heißt ein Entwurfsschritt hat unabhängig von der folgenden Entwurfsebene zu sein. Praktisch kann jedoch von einem iterativen Verfahren ausgegangen werden, da Änderungen der abgebildeten Umwelt eingearbeitet oder Fehler vorhergehender Entwurfsschritte korrigiert werden müssen (MAYR et al., 1987, S. 482; KEMPER und EICKLER, 2004, S. 30 f.; ELMASRI und NAVATHE, 2002, S. 571 ff.). Entsprechend der Entwurfsschritte gliedert sich die weitere Arbeit: Informationsbedarfsanalyse Erster Schritt des Modellierungsprozesses ist die Informationsbedarfsanalyse. Sie dient der Beantwortung der Frage, welche Nutzeranforderungen das Datenmodell eines Informationssystems zu erfüllen hat (MAYR et al., 1987, S. 484). Abgeleitet aus den Anforderungsspezifikationen liegen als Ergebnis der Informationsbedarfsanalyse Datenobjekte und deren Eigenschaften vor. Semantischer Entwurf Aufgabe des semantischen Entwurfes ist es, die Datenstrukturen der Anforderungsanalyse in ein formales, semantisches Modell zu überführen. Ergebnis ist ein von logischen Datenmodellen unabhängiges Schema der Datenstrukturen des abzubildenden Realitätsausschnittes, das die formalisierte Schnittstelle zum weiteren Modellierungsprozess bildet.

3 Grundlagen der Datenmodellierung

26

Der semantische Datenbankentwurf wird in der Literatur auch als konzeptueller bzw. konzeptioneller Entwurf bezeichnet. Entsprechend der vorangestellten Argumentation in Bezug auf den logischen und konzeptuellen Entwurf wird statt des konzeptuellen Entwurfes der Begriff des semantischen Entwurfes adäquat zur Bezeichnung semantischer Datenmodelle (FISCHER, 1992, S. 72 f.; LASSMANN et al., 2002, S. 236) verwendet. Logischer Entwurf Darauf aufbauend erfolgt die Modellierung der Datenstrukturen mithilfe eines logischen Datenmodells. Hierbei wird das semantische Schema in ein Implementierungsdatenmodell transformiert, wie es letztendlich vom Datenbankmanagementsystem (DBMS) verwendet werden soll. An dieser Stelle unterscheidet man zwischen einem systemunabhängigen Entwurf und einem systemabhängigen Entwurf, bei dem DBMS-spezifische Merkmale enthalten sind. Physischer Entwurf Die Anpassung des logischen, DBMS-abhängigen Entwurfs an Hard- und Software sowie das Datenbanknutzungsverhalten wird als physischer Entwurf bezeichnet. Dabei sind unter anderem spezifische Speicherstrukturen und Zugriffspfade festzulegen.