Die Trendtechnik im Bereich Data Warehouse: Das Data Vault Modell

DATA WAREHOUSE IM UMFELD VON BIG DATA UND REVISIONSSICHERHEIT

DATA VAULT MODELL

data vault modell

Data Vault – Kosten, Daten und Zeit im Griff

Wir haben schon immer nach optimalen Lösungen gesucht, um Informationen intelligent und platzsparend abzulegen. Gleichzeitig wollen wir sie aber auch schnell wieder verfügbar machen. Das hat jahrelang mehr oder weniger gut funktioniert. Seit geraumer Zeit kommen aber auf die IT-Abteilungen neue Herausforderungen zu: es müssen quasi per sofort mehr und flexibler Informationen bereitgestellt werden. Außerdem kommen immer mehr Daten mit teils sehr unterschiedlichen Granularitäten zusammen, die in ein System zu integrieren sind. Die eingesetzten Technologien sind zumeist in die Jahre gekommen oder erlauben keine einfache Anpassung des Datenmodells. Dies liegt häufig daran, dass sie nach der klassischen Lehre in der 3. Normalform bestehen, oder in einem Star Schema redundant abgelegt sind. Beide Techniken haben Vor- und Nachteile, sind jedoch dann anfällig, wenn sie kostengünstige Modellanpassungen erlauben oder zeitabhängige Aussagen abdecken sollen. Hier kann der Data Vault Ansatz eine Lösung sein.

data vault modell

DAS BESTE AUS BEIDEN WELTEN

Bereits Mitte der 1990er Jahre beschäftigten sich eine ganze Reihe von Datenbankspezialisten mit der Data Vault Idee. So auch der Amerikaner Daniel Linstedt. Er war ein Pionier im Bereich der Datenbanken sowie der Prozess-Optimierung von ETL-Strecken (und ist es auch heute noch!). Seine Ideen konnte er in einigen Firmen und auch bei der amerikanischen Regierung umsetzen. Die Erfahrungen, die er dabei gemacht hat, führten zu dem Data Vault Modell: ein Hybrid aus einem klassischem 3NF- und einem Star Schema-Modell. Es nutzt jedoch jeweils nur die Vorteile der beiden Modelle und fügt darüber hinaus noch weitere hinzu. So lassen sich beispielsweise neue Informationen auf einfache Weise in den ETL-Prozess einbinden ohne das Datenmodell zu verbiegen oder in zahlreichen Anpassungen die Prozessketten an die neuen Gegebenheiten anzupassen. Eine Win-Win-Situation für die IT Zeitkonten und das Fachbereichs-Budget.

Im Kern besteht ein Data Vault Modell aus drei Objekten:

HUB

Dieser Objekttyp beinhaltet den fachlichen Schlüssel, also beispielsweise eine Kunden- oder Artikelnummer. Dieser fachliche Schlüssel wird mit einem technischen Schlüssel sowie einer Zeitstempel- und einer Datenquellen-Spalte ergänzt. So weiß man schon einmal, wann welcher Schlüssel zu welchem Zeitpunkt aus welcher Quelle kam. Der technische Schlüssel besteht in der Regel aus einem Hashkey, der aus den fachlichen Schlüsseln gebildet wird. In vielen Datenbanken sind entsprechende Funktionen bereits vorhanden und können auf einfache Weise verwendet werden.

LINK

In diesem Objekttyp werden alle Beziehungen zwischen den HUBs gespeichert. Was in der 3. Normalform der Fremdschlüssel ist, wird hier in ein eigenes Datenbankobjekt ausgelagert. Der Vorteil: Bei Veränderung der Zuordnung (beispielsweise des Vertreters bei einem Kunden) wird über die auch in diesem Objekttyp vorhandene Zeitstempel- und Datenquellen-Spalte ein Nachvollziehbarkeit protokolliert. Eine Protokollierung per Definition so zusagen.

SATELLITE

Hier werden Informationen zu einem HUB oder einem LINK abgelegt, also beispielsweise den Namen des Kunden oder das Datum des letzten Kundenbesuchs des Vertreters. Durchaus aber auch, welchen Preis ein Artikel in einem Auftrag hat. Da auch dieser Objekttyp über eine Zeitstempel- und eine Datenquelle-Spalte verfügt, sind gleichartige Informationen aber aus unterschiedlichen Datenquellen nachvollzieh- und auch abgrenzbar.  Mit Hilfe dieser Objekttypen-Verbindungen lassen sich also sowohl Stamm- als auch Bewegungsdaten abbilden. So bekommen Stammdaten eine Historie und Bewegungsdaten eine eindeutige Struktur.

Einfach rein, aber schwieriger wieder raus

Das Prinzip ist simpel, es braucht aber Hilfsmittel, um den Daten Dschungel am Ende auch wieder zusammen zu bringen.

Was für die IT, beziehungsweise den ETL-Prozess der dahinter steht, eine tolle Sache ist, löst auf Anwenderseite eher Stirnrunzeln aus. Bei der Aufteilung in die drei Objekttypen können schnell eine Vielzahl an Tabellen und Beziehungen entstehen, die auch die Datenbank affinen Fachbereichskollegen schnell an ihre Grenzen stoßen lassen. Wie schon Konfuzius sagte: „Wer bei seinen Handlungen immer auf Vorteil bedacht ist, wird sich viele Feinde machen.“ Nun sind wir sicher weit ab von dem Verlangen nach Ärger, darum gibt es einige weiter Objekte, die auch dem Kollegen des Fachbereichs das Leben wieder einfacher machen. Wir erweitern den Data Vault um einige Hilfsobjekte und erlangen so einen Business Vault, also ein Datenmodell, mit dem auch der Fachbereich etwas anfangen kann.

Point-in-Time Table (PIT)

Um zu jedem Zeitpunkt zu wissen, wann welcher technische oder fachliche Schlüssel der Satelliten-Informationen zu einem HUB zu welchem Zeitpunkt gültig war, kann eine Point-in-Time-Table verwendet werden.
Die PITs sind eine Hilfe, um in einem komplexen Datenmodell vor allem die Performance zu steigern. Sie beinhaltet alle Timestamps der Satelliten zu allen Zeitpunkten der zu einem Hub gespeicherten Informationen. Somit sind sowohl Slowly Changing Dimensions vom Typ1 als auch Typ2 abbildbar.

Bridges

Brückentabellen (Bridges) dienen wie die PITs dazu, Abfragen an die Daten sowie das System selbst im Hinblick auf den Durchsatz zu verbessern. Im Gegensatz zu einer PIT, die sich einem einzelnen HUB widmet, sind Bridges gedacht, um mehrere Schlüssel aus HUBS und LINKS in einer Tabelle zu bündeln. So ist ein einfacherer Zugriff auf übergreifende Informationen möglich.
Bridges sollten eher keine fachlichen Schlüssel der HUBS enthalten, da es sonst zu einer höheren Anzahl an Sätzen und somit zu Performanceverlusten führt.

Business Hubs/Derived Tables

Dieser Objekttyp ist dann sinnvoll einzusetzen, wenn Informationen in aggregierter Form oder aus unterschiedlichen Datenquellen zusammengeführt werden sollen. Wie schon bei Pits und Bridges, steht auch hier der Gewinn an Performance im Vordergrund. Abzuwägen bei der Verwendung dieser Form ist zwischen dem Zeitgewinn und der Notwendigkeit des Aufbaus. Manchmal ist weniger mehr.

Ihr Ansprechpartner

Uli Data Vault Modell

Uli Drexelius

Ich beschäftige mich damit, zu verstehen, was der Kunde an Hilfe benötigt und wie ich aus seinen Daten, meinem Wissen und den technischen Möglichkeiten für ihn den größten Vorteil bilden kann. Das ist nicht immer einfach und benötigt höchste Konzentration. Abschalten kann ich bei meinen täglichen Spaziergängen mit den Hunden und natürlich beim Sport. Laufen, so viel und so weit wie nötig (Stressabbau pur) sowie 3 mal pro Woche Body Power Workouts.

ULI DREXELIUS

Principal Consultant
E-Mail: uli.drexelius@mip.de

KONTAKT

Wir zeigen Ihnen Ihre Entwicklungsmöglichkeiten auf.

Presseartikel

Lesen Sie hier den Presseartikel!