Data Warehouse
Die MDIS Wissensdatenbank
Inhaltsverzeichnis
Was ist Data Warehouse?
Der Begriff Data Warehouse – teilweise mit DW oder DWH abgekürzt – verweist im engeren Sinne auf eine zentrale Datenbank. In dieser sind verschiedenartige Daten aus oft unterschiedlichen Bereichen enthalten. Als Erfinder des Konzeptes des Data Warehouse gilt gemeinhin der Informatiker William Harvey Inmon, der die Idee bereits in den 1970ern entwarf. Besonders hervorzuheben sind auch die Wissenschaftler Barry Devlin und Paul Murphy mit ihrem in den 80er Jahren entwickelten Konzept des „business data warehouse“. Speziell auf die Bedürfnisse von Unternehmen abgestimmtes Datenlager werden manchmal auch als „enterprise data warehouse“ bezeichnet. Eine allgemeingültige, trennscharfe Unterscheidung zum klassischen Data Warehouse existiert jedoch häufig nicht.
Ist ein Data Warehouse nur eine Datenbank?
Im weiteren Sinne ist ein Data Warehouse mehr als nur eine reine Datenbank. Es lässt sich vielmehr als ein komplexes System interpretieren, dessen Kern lediglich eine Datenbank – oder bei höherer Komplexität eine Ansammlung von Datenbanken – bildet bzw. bilden. Gekennzeichnet ist dieses System vor allem durch folgende Eigenschaften
- Datenintegration
- Persistenz
- Subjektorientierung
- Zeitvarianz
Datenintegration
Ein Data Warehouse enthält Daten, die in der Regel aus unterschiedlichen Quellen und Systemen stammen und deshalb auch oft verschiedene Formate haben. Damit diese Datensammlung ihre Funktionen erfüllen kann, ist es notwendig, die Daten zu integrieren – etwa durch die Beseitigung von Inkonsistenzen oder die Durchführung von Normalisierungen bei Maßeinheiten.
Persistenz
Nutzer können die in einem Data Warehouse enthaltenen Daten verwenden, aber nicht modifizieren. Charakteristisch ist eine persistente Speicherung aller im Datenlager enthaltenen Informationen.
Subjektorientierung
Bezüglich der erhobenen Daten stehen das Unternehmen und die mit diesem in Zusammenhang stehenden Subjekte im Zentrum. Das müssen nicht nur betriebsinterne Faktoren wie Gewinne oder Umsätze sein. Die Subjektorientierung kann etwa auch Kunden und Lieferanten durch ihren Bezug zum Unternehmen einschließen.
Zeitvarianz
Damit sich mit einem Data Warehouse auch längerfristige Zusammenhänge aufdecken und Prognosen erstellen lassen, darf dieses nicht nur tagesaktuelle Informationen enthalten. Vielmehr ist auch die Integration von historischen Daten erforderlich. Damit unterscheidet es sich von klassischen operativen Systemen und aggregiert deren Daten oft über mehrere Jahre hinweg.
Wieso benötigen Unternehmen ein Data Warehouse?
Betriebe, die sich dafür entscheiden, ein Data Warehouse einzusetzen, können dadurch vielfältige Vorteile realisieren. Entscheidende Voraussetzung für die Nutzung ist aber ein hinreichender Reifegrad bei der Digitalisierung des Unternehmens. Erst wenn dich zentrale Prozesse lückenlos durch digitale Daten abbilden lassen, können Unternehmen auch von wichtigen Vorzügen bei der Verwendung eines Data Warehouse profitieren. Zu diesen zählen:
- Aufdeckung von Zusammenhängen
- Erstellung von Prognosen
- Überlegenes Reporting
- Umfassender Überblick
- Unterstützung von Entscheidungen
Aufdeckung von Zusammenhängen
Die Konsolidierung von Daten aus vielen Quellen, wie sie für ein Data Warehouse typisch ist, lässt sich nutzen, um bislang verdeckte Zusammenhänge zu ermitteln. Durch diese erworbene Wissen können Unternehmen Wettbewerbsvorteile generieren. Als Technik findet hier vor allem das Data Mining (DM) Anwendung.
Erstellung von Prognosen
Ein Data Warehouse enthält in der Regel Daten aus mehreren Zeitperioden. Auf Grundlage dieser historischen Daten lassen sich Prognosen für die Zukunft ableiten. Eine wichtige Rolle spielt hier das Online Analytical Processing (OLAP) als hypothesengestützte Analysetechnik.
Überlegenes Reporting
Mit einem Data Warehouse als Grundlage lässt sich die Qualität von Berichten verbessern. Durch die größere Datenbasis in Verbindung mit leistungsstarker Hard- und Software lassen sich aussagekräftigere Auswertungen und Statistiken sogar in oft kürzerer Zeit als zuvor erstellen.
Umfassender Überblick
Daten aus einer einzigen Quelle ermöglichen oft nur eine begrenzte Perspektive. Durch das Zusammenfügen von Informationen aus mehreren Bereichen, wie es bei einem Data Warehouse typisch ist, erhalten Nutzer hingegen einen breiteren und umfassenderen Überblick bezüglich der Betriebs und unternehmerischer Prozesse.
Unterstützung von Entscheidungen
Ein Data Warehouse kann die Geschäftsführung und andere betriebliche Entscheidungsinstanzen dabei unterstützen, bessere Entscheidungen zu treffen. Hierbei dienen die Daten, bzw. die Aufbereitung der Daten anhand von Analysen, als Grundlage für Software aus dem Bereich Business Intelligence, die eine systematische Analyse und anschauliche Visualisierung ermöglicht.
Wie ist ein Data Warehouse aufgebaut?
Der Aufbau eines Data Warehouse ist nicht nur über einen klassischen Bottom-up- oder Top-down-Ansatz, sondern auch durch ein hybrides Design möglich. Bezüglich der genauen Ausgestaltung dieser Ansätze existieren zahlreiche Möglichkeiten. In der Regel lassen sich aber sechs verschieden Schichten unterscheiden, aus denen ein klassisches Data Warehouse besteht:
- 1. Datenquellen
- 2. Datenerfassung
- 3. Datenaufbereitung
- 4. Datenspeicherung
- 5. Data-Marts
- 6. Datenbereitstellung
1. Datenquellen
Die Daten, die das Data Warehouse bilden sollen, müssen von irgendwoher herkommen. Wegen der Subjektorientierung stammen diese fast ausschließlich aus unternehmensinternen Datenquellen. Dafür kommt – je nach spezifischem Zweck des Datenlagers – vor allem Software aus den Bereichen Customer Relationship Management (CRM) oder Enterprise Resource Planning (ERP) infrage. Mögliche externe Quellen dürften vor allem internetbezogen sein. Hier könnten Services wie Facebook Ads oder Google Analytics eine gewisse Bedeutung zukommen.
2. Datenerfassung
Damit die Daten Teil des Data Warehouse werden können, ist es notwendig, sie zunächst zu erfassen. Während in den ersten Jahren, in denen die Technologie in Betrieben Einzug hielt, eine zumindest teilweise händische Eingabe bzw. das Einscannen keine Seltenheit war, liegen heute die Daten in der Regel bereits vollständig digital vor. Das erleichtert und beschleunigt deren Erfassung.
3. Datenaufbereitung
Auch wenn Daten bereits digital vorliegen, lassen diese sich unter Umständen dennoch nicht direkt zusammen in eine Datenbank integrieren. Ursache können beispielsweise unterschiedliche Formate oder Inkonsistenzen sein. Diese Probleme gilt es durch eine Aufbereitung der Daten zu lösen. Die Schritte der Datenerfassung und -aufbereitung fasst die Fachliteratur teilweise auch unter dem Überbegriff „Data Stagging“ als eine einzige Schicht zusammen.
4. Datenspeicherung
Damit die integrierten Daten dauerhaft zur Verfügung stehen, ist eine persistente Speicherung erforderlich. Dabei gilt es, die Menge der Daten sowie der zu erwartenden Zugriffe zu berücksichtigen. Auf Basis der Anforderungen und Möglichkeiten lässt sich auch das optimale Format von Daten bzw. Datenbanken ableiten. So kann beispielsweise sinnvoll sein, sehr selten benötigte Daten platzsparend zu speichern und nur bei Bedarf zu extrahieren.
5. Data-Marts
Data Warehouses können sehr komplex und vielschichtig sein und Daten aus einer Vielzahl von Quellen enthalten. Besonders in solchen Fällen kann die Bildung von sogenannten Data-Marts sinnvoll sein. Dabei handelt es sich um Teilbestände eines Data Warehouse, die sich auf spezielle Ziele, bestimmte Nutzergruppen oder einzelne Anwendungsgebiete zuschneiden lassen. So können Unternehmen kostspielige Hardware einsparen, komplexe Berechnungen beschleunigen und müssen sensible Daten nicht zwangsläufig allen Nutzern des Data Warehouse zugänglich machen.
6. Datenbereitstellung
Auf der obersten Schicht eine Data Warehouse erfolgt die Bereitstellung für Anwender. Hierfür kommen Schnittstellen zum Einsatz, die teilweise auf den jeweiligen Zweck – also etwa Analyse, Business Intelligence oder Reporting – zugeschnitten sind. Bei der Bereitstellung der Daten im Einzelfall ist vom Direktzugriff für alle Anwender über das Klassifizieren einzelner Bereiche bis zu einer umfassenden Zugangskontrolle – inklusive Zwischenformen – alles möglich.