Wo die wilden Daten leben

Data Marts: Durch die Automatisierung von Design, Entwicklung, Bereitstellung und Betrieb von Data Marts können Unternehmen schnell Business Intelligence-Lösungen bereitstellen, ohne Qualität, Leistung, Agilität oder Governance einzubüssen
Data Marts: Durch die Automatisierung von Design, Entwicklung, Bereitstellung und Betrieb von Data Marts können Unternehmen schnell Business Intelligence-Lösungen bereitstellen, ohne Qualität, Leistung, Agilität oder Governance einzubüssen

Big Data oder Data Analytics sind einige der grössten Herausforderungen für die IT unserer Zeit. Viele Unternehmen befinden sich inmitten einer Umstellung auf eine datengesteuerte Ausrichtung ihrer Organisation und sind auf der Suche nach der dazu passenden Dateninfrastruktur. Verschiedene Ansätze versprechen Vorteile – doch vielerorts hakt es schon beim Verstehen der Begrifflichkeit. Wer weiss schon im Detail, wo der Unterschied zwischen Data Lake, Data Vault und Data Mart liegt? Oder wie genau ein Data Lake und das Data Warehouse zusammenarbeiten?

Gastbeitrag von Rob Mellor, Vice President und General Manager Emea, Wherescape

Generell versuchen alle Ansätze für die Dateninfrastruktur Wege zu finden, effektiv Erkenntnisse aus Daten zu generieren. Um den besten Ansatz für ein Unternehmen in Bezug auf die Dateninfrastruktur zu finden, lohnt es sich, die Optionen und ihre Vorteile genau zu kennen. Was also sind Data Lake, Data Vault, Data Mart und Data Warehouses und wofür werden Sie verwendet?

Data Lake – Eine grosse Sammlung von Rohdaten
Data Lakes sind riesige Datensammlungen, die von nicht organisierten oder verarbeiteten Rohdaten bis hin zu unterschiedlichen Ebenen von kurierten Datensätzen reichen. Einer der Vorteile, Daten in einem Data Lake zu speichern, besteht darin, dass unterschiedliche Nutzer auf die für sie geeigneten Daten zugreifen können. Dies macht einen Data Lake perfekt für einige der neueren Anwendungen von Daten wie Data Science, Künstliche Intelligenz und Machine Learning.

Data Lakes bieten eine sehr gute Möglichkeit, Massen von Rohdaten auf skalierbaren Speicherlösungen abzulegen, ohne den Versuch zu unternehmen, traditionelles ETL (Extraktion/Transformation/Laden) oder ELT (Extraktion/Laden/Transformation) zu verwenden, die bei diesem Volumen teuer sein können. Für traditionellere Analysen strukturierter Daten kann ein Data Lake jedoch auch etwas unhandlich und verwirrend sein, weshalb viele Unternehmen hierfür andere Lösungen nutzen. In der Hierarchie einer komplexen, mehrschichtigen Dateninfrastruktur werden Data Lakes eher als erste Ebene und Grundlage für einen strukturierteren Ansatz der Datenverarbeitung genutzt, etwa beim Data-Warehouse.

Das Data Warehouse: benutzerfreundlicher Zugang zu Daten
Das Data Warehouse dient als Quelle für Ableitungen aus den Rohdaten und ist für viele Unternehmen heute ein Kernelement ihrer Datenstrategie. Im Gegensatz zum Data Lake, der einfach nur ein grosser Pool an Daten ist, ist ein Data Warehouse, oder ein Enterprise Data Warehouse, wie es manchmal genannt wird, ein kurierter Datenspeicher für aktuelle und historische Daten. Ein Data Warehouse ermöglicht Anwendern den Zugang zu den richtigen Informationen in einem benutzerfreundlichen Format, wie etwa monatlichen Reports. Wenn Daten in eine Data Warehouse-Umgebung gelangen, werden sie bereinigt, transformiert, kategorisiert und gekennzeichnet, je nachdem wie die Nutzer dies benötigen. Dies erleichtert die Verwaltung, Nutzung und Überwachung der Unternehmensdaten. Auch die Automatisierung, ein heute wichtiger Teil der Dateninfrastruktur, kommt auf der Ebene des Data Warehouses ins Spiel.

Die Automatisierung von Datenprozessen ist für die meisten Unternehmen heute eine wichtige Anforderung an das Data Warehouse, da das Volumen und die Geschwindigkeit, mit der Daten generiert werden, die manuelle Verarbeitung in vielen Umgebungen praktisch unmöglich macht. Auch aus Sicht der Compliance bietet die Automatisierung der Datenprozesse in einem Data Warehouse viele Vorteile, genauso wie beim "Time to Value", also der Zeit von der Entstehung der Daten bis zu deren wertschöpfenden Nutzung.

Data Mart: eine kleinere Teilmenge eines Data Warehouses
Ein Data Mart ist eine spezifische Teilmenge eines Data Warehouse, die oft für kuratierte Daten zu einem bestimmten Themenbereich verwendet wird und die in kurzer Zeit leicht zugänglich sein müssen. Aufgrund seiner geringeren Grösse und Komplexität ist ein Data Mart oft schneller und kostengünstiger zu bauen als ein komplettes Data Warehouse. Durch diese limitierte Grösse kann ein Data Mart aber keine Daten aus dem gesamten Unternehmen erstellen und verwalten.

Data Vault: ein weiterentwickelter Ansatz für das Data Warehouse
Ein Data Vault ist ein spezieller Ansatz des Data Warehouses, der einige Herausforderungen des Data Warehouse löst, die bei der Verarbeitung von Daten innerhalb des Data Warehouses entstehen. Der Unterschied eines Data Vaults zu einem Data Warehouse besteht darin, dass Data Vaults bei der Verarbeitung keine Bewertung vornehmen, welche Daten "wertvoll" sind und welche nicht. In einem Data Warehouse wird eine solche Entscheidung typischerweise bei der Datenaufnahme getroffen. Dies bietet mehr Flexibilität, was bei der Verarbeitung von Daten aus sich ändernden Datenquellen hilft. Ein Data Vault kann somit einen ungefilterten Blick auf die Fakten liefern.

Für Unternehmen mit grossen, wachsenden und vielen unterschiedlichen Datensätzen kann der Ansatz eines Data Vaults für ihr Data Warehouse dabei helfen, das Ungetüm grosser Datenmengen zu einer verwaltbaren Lösung zu zähmen. Die Einrichtung eines Data Vaults kann jedoch sehr komplex und zeitaufwändig sein. Hier setzt die Automatisierung von Data Vaults an, die sich automatisch um einen Grossteil der Dateninfrastruktur eines Unternehmens kümmern kann.

Um den strengen Anforderungen der Methodik zu entsprechen, ist die Automatisierung von Data Vaults eine wichtige Komponente. Damit die Automatisierung des Data Vaults einen hohen Prozentsatz der Dateninfrastruktur eines Unternehmens abdecken kann, werden heutzutage die standardisierten Vorlagen und die hohen Anforderungen der Data Vault-2.0-Methodik genutzt. Diese Methodik stellt den Kern eines Data Vaults dar, der zuverlässige und konsistente Metadaten verwendet, um sicherzustellen, dass alle Informationen, einschliesslich personenbezogener Daten jederzeit überwacht werden können.

Zusammenfassung
Es gibt zahlreiche Ansätze für eine Dateninfrastruktur, die Unternehmen wählen können, um ihre Daten nicht nur sicher, sondern auch gewinnbringend zu speichern. In modernen Unternehmen kommt es heute vornehmlich darauf an, dass alles den schärferen Richtlinien entspricht und das Unternehmen gleichzeitig schnell Mehrwert aus den Daten schöpfen kann. Ein umfassendes Verständnis dafür, wie verschiedene Ansätze zusammenpassen, kann für IT-Manager und Führungskräfte von unschätzbarem Wert sein.

Die Data-Warehouse-Automatisierung hilft IT-Teams, Data Warehouse -Automation-Software kombiniert die Verwendung von Metadaten, Data Warehouse Methoden, Mustererkennung und mehr, um Entwicklern zu helfen, Data Warehouse Designs und Codierung durch den Einsatz von Data Warehouse-Design-Tools und zeitsparenden Entwicklungsassistenten und -vorlagen automatisch zu generieren
Die Data-Warehouse-Automatisierung hilft IT-Teams, Data Warehouse -Automation-Software kombiniert die Verwendung von Metadaten, Data Warehouse Methoden, Mustererkennung und mehr, um Entwicklern zu helfen, Data Warehouse Designs und Codierung durch den Einsatz von Data Warehouse-Design-Tools und zeitsparenden Entwicklungsassistenten und -vorlagen automatisch zu generieren
Die Methode des Data Vault 2.0 Modellings ist ein hybrider Ansatz, der die besten Aspekte des Designs von Third Normal Form (3NF) und Sternschema kombiniert.
Die Methode des Data Vault 2.0 Modellings ist ein hybrider Ansatz, der die besten Aspekte des Designs von Third Normal Form (3NF) und Sternschema kombiniert.