Von ETL zu ELT in BigData-Systemen

Data Warehousing und ETL1

Der klassische Data Warehouse (DWH)-Prozess der vorstrukturierten Datenanalyse ist als ETL bekannt: Extract, Transform, Load.

Daten werden aus verschiedenen Systemen extrahiert, ihre unterschiedlichen Formate in ein einheitliches (multidimensionales) Schema transformiert, und schließlich in das zentrale Data Warehouse System geladen.

Dieser Vorgang ist batch-orientiert, skaliert relativ schlecht und läuft meistens über Nacht. Das Input-Schema muss fest definiert sein. Um sowohl Zeit als auch Kosten nicht überzustrapazieren, werden oft nur Untermengen der Eingangsdaten gewählt. Das Output-Schema ist dabei stark an den Bedürfnissen einzelner Stakeholder orientiert. Man orientiert sich also eher an einzelnen Abteilungen statt der ursprünglichen Idee der Gesamtunternehmnssicht.

Aus diesen vorstrukturierten Daten können dann leicht Reports generiert werden, und interaktive Tools erlauben es, in die Daten hinein- oder herauszuzoomen (um sich Daten im Detail anzuschauen oder Zusammenhänge aufzudecken). Diese Anbindung ist gut skalierbar und die größte Stärke der DWHs.

ELT im Datensee

Im noch relativ jungen Umfeld von BigData lässt sich beobachten, dass sich die Reihenfolge verschiebt zu Extract, Load, Transform.

Daten werden weiterhin aus verschiedenen Systemen extrahiert, jedoch in ihrer jeweiligen Rohform (von un-, über semi- bis strukturiert) in das BigData-System geladen. Besonders bildlich ist hier der Begriff des Datensees (oder Data Lake). Auf diesen Rohdaten werden nun Transformationen (zumeist Aggregationen) ausgeführt, deren Ergebnisse weiterhin im gleichen System verbleiben.

ELT-Architektur

Die Transformationen laufen grundsätzlich auch im Batchbetrieb ab, aber mit erhöhter (weil skalierbarer) Geschwindigkeit gegenüber Data Warehouses. Je nach System kann auch auf günstigere Hardware und Open Source Software zurückgegriffen werden. Es entfällt aber auch die Schwergewichtigkeit des DWH-Prozesses, denn es können jederzeit ohne großen Aufwand neue Auswertungen hinzugefügt werden. Auch Ad-Hoc-Abfragen sind möglich, und so feiert SQL eine Renaissance als bewährte Abfragesprache2.

Aus den Transformationen entstehen neue Informationen, die eine bestimmte Fragestellung beantworten und somit strukturiert sind. Sie werden dann in Dashboards, Reports, oder in interaktiven Tools dargestellt und analysiert.

Von diesem Ansatz ist der Weg nicht mehr weit zu maschinellem Lernen (Machine Learning). Methoden wie Clustering können beispielsweise abweichende Muster im laufenden Betrieb erkennen, was es beispielsweise erlaubt, Betrugsversuche abzufangen oder bald ausfallende Maschinen kontrolliert auszutauschen. Hierbei geht der Trend verstärkt zu Velocity (Geschwindigkeit), dem dritten BigData-V neben Volume und Variety. Dies wird ermöglicht durch In-Memory-Systeme, die über große Datenmengen schnell iterieren können.

Kritik

Kritiker werfen diesen Ansätzen vor, so viele Daten wie möglich zu sammeln und in den Datensee zu kippen, stets in der Hoffnung, dass nur der richtige Algorithmus gefunden werden muss, um aus dem Datenwust eine gewinnbringende Erkenntnis zu gewinnen. Auch hier sollte man sich vorher genau überlegen, was man alles im System sammeln und verarbeiten möchte und welche Informationen für das eigene Produkt benötigt werden.

In Deutschland kann das auch im Konflikt zu den Prinzipien von Datenschutz und Datensparsamkeit stehen.

Doch vielen Firmen fehlt im Moment noch die Fantasie, die eigenen Daten gewinnbringend auszuwerten. Auch mit Rücksicht auf europäische Verordnungen ließen sich hier Vorteile gegenüber der Konkurrenz erschließen, um den Kunden besseren Service zu liefern oder Kosten zu senken3.

Fazit

Durch das Verschieben des gekapselten ETL-Prozesses zum ELT innerhalb BigData-Infrastruktur können Unternehmen flexibler und kostengünstiger Erkenntnisse aus ihren Daten gewinnen. Immer mehr DWH-Hersteller bieten nun auch Integrationen zu BigData-Systemen an, so dass ein Investitionsschutz gewährleistet ist.

  1. Dieser Post wurde inspiriert durch einen Vortag von Kai Wähner bei der NoSQL-User Group Köln und reflektiert meine Erfahrungen sowohl mit ETL als auch BigData-Infrastrukturen.

  2. Apache Spark bietet zum Beispiel die Möglichkeit, JSON-Daten per SQL zu laden und dann weiterzuverarbeiten.

  3. Wenn Sie in Ihrem Unternehmen eine BigData-Infrastruktur aufbauen möchten, nehmen Sie gerne Kontakt mit mir auf.

Diesen Post teilen

RSS-Feed

Neue Posts direkt im Newsreader.

RSS-Feed abonnieren

Newsletter

Neue Posts sowie Neuigkeiten rund um Big Data, Spark, und Scala. Maximal eine E-Mail im Monat.

Kommentare