ETLETL steht für Extrahieren, Transformieren und Laden von Daten aus einem oder mehreren Quellsystemen in einen Zieldatenbestand inkl. Data Cleansing. ETL-Systeme bilden beim Data Warehousing die Datenschnittstelle zwischen operativen / externen Datenbeständen und Data Warehouse / Data Marts. GrundlagenZentrale Aufgabe des Informationsmanagements ist, den Mitgliedern einer Organisation jene Informationen bereitzustellen, die sie zur Wahrnehmung ihrer Aufgaben benötigen. Sie sollen in den Stand versetzt werden, relevante Informationen zu erkennen und adäquat zu interpretieren. Je nach Erkenntniszielen und Informationsbedarfen müssen Daten unterschiedlicher Syntax und Strukturen eruiert, in ihrer Semantik erfaßt, integriert und auf semantisch höhere Ebenen transformiert werden. Unter Business Intelligence (BI) wurden hierfür Konzepte, Methoden und Verfahren entwickelt. Die unterschiedlichen Anforderungen an die Datenhaltung und Informationsintegration bei operativen Systemen und BI-Systemen führten zur Trennung von Transaktionsdatenbanken und Data Warehouse (vgl. [Devlin, Murphy 1988]). Folgende Schichten werden unterschieden:
Bei einer materialisierten Datenextraktion, -integration und -aggregation wird zwischen den Phasen Extraktion, Transformation und Laden unterschieden und der Data Access und Integration Layer durch ETL-Systeme realisiert. Erste Ansätze gehen auf [Stecher, Hellemaa 1986] zurück. In einer föderierten Unternehmensarchitektur (siehe Wikipedia, Stichwort „Federal enterprise architecture“) können ETL-Prozesse auf den Ebenen der „Enterprise Architecture“ in ein Data Warehouse, der „Segment Architecture“ in ein Data Mart und der „Solution Architecture“ in eine lokale Datenhaltung erfolgen. So erlaubt das Add-In PowerPivot von Excel 2010 ETL-Prozesse aus mehreren Quellen. ETL-ProzeßExtraktionAus unterschiedlichen Quelldatenbeständen (relationale Datenbanken, File-Systeme, XML-Dokumente/Datenbank, Textdateien etc.) werden Daten extrahiert und in den Staging Area geladen. Die Extraktion kann auf 3 Arten initiiert werden:
Bei der Extraktion werden die Datenprofile entweder anhand von Metadaten (Metadatenmanagement) über die Quellen oder spezifischer Prüfmethoden (Data Profiling) ermittelt und als ungeeignet erkannte Quelldaten zurückgewiesen. Transformation
Die Phase Transformation dient ebenso der Datenintegration. Das Mapping der Quelldaten auf die Zieldaten bestimmt den Funktionsumfang, z.B.:
Konzepte zur Filterung, Harmonisierung, Aggregation und Anreicherung (Information Enhancement) finden sich in [Kemper, Finger 2010]. Die integrierten und transformierten Daten werden im Operational Data Store (ODS) [Kimbell, Caaserta 2004] abgelegt; auf ihn können ebenso OLTP- (Online Transaction Processing) Anwendungen zugreifen. Laden
Aus dem ODS werden die Daten in das Zielsystem importiert. Der Import soll, da während dessen das Zielsystem blockiert wird, rasch und effizient erfolgen, indem z.B. nur Bereiche mit Änderungen überschrieben werden. Kritische ErfolgsfaktorenQualität und Nutzen eines ETL-Systems werden, abgesehen von aufgrund Service Level Agreements (ITIL) einzuhaltender Performance, dadurch bestimmt, inwieweit sich unterschiedlich strukturierte, semantisch differierende Daten integrieren lassen. [Roth et al. 2002] schlagen die 3-Schichten-Architektur in Abbildung 1 vor. Foundation Tier umfaßt die Arbeitsspeicher sowie die Extraktions- und Konversionsfunktionen eines high-performance Datenbankmanagementsystems. Integration Services bilden die aus den betrieblichen Anforderungen abgeleiteten Datenselektions-, Transformations- und Integrationsfunktionen, auf welche die Standardapplikationen und Anfragesprachen (Structured Query Language) des Application Interface zugreifen. Abbildung 1: A three-tier information integration architecture [Roth et al. 2002, S. 570] LiteraturDevlin, B.; Murphy, P.T.: An Architecture for a Business and Information System. IBM Systems Journal 27(1988)1, S. 60-80. Kemper, H.-G.; Finger, R.: Transformation operativer Daten - Konzeptionelle Überlegungen zur Filterung, Harmonisierung, Aggregation und Anreicherung im Data Warehouse. In: In: Chamoni, P.; Gluchowski, P. (Hrsg.): Analytische Informationssysteme, 4. Aufl., Berlin/Heidelberg 2010, S. 159-174. Kimball, R.; Caserta, J.: The Data Warehouse ETL Toolkit. John Wiley and Sons, 2004. Roth, M.A.; Wolfson, D.C.; Kleewein, J.C.; Belin, C.J.: Information Integration: A new generation of information technology. IBM Systems Journal 41(2002)4, S. 563-577. Stecher, P.; Hellemaa, P.: An “intelligent” extraction and aggregation tool for company databases. Decision Support Systems 2(1986)2, S. 145-158. Wikipedia, Stichwort “Federal enterprise architecture”, Version vom 8.08.2012, 14:00, abrufbar unter http://en.wikipedia.org/wiki/Federal_enterprise_architecture. AutorProf. Dr. Wilhelm Hummeltenberg, Universität Hamburg, Fakultät Wirtschafts- und Sozialwissenschaften, Department Wirtschaftswissenschaften, Max-Brauer-Allee 60, 22765 Hamburg |