90678

Data MiningData WarehouseExtraction Transformation Loading (ETL)Online Analytical Processing (OLAP)Über Infomotion

22.04.2011 | 07:11 Uhr | Mark Zimmermann

Beim Data Mining werden verschiedene Methoden wie beispielsweise Cluster-Analysen angewendet, um große Datenbestände, die im Data Warehouse gespeichert sind, automatisiert nach relevanten Informationen zu durchforsten. Ziel ist es, nicht offensichtlich erkennbare Abhängigkeiten zu entdecken.

Das klassische Beispiel ist die amerikanische Supermarkt-Kette, die mittels Data Mining einen Zusammenhang zwischen dem Verkauf von Babywindeln und Bier entdeckt hat: Offensichtlich sollten viele Familienväter samstags neue Windeln kaufen und haben sich, da direkt in der Nähe das Regal mit dem Bier war, gleich mit den notwendigen Bestandteilen für ein Barbecue eingedeckt.

Mit der Open Source Software RapidMiner lassen sich die Verfahren des Data Mining nachbilden und ausprobieren. Ausführliche Tutorials helfen dabei, die richtigen Methoden anzuwenden.

Ein Data Warehouse ist ein zentrales Datenlager von Informationen zur Entscheidungsunterstützung des Managements. Alle relevanten Geschäftsdaten werden darin eingespielt, strukturiert und harmonisiert, so dass für die weitere Analyse eine einheitliche und breite Grundlage zur Verfügung steht. Die verschiedenen Anwendergruppen haben schnellen und unkomplizierten Zugriff auf die Informationen.

Ein Data Warehouse muss nicht zwingend eine teure Datenbank-Lösung von Microsoft oder Oracle sein. Gerade für kleine und mittlere Firmen reicht auch die quelloffene Datenbank MySQL als Datenspeicher.

Der erste Schritt bei der Analyse von Daten besteht darin, die Daten zunächst aus den verschiedenen IT-Systemen zu extrahieren und in einem Transformationsprozess für das Laden in das zentrale Data Warehouse vorzubereiten. Damit stehen die gesammelten Daten für das "Data Mining" zur Verfügung, wo sie dann in Relation gesetzt werden.

Mit der Open Source Lösung Talend Open Studio lassen sich eine Vielzahl von verschiedenen Datenformaten aggregieren und in ein Data Warehouse transformieren. Dieses kann sich durchaus auch in einer MySQL-Datenbank befinden.

Eine Ergänzung des Data-Warehouse-Konzepts zur analytischen Datenauswertung, wobei es bei den beiden Konzepten zu inhaltlichen Überschneidungen kommen kann. OLAP zählt zu den "hypothesengestützten Analysemethoden": Der Anwender muss vor der eigentlichen Analyse wissen, welche Anfragen er an das OLAP-System stellen möchte. Seine Hypothese wird dann durch das Analyseergebnis bestätigt oder abgelehnt.

Mit der Open Source Lösung Palo der Jedox AG kann der Anwender einen interaktiven OLAP-Würfel erstellen, mit dem sich multi-dimensionale Daten visualisieren und auswerten lassen. (mha/TecChannel)

Dieser Artikel basiert auf einem Beitrag der Infomotion GmbH für unsere Schwesterzeitschrift TecChannel.de .

Die Infomotion GmbH mit Hauptsitz in Frankfurt am Main ist ein junges IT-Beratungsunternehmen für Business-Intelligence-Lösungen. Infomotion wurde 2004 gegründet und hat weitere Niederlassungen in München, Köln und Stuttgart. Rund 60 Berater und Entwickler planen, konzipieren und realisieren Lösungen im Bereich Business Intelligence, Corporate Performance Management, Data Warehouse und Reporting. Kunden sind unter anderem. Kapitalanlage-Gesellschaften wie DekaBank, DIT und Union Investment, Retail-Banken wie Dresdner Bank und ING DiBa oder auch die Deutsche Post und Adidas. Partnerschaften bestehen mit Oracle, Business Objects, Aquin und Noad.

PC-WELT Marktplatz

0 Kommentare zu diesem Artikel
90678