155234

Hadoop and Hive

18.07.2010 | 08:22 Uhr |

Im Web-2.0-Zeitalter erfordert das rapide steigende Datenaufkommen neue Mechanismen für hochskalierbare und verteilt arbeitende Software. Hier greift das Open-Source-Framework Hadoop und dessen QL-Erweiterung Hive.
Vergrößern Im Web-2.0-Zeitalter erfordert das rapide steigende Datenaufkommen neue Mechanismen für hochskalierbare und verteilt arbeitende Software. Hier greift das Open-Source-Framework Hadoop und dessen QL-Erweiterung Hive.
© 2014

Software für hochskalierbares und verteiltes Daten-Processing ist im Prinzip nichts Neues. Eine Herausforderung der letzten Jahre sind dagegen die weltweit verteilte Verarbeitung zum Beispiel der riesigen Datenaufkommen im Google-Umfeld, das Cloud-Computing und das rapide wachsende Volumen unstrukturierter Daten in sozialen Netzwerken.

Ein auf Java basierendes Open-Source-Framework für derart skalierbare und verteilt arbeitende Programme ist " Hadoop ". Das inzwischen unter dem Dach der Apache Software Foundation angesiedelte Projekt wurde ursprünglich vom Lucene-Erfinder Doug Cutting initiiert und stützt sich auf den Google-Algorithmus "MapReduce" sowie auf Vorschläge des Google-Dateisystems. Damit sind Rechenprozesse in Datenhaltungen bis in den Petabyte-Bereich möglich. Von Facebook stammt ursprüngliche " Hive ", das inzwischen ebenfalls als Open-Source-Projekt bei Apache läuft. Es erweitert Hadoop unter anderem um die Möglichkeit, Abfragen in den verteilten Dateisystemen in einer SQL-ähnlichen Syntax zu formulieren.

PC-WELT Marktplatz

155234