1923637

Big Data - Wie jongliert man mit Petabytes?

06.07.2014 | 10:09 Uhr |

Unstrukturierte Datenberge gelten als weißes Rauschen der Informationstechnologie. „Big Data“ ist der Versuch, Daten im Petabyte-Bereich zu organisieren und dabei nützliche Informationen zu fördern.

Die bisher größte von Menschen gebaute Maschine steht hundert Meter tief unter der Erde in der Nähe von Genf: Der LHC (Large Hadron Collider) ist ein 27 Kilometer langer Teilchenbeschleuniger, der mit dem Nachweis des Higgs-Bosons Einblicke in die Entstehungsgeschichte des Universums verspricht. Nicht nur die Anlage selbst, auch die erfassten Messdaten haben den Umfang der Superlative. Der rohe Datenstrom beträgt bis zu 300 GB pro Sekunde. An ausgewerteten Daten produziert der LHC im angeschlossenen Computernetzwerk fast 15 Petabyte pro Jahr. Eine Datenmenge, für die rund 15.000 handelsübliche Festplatten mit einem TB Kapazität nötig wären.

Trotz der Größenordnung haben Datenmengen dieses Umfangs einen handlichen kurzen Namen bekommen: „Big Data“.

Der Begriff steht für Informationsmengen, die sich nicht mehr sinnvoll in herkömmlichen Datenbanken speichern lassen und zur Auswertung statistische Ansätze erfordern. Die Zähmung der Datenfluten verspricht nicht weniger als eine neue Vermessung der Realität.

Neuromorphe Chips: Die Zukunft von Halbleitern?

Neue Erkenntnisse aus rohen Daten

Die Experimente der Teilchenphysik sind ein Beispiel, wie Big Data unser Verständnis der Welt ändern könnte. Einen deutlich kostengünstigeren Ansatz, aus Big Data neue Erkenntnisse zu gewinnen, verfolgen die Ingenieure John Guttag und Collin Stultz. Ihre Datenbasis sind entsorgte Enzephaloelektrogramme (EEG) von Herzpatienten. Mit Data-Mining-Technik und lernfähigen Auswertungssystemen werden diese enormen Datenmengen, zuvor als wertloser Datenmüll angesehen, nach Auffälligkeiten untersucht. Die Ergebnisse zeigen bereits, dass drei zuvor unbekannte Anomalien im EEG mit dem Risiko eines Herzinfarkts korrelieren. Die Forscher sind sich sicher, dass ihre Auswertung die Infarktdiagnose deutlich verbessern wird.

Datenberge im Vergleich: Das Bild stellt die geschätzten Datenmengen in den Datenbanken prominenter Einrichtungen und Dienste gegenüber (Angaben in Petabyte).
Vergrößern Datenberge im Vergleich: Das Bild stellt die geschätzten Datenmengen in den Datenbanken prominenter Einrichtungen und Dienste gegenüber (Angaben in Petabyte).

Big Data als kollektives Gedächtnis

Während Forschung und Wissenschaft gezielt Informationen sammeln, liefern das Internet und seine Nutzer eine spontane und unerschöpfliche Datenquelle. Wir produzieren jedes Jahr ein Vielfaches mehr an Daten als im Jahr zuvor – und diese Kurve steigt exponentiell. Seit der Dämmerung des Homo Sapiens bis zum Jahr 2003 produzierte die Menschheit fünf Exabyte Daten (fünf Milliarden Gigabyte). Im Jahr 2011 wird die gleiche Datenmenge in lediglich zwei Tagen produziert. Während bisher Forschungseinrichtungen, Behörden, Versicherungen und Regierungen Zugriff auf personenbezogene Datenmassen hatten, sind mit Google, Facebook und Twitter inzwischen auch Firmen im Besitz von benutzergenerierter Big Data. Und sie versuchen, diese Daten gewinnbringend auszuwerten. Google geht es um die Präsentation treffender Suchergebnisse und dabei um den perfekten Algorithmus für Werbeeinblendungen. Facebook und Twitter werden zu gigantischen, sozialen Versuchslaboren und suchen noch einen Weg, Big Data zu monetarisieren. Die Auswertungsmethoden stehen noch am Anfang, und der Großteil der gespeicherten Daten bleibt momentan noch ungenutzt.

Speichern ist billiger als Löschen

Auf dem eigenen PC oder im Maileingangsordner kann jeder mit etwas Geduld und Konzentration auch bei großen Datenmengen noch aufräumen und die Informationen klassifizieren, aufheben oder wegwerfen. Den Wert einer Information können wir anhand ihrer Aktualität, Nützlichkeit und Priorität gut selbst einschätzen. Was nicht mehr benötigt wird, landet im Papierkorb.

Bei Unternehmen, die Informationen über ihre Dienste sammeln, ist eine manuelle Klassifizierung nicht mehr möglich. Dienstanbieter sammeln nicht nur stetig neue Daten ihrer Anwender und Kunden, es stellt sich den Unternehmen zudem die Frage, ob die von Nutzern gelöschten Daten einen Wert haben könnten, wenn bessere Analysemöglichkeiten zur Verfügung stehen.

Oft ist es ungeklärt, wem die Daten aus der rechtlichen Sicht gehören. Bruce Schneier, bekannter Computersicherheits- und Verschlüsselungsexperte, wies zur Konferenz „IT-Defense 2012“ darauf hin, dass es für die Betreiber von Cloud-Speichern und Netzwerken einfach billiger ist, Daten zu speichern, als sie zu löschen.

Ultraschall-Festplatten - Alle Details

Lebensrettender Datenmüll: John Guttag und Collin Stultz suchen in weggeworfenen EEGs von Herzpatienten nach Zusammenhängen von Auffälligkeiten.
Vergrößern Lebensrettender Datenmüll: John Guttag und Collin Stultz suchen in weggeworfenen EEGs von Herzpatienten nach Zusammenhängen von Auffälligkeiten.
© Jason Grow 2012, the human face of Big Data

Auslaufmodelle: Das Ende von Theorien

„Alle Modelle sind falsch, aber einige sind nützlich“ stelle der britische Statistiker George E.P Box vor rund 30 Jahren fest. Nur Modelle konnten Daten erklären und Sachverhalte verständlich machen, von kosmologischen Gleichungen bis zur Verhaltungsforschung. Wissenschaftler sind darauf trainiert, zwischen korrelierenden Daten keine voreiligen Kausalketten zu konstruieren. Denn es könnte sich bei der beobachteten Wechselwirkung schlicht um Zufall oder Messfehler handeln. Es geht stattdessen darum, den Mechanismus zu verstehen, der X und Y verbindet, und daraus ein Modell zu konstruieren. Daten ohne Modell waren bisher ohne wissenschaftlichen Wert. Massive Datenmengen und die Werkzeuge zur Auswertung stellen diesen Ansatz in Frage. Petabyte an Daten erlauben es, allein durch Korrelation nach Zusammenhängen zu suchen. Big Data erlaubt die Auswertung ohne vorherige Hypothesen. An deren Stelle treten Rechenleistung und statistische Algorithmen.

Bisher ist das Potenzial von Big Data pure Science-Fiction. An der IT-Infrastruktur zur Auswertung von Petabyte wird aber bereits gearbeitet: Im Projekt „Cluster Exploratory“ bauten IBM und Google einen verteilten Supercomputer zusammen mit sechs Universitäten in den USA auf. Die ersten Versuche mit diesem System untersuchen Zusammenhänge in den Messdaten aus der Hirnforschung. In der Pilotphase geht es um die Verfeinerung von Analysemöglichkeiten. Ein Erfolg des Projekts verspricht nicht weniger als eine Revolution wissenschaftlicher Analysemöglichkeiten.

Das eigene Leben in Daten

Vor zwölf Jahren begann Gordon Bell, ehemaliger Ingenieur bei DEC und heute Forscher bei Microsoft, mit der digitalen Aufzeichnung seines Lebens. Der 79-jährige hat bisher 200 GB Daten in dem Versuch angehäuft, ein komplettes Leben mit all seinen Ereignissen und Ideen papierlos und lückenlos aufzuzeichnen. Zuerst wurden Bücher und Aufzeichnungen platzsparend digitalisiert. Mittlerweile zeichnet Gordon Bell auch Telefonate, Gespräche und Tastatureingaben und die GPS-Daten des aktuellen Aufenthaltsortes auf. Selbst Blutdruck und Cholesterinwerte kommen ins elektronische Tagebuch. Eine Digitalkamera macht alle fünf Minuten ein Foto der Umgebung. Speisen, Getränke und Musikgenuss – alles wird minutiös notiert. Es soll ein komplettes Lebens-Log entstehen, mit allen Daten, die das Langzeitgedächtnis normalerweise ausblendet. Die möglichst vollständige Protokollierung eines Menschen samt seinen Ideen und Körperfunktionen klingt für die meisten nach Alptraum. Gordon Bell versucht, durch die Analyse der ganz persönlichen Big Data herauszufinden, was einem Menschen guttut und was schadet.

0 Kommentare zu diesem Artikel
1923637