Big Data beherrschen: Die genaue Festlegung des Ziels steht am Anfang
Das schnelle Auffinden von Anomalien in einer IT-Landschaft ist die Voraussetzung für das zeitgerechte Erkennen von aktuellen Cyberangriffen. Bei großen Unternehmen ist das jedoch eine Big-Data-Problemstellung. Um die Nadel im Heuhaufen zu finden, ist es in erster Linie wichtig, eine Vorstellung davon zu haben, wie diese Nadel aussieht.
Diese Information kommt in der Regel nicht aus einem Forschungsteam selbst. Sie kommt vielmehr von Security-Intelligence- Experten, die jeden Tag mit der Analyse von Milliarden Datensätzen beschäftigt sind, um die eine wichtige Information zu selektieren, die den Cyberangreifer entlarvt. Diese Experten sitzen in den IT-Abteilungen großer Unternehmen oder bei hochspezialisierten externen Dienstleistern und sind immer wieder mit einem zentralen Problem konfrontiert: Sie möchten aus großen Datenmengen ein ganz bestimmtes Muster herauslesen und brauchen dafür ein statistisches Modell.
Dabei sind die Fragestellungen aus verschiedenen Branchen sehr unterschiedlich. Wenn ein Forscher aber einmal weiß, wonach er in großen Datenmengen suchen soll, prüft er sämtliche in Frage kommenden Modelle aus seiner Erfahrung oder auch aus ganz anderen Bereichen wie der Ökonometrie oder der Bioinformatik. Wichtig ist dabei, dass er darauf Rücksicht nimmt, unterschiedlichen Bedarf mit unterschiedlichen Lösungswegen zu beantworten. Das erfordert die Komplexität von Daten. Impulse von außen werden also im Forschungsteam aufgegriffen und sukzessive weiterentwickelt. Es werden zusätzliche Muster ausgewertet und alle zu einer übergeordneten Strategie für die Verbesserung der gesamten IT-Risikoerkennung und -analyse aggregiert.
Validieren, Validieren, Validieren
Die Arbeit des Research-Teams ist darauf ausgelegt, ein valides Modell zu finden, um in vielen unterschiedlichen Fallbeispielen zu den richtigen Ergebnissen zu kommen. Anfangs erhält das Team zum Beispiel einen Ausschnitt an Daten und weiß nur, dass in diesen Daten interessante Muster enthalten sind. Sie wurden aber von bestehenden Systemen nicht automatisiert erkannt. Nun startet zuerst die Evaluierung, was an diesen Daten ungewöhnlich ist, und dann die Denkarbeit, die zu einem Modell führen soll, das die interessanten Muster tatsächlich entdeckt.
Ist diese Arbeit getan, sucht man im darauf folgenden Validierungsprozess den Punkt, an dem die Trennschärfe zwischen Anomalie und Nicht-Anomalie verschwindet. Es wird also analysiert, ob sich die Fehlerrate (False Positives und False Negatives) beim gewählten Modell in einem akzeptablen Rahmen hält. Hat man diesen umfangreichen Analyse- und Evaluierungsprozess erfolgreich abgeschlossen, ist das neue Modell nachvollziehbar und somit vertrauenswürdig. Für eine hohe Qualität dauert das oftmals mehrere Monate und ist auch nur durch ein gesamtes Forschungsteam mit vielen verschiedenen Erfahrungsschätzen möglich.
Risikobewertung vor dem Praxiseinsatz
Das Modell ist ausgewählt und mit zahlreichen Datensets auf seine Passfähigkeit getestet. Um das Risiko bewerten zu können, dass Anomalien trotz der ausführlichen Tests nicht erkannt werden, führt man eine Risikoanalyse in einem separaten Schritt durch. Beurteilt wird dabei ein weiteres Mal, ob das eingesetzte Modell genügend Anomalien erkennt und auf der anderen Seite nicht zu viele „unbrauchbare Daten“ (False Positives und False Negatives) generiert.
Dabei läuft die Risikobewertung in jedem Statistik-Szenario ähnlich ab: So wird zum Beispiel bei der Einführung von neuen Impfstoffen ebenfalls abgewogen, ob der Impfstoff gut genug funktioniert, um die entstehenden Risiken abzufedern. So gehen auch die Technologie-Forscher in ihrer Risikobewertung für den Einsatz eines Modells vor.
Zur Sicherheit: Visualisierung der Modellentscheidungen
Modelle und deren Grenzen bis ins Detail zu verstehen ist eine wichtige Voraussetzung, damit selbst die Statistik-Experten Vertrauen in die richtige Funktionsweise haben. Eine zentrale Methode dafür ist die Visualisierung der Modellentscheidungen. Während das bei nicht allzu komplexen Modellen möglich ist, zählen bei hochkomplexen Modellen umfassende Testreihen. Mit ihnen wird der Datenzufluss dargestellt und veranschaulicht, welche Anomalien ein Modell am Ende des Tages in einer Vielzahl von Szenarien tatsächlich aufzeigt.
Die ausführlichen Validierungs-, Test-, Risikoanalyse- und Visualisierungsprozesse sind notwendig, um nachhaltig sicher sein zu können, dass eingesetzte Modelle auf Herz und Nieren geprüft wurden und dass man darauf vertrauen kann, dass sie Alarm schlagen, wenn sie sollen. Nur dann werden sie in der Praxis eingesetzt, und die Arbeit der Forscher ist damit erfolgreich abgeschlossen.