2502125

Datenschutz trotz Corona: Wie kann die Privatsphäre weiterhin geschützt werden?

22.04.2020 | 09:01 Uhr | Leif-Nissen Lundbæk

Die Corona-Krise hat uns alle fest im Griff. Mediziner kämpfen in den Krankenhäusern um Menschenleben, Regierungen auf der ganzen Welt schicken ihre Bevölkerung nach Hause – und fahren damit das gesamte soziale Leben und die Wirtschaft herunter. Gleichzeitig suchen Forscher mit Hochdruck nach möglichen Impfstoffen, während sich Gesellschaften fragen, was mittel- und langfristige Bewältigungsstrategien sein können.

Bei dieser Suche nach Lösungen und Handlungsoptionen schauen Entscheidungsträger und Vertreter der Gesellschaft und Wirtschaft auch auf Technologie als Hoffnungsträger. Denn: Um unnötiges Leid zu verhindern, müssen wir Covid-19 so schnell wie möglich eindämmen und dafür alle uns gegebenen Hilfsmittel in Betracht ziehen. Medizinische Handlungsoptionen wie die Entwicklung von Medikamenten und Impfstoffen benötigen viel Zeit – diese haben wir aber aktuell nicht!

Technologie als Hoffnungsträger

Maßnahmen wie Social Distancing zeigen zwar erste Erfolge. Allerdings werfen sie die Frage auf, ob dies aus psychologischen, sozialen und wirtschaftlichen Gründen so lange wie epidemiologisch eigentlich notwendig durchgehalten werden kann. Deshalb lautet die Kernfrage nicht, ob es ethisch vertretbar ist, technische Möglichkeiten zur Bewältigung der Krise zu nutzen – sondern vielmehr, ob wir es überhaupt ethisch vertreten können, sie nicht zu nutzen. Ergo: Wir haben also eine ethische Verantwortung, alle uns gegebenen Möglichkeiten – auch und insbesondere Ansätze wie Big Data und Künstliche Intelligenz – zu nutzen.

Hier folgt nun allerdings ein großes Aber, wie es die EU-Kommissarin Věra Jourová in diesem Beitrag prägnant formuliert: “Selbst in so einer Ausnahmesituation müssen die Grundsätze des Datenschutzes respektiert werden”. Auch wenn wir jetzt schnell nach pragmatischen technischen Lösungen suchen müssen, dürfen wir dabei nicht von einer globalen Krise in die nächste schlittern. Zahlreiche Persönlichkeiten und Experten wie der Whistleblower Edward Snowden , der renommierte Historiker Yuval Harari oder der Informatikprofessor Michael Huth haben dies bereits ausführlich durchdekliniert.

Technologie flankiert von gesellschaftlichen Aspekten

Selbst wenn Datenanalysen und Künstliche Intelligenz Hoffnungsträger in der Corona-Krise sind, muss klargestellt werden: Technologien können nicht alleingelassen werden. Verschiedene Ansätze, die weltweit bereits im Einsatz sind, verdeutlichen diese Problematik: So sammelt zum Beispiel China mit Pflicht-Apps Daten, um Bürger*innen nach ihrem potenziellen Infektionsstatus zu klassifizieren. Googles Project Baseline koppelt den Zugang zu Testmöglichkeiten in Kalifornien an die Datenfreigabe und Israel zweckentfremdet Tracking-Technologien seines Inlandsgeheimdienstes.

Vielmehr müssen die technologischen Anwendungen flankiert werden von politischen, gesellschaftlichen und juristischen Bestimmungen: Welche Daten dürfen erhoben werden, wie lange dürfen sie wo gespeichert und zu welchen Zwecken dürfen sie eingesetzt werden. Endet mit dem Ende der Corona-Pandemie auch die Nutzung der Applikation und der Datenverwendung? Wie freiwillig oder verpflichtend ist der Einsatz für Bürger*innen?

Technologische Möglichkeiten für mehr Datenschutz

Dabei muss es keinen Trade-Off zwischen Datenschutz und Gesundheit geben – selbst wenn dies in der öffentlichen Debatte oft als fast unüberwindbar dargestellt wird. Denn die gute Nachricht ist, dass es bereits bewährte Methoden gibt, Datenschutz technologisch umzusetzen. Und gerade Europa hat hier durch die intensive Forschung zu Privatsphäre-Technologien ein enormes Potenzial.

Um Datennutzung und Datenschutz zu vereinbaren, gibt es hauptsächlich drei gängige Verfahren: Anonymisierung, homomorphische Verschlüsselung und Edge Computing (im Speziellen Federated Learning). Alle drei Ansätze unterscheiden sich bezüglich ihres technologischen Reifegrads, ihrer Skalierbarkeit sowie des Grads an möglichem Datenschutz.

Anonymisierung

Die populärste Methodik bei der Datenanonymisierung ist die sogenannte Differential Privacy. Die Privatsphäre soll dabei gewahrt bleiben, indem Ursprungsdaten verändert werden – sei es, indem personenbezogene Daten gelöscht oder künstliche Daten (sogenanntes Rauschen) hinzugefügt werden. Der Vorteil: geringe Komplexität, ein dementsprechend hoher Reifegrad und breite Anwendungsmöglichkeiten.

Jedoch birgt die Anonymisierung von Daten die Gefahr, dass personenbezogene Daten rückberechnet werden. Dies ist häufig sogar durch relativ einfache Methoden umsetzbar – beispielsweise, indem unterschiedlich anonymisierte Datenbanken miteinander verknüpft werden. Ein prominentes Beispiel war vor einigen Jahren die De-Anonymisierung von Netflix-Nutzern mit Hilfe der Internet Movie Database. Wenn auch häufig verwendet, bietet Differential Privacy deshalb im Vergleich zu anderen Methoden einen geringeren Grad an Datenschutz .

In vielen Fällen kann die Anonymisierung als eine gute Überbrückungstechnologie dienen. Allerdings sollte man auch hier sehr wohlüberlegt handeln und stets einen hohen Standard wahren. Denn auch De-Anonymisierungsmethoden verbessern sich stetig, so dass selbst die besten Anonymisierungen häufig innerhalb weniger Jahre ineffektiv sind.

Homomorphische Verschlüsselung

Kandidat Nummer zwei ist die sogenannte homomorphische Verschlüsselung . Daten werden hierbei auf den Endgeräten (z.B. Smartphones) bereits so verschlüsselt, dass sie zwar immer noch analysiert, aber nicht entschlüsselt werden können. Anschließend können die Daten auf einer externen Cloud zentral gespeichert und analysiert werden.

Die Rechenressourcen, die für Berechnungen auf homomorphisch verschlüsselten Daten benötigt werden, sind allerdings enorm. Bei großen Datenmengen oder komplexeren Berechnungen werden hier schnell die Grenzen der derzeitigen technischen Machbarkeit überschritten. Zudem sind sich Kryptographen uneins darüber, wie sehr die Privatsphäre wirklich geschützt werden kann .

Weltweit weckt diese Methode allerdings große Hoffnungen, so dass große Summen in die Forschung und Entwicklung skalierbarer Varianten investiert werden. Bis diese Methode aber breitflächig eingesetzt werden kann, wird noch einige Zeit vergehen – und sie wird wahrscheinlich parallel oder in Kombination mit der dritten Alternative, dem Edge Computing, eingesetzt werden.

Edge Computing (speziell Federated Learning)

Der dritte Ansatz geht einen anderen Weg. Während Anonymisierung und homomorphische Verschlüsselung die Daten in gewisser Weise verändern, bleiben beim Edge Computing die Daten beim Nutzer . Statt die Daten zum Algorithmus zu bringen, wird der Algorithmus einfach zu den Daten gebracht.

Das aktuelle Pan-European Privacy Preserving Proximity Tracing anfangs solch einen dezentralen Ansatz: Algorithmische Systeme sollen durch Peer-to-Peer-Analysen direkt auf den Smartphones effektiv bei der Corona-Bekämpfung helfen – und dabei laut eigener Aussage gleichzeitig die Privatsphäre der Nutzer wahren . Aktuell gibt es allerdings interne Diskussionen um die weitere Ausrichtung des Projektes und die Frage, ob ein dezentraler oder zentraler Ansatz gewählt werden soll .

Noch einen Schritt weiter als das Edge Computing geht das sogenannte Federated Learning. Hierbei werden auf den einzelnen Endgeräten kleine KI-Modelle trainiert. Im zweiten Schritt werden alle diese KI-Modelle zusammengeführt, während die eigentlichen Nutzerdaten auf den Geräten verbleiben. Dadurch entsteht eine wesentlich komplexere KI als wenn lediglich zentral Daten trainiert worden wären.

Edge Computing im Allgemeinen und Federated Learning im Speziellen wahren die Privatsphäre und sind hochgradig nutz- und skalierbar . Außerdem müssen nicht mehr große Datenmengen verschickt werden und die Methode kann auch asynchron funktionieren.

Ein weiterer Vorteil ist, dass es indirekt einen größeren Schutz gegen Angriffe und Datenmanipulationen gibt. Denn statt eines zentralen Systems müssten mögliche Angreifer eine Vielzahl von Endgeräten gleichzeitig ins Visier nehmen.

Der Nachteil liegt bislang hauptsächlich im größeren Entwicklungsaufwand. Außerdem lässt sich die Methode nicht in jedem Fall anwenden – zum Beispiel, wenn Nutzerdaten bereits zentral gesammelt vorliegen.

Fazit

Gesundheits- und Tracking-Daten sind hochgradig sensible Daten. Denn Daten, wie sie zur Bekämpfung der Corona-Pandemie gesammelt werden, liefern nicht nur Informationen zu Körperfunktionen und zu Kontakten mit (potenziell) Infizierten. Durch Analysen ist es möglich, Rückschlüsse auf die Psyche und sämtliche Lebensbereiche von Individuen zu ziehen – und diese Informationen im schlimmsten Fall auch auszunutzen.

Deshalb ist es eine dringende Notwendigkeit, dass trotz der Notlage vorsichtig agiert wird. Europa kann und sollte sich hier auf das enorme Potenzial an Forschung und Entwicklung zum Datenschutz berufen.

Ein dezentraler Ansatz des bereits angesprochenen PEPP-PT scheint dazu eine interessante Möglichkeit zu bieten, die es zu beobachten gilt. Die grundlegenden Berechnungen erfolgen hier direkt auf den einzelnen Smartphones, während für jeden Nutzer ständig wechselnde pseudonyme IDs generiert werden. Damit sollen Nutzer unter Wahrung ihrer Privatsphäre erfahren, ob sie Kontakt mit einer infizierten Person hatten. Allerdings basieren diese Berechnungen bislang nur auf den Tracking-Daten der Nutzer. So oder so sollten wir das PEPP-PT-Projekt im Auge behalten .

Theoretisch gibt es durch die Kombination zum Beispiel mit Gesundheitsdaten noch zusätzliche Einsatzmöglichkeiten von KI – vorausgesetzt der Datenschutz wird gewahrt. Mittels Federated Learning könnten solche hochgradig präzisen KI-Modelle direkt auf den Geräten der Nutzer trainiert werden. Der Nutzer könnte so Warnungen zu seinem Gesundheitszustand erhalten – und das, ohne dass die Daten jemals die Endgeräte verlassen. Nutzer könnten so medizinische Unterstützung durch einen digitalen Arzt erhalten – inklusive eingebauter Schweigepflicht.

Datenschutzkrise durch Corona: Schlittern wir in die nächste globale Krise?

Bericht: Corona-App der Deutschen Telekom ist unsicher

Covapp: Quellcode der Corona-App der Charité ist jetzt Open Source

Covid-19-Sounds-App: Corona durch Atemgeräusch erkennen

Corona-Datenspende-App des Robert Koch-Instituts verfügbar

PC-WELT Marktplatz

2502125