Prism und die Kapitulation der Geheimdienste vor der Statistik

Stasi- Lauschposten
.. . wirkt heute fast harmlos?
Foto: Lokilech via Wikimedia cc3

Diese Woche gelernt: Der amerikanische Geheimdienst NSA hat offenbar fast unbeschränkten und kaum unabhängig kontrollierten Zugang zu Emails, Telefonverbindungsdaten, Passwörtern und anderen Daten bei Internetdiensten wie Google und Facebook. Na gut, den Verdacht hatten viele schon lange. Aber dank des Whistleblowers Edward Snowden und den Dokumenten, die er dem Guardian und der Washington Post zugespielt hat, erfahren wir in doch recht schockierenden Details, wie eng die Anbindung des NSA an Datengiganten wie Google und Facebook ist.

 Andere sind besser qualifiziert, über Hintergründe und Konsequenzen zu spekulieren. Es ist auch noch gar nicht so ganz klar, wie genau denn Prism funktioniert. Aber dem ultimativen Traum der Geheimdienstbosse, der Horror-Fantasie der totalen, automatisierten Überwachung der gesamten Kommunikation aller Bürger (und nur über dieses Extremszenario will ich heute schreiben) steht zum Glück ein Hindernis entgegen – sie werden daran scheitern.

Bevor ich darauf näher eingehe, zur Klarstellung, damit keine Missverständnisse aufkommen: Ja, wir sollten uns über Prism aufregen. Und ja, es ist anzunehmen, dass Geheimdienste (ob in den USA oder bei uns) in ihrer unersättlichem Gier nach Informationen aus dem Privatleben der Bürger keine Grenzen kennen – diese Grenzen müssen wir ihnen deutlich aufzeigen, wir sollten auch von unseren deutschen Politikern verlangen, dass sie Datenschnüffler enger an die Leine nehmen.

Jetzt aber zu den Gründen, wieso ich das Extremszenario – ein hypothetischer Schnüffelalgorithmus, der unsere gesamte Kommunikation filtert  – aus meiner Laienperspektive eher für aberwitzig halte. Ein verdachtsloses Filtern riesiger, meist belangloser Datensätze auf der Suche nach ein paar Terrorverdächtigen bringt nämlich höchst wahrscheinlich gar nichts und wäre in erster Linie Verschwendung von Steuergeldern.

Wieso? Ben Goldacre, ein britischer Wissenschaftsjounalist, hatte das Thema schon 2009 in einem Artikel für den Guardian behandelt und ich folge hier im Wesentlichen seinen Argumenten. Goldacre schreibt aus der Sicht eines Mediziners, der sich für populationsbasierte Studien interessiert … Moment, wo liegt denn da die Parallele? Geheimdienstbazis mit Ärzten zu vergleichen, was soll denn das jetzt?

Aber das Ziel der Geheimdienste, „Terrorverdächtige“ in der großen Population der harmlosen Bürger zu finden, ist – für den Statistiker zumindest – sehr ähnlich der Aufgabe eines Mediziners, der im Rahmen eines Vorsorgescreenings Patienten auf das Risiko seltener Krankheiten testet.

Das Dilemma in beiden Fällen: Der „Test“ – also das Screening oder der Überwachungsalgorithmus – wird niemals perfekt sein. Jeder realistische Test wird Fehler zwei verschiedener Kategorien auswerfen:

  1. Fehler: Unschuldige Bürger werden als Terrorverdächtige markiert
  2. Fehler: Echte Terrorverdächtige rutschen durch die Maschen.

Der Kern des Problems liegt also im Dilemma zwischen Spezifität und Sensitivität des Tests. Angenommmen, der Schnüffeldienst hat eine Software entwickelt, die – um es ganz primitiv zu denken – Punkte vergibt für verschiedene Verdachtsmomente (also beispielsweise bestimmte Schlüsselwörter oder verdächtige Gesprächspartner). Ab einer bestimmten Punktzahl schlägt der Algorithmus Alarm und ein Mitarbeiter muss sich den Datensatz manuell vornehmen. Nun verwenden aber unverdächtige Bürger schon mal verdächtige Begriffe oder verhalten sich sonstwie auffällig – z.B. Journalisten bei der Recherche. Andererseits werden gerade die „richtigen“ Terroristen alles tun, um sich so unverdächtig wie möglich zu verhalten.

Um Goldacres’s (imaginäre) Beispielzahlen zu nehmen, nehmen wir an, trotz dieser Schwierigkeiten enttarnt die Überwachungssoftware „echte“ Terrorverdächtige in 8 von 10 Fällen. Setzt man die Software auf einen Unschuldigen an, schlägt sie nur in 1 aus 10 Fällen (fälschlicherweise) Alarm, 9 werden korrekt als „Unschuldig“ erkannt.

Diese hypothetischen Zahlen klingen zuerst mal nach einem äusserst sinnvollen (gleichwohl unrealistisch akkuraten) Test-Tool – aber nur solange, bis wir es ausprobiert haben: Denn heisst das nun, dass wir mit dieser Methode 80% aller Terrorverdächtigen herausfiltern können?

Nein, eben nicht. Es gibt nämlich so verdammt wenige echte Terroristen, dass die Falsch-Positiven am Ende trotz des wirklich recht akkuraten Tests in großer Überzahl sind.

Hier ein konkretes Szenario mit diesen Rahmendaten: Mal angenommen, in Datensätzen zu 50 Millionen Bürgern stecken 10.000 ‘echte’ Verdächtige – was schon eine ganz Menge wäre. Der Test erkennt also 8000 davon, 2000 rutschen durch die Maschen. Gleichzeit schlägt er aber auch fälschlicherweise bei 5 Millionen unbescholtenen Bürgern an –unsere 8000 Terroristen verstecken sich also in einem Meer von 5 Millionen falsch-positiven Ergebnissen.Und  selbst, wenn der Test nur in einem aus 100 Fällen ein falsch-positives Ergebnis auswirft, haben wir immer noch eine halbe Million davon.

Hilft es denn unserem großen Bruder, wenn wir die Spezifität steigern, d.h, wenn der Test erst bei „höherer Punktzahl“ anschlägt? Nein, denn dann schlüpfen auch mehr echte Verdächtige durchs Netz, bei immer noch sehr viel mehr Falsch-Positiven als echten Terroristen. Der einzige Weg, einen sinnvollen Test zu entwickeln: Sensitiviät UND Spezifität müssten steigen, das heisst, ein unglaublich akkurater Test  wäre nötig, der  (vielleicht in einem mehrstufigen Verfahren) auf ein ganz einzigartiges Muster in den Daten anspringt, ein Muster also, das wirklich nur von Terroristen stammen kann. Ist so ein Algorithmus realistisch? Das müsste man jetzt Leute wie Edward Snowden fragen. Aber meine (absolut laienhafte) Wette: Wohl eher nicht.

Und noch einmal, es ging mir hier nur über das hypothetische Szenario einer voll-automatisierten Überwachung aller Kommunikationsdaten im großen Stil – und über die interessante Parallele zu medizinischen Vorsorgetests. Es gibt genug andere Gründe, wieso Geheimdienste wie der NSA jederzeit ohne Richterbeschluss Zugriff auf unsere Daten  haben wollen, und es gibt sehr viele gute Gründe, wieso wir es ihnen nicht erlauben sollten. Aber einen totalitären Voll-Überwachungsstaat zu basteln ist vielleicht  nicht ganz so einfach, wie sich das manche der Mächtigen wohl wünschten.