Kritik der #CoronaApp: Träumen elektrische Schafe von Herdenimmunität?

Wir werden wohl bald eine App in Deutschland haben, die auf dem Konzept von https://www.pepp-pt.org/ basiert. Ich halte das für ein gefährliches Technikplazebo und möchte hier erklären, warum.

(10.04.2020, 16:00: Rechenfehler korrigiert.)

Wie soll die App funktionieren?

Mein Kenntnisstand ist so: Man installiert die App freiwillig. Wenn die App aktiv ist, fragt sie jede Minute (?) die Bluetoothverbindungen ab und bestimmt die Entfernung zu den Geräten. Wenn die App auf einem Gerät in Reichweite ebenfalls aktiv ist, und sich beide Geräte für 15 Minuten (?) in einem Abstand von unter 2m (?) befinden, dann werden verschlüsselte IDs erzeugt und auf beiden Geräten gespeichert. Nach einer Zeit (14 Tage?) werden die Daten von den Geräten gelöscht. Wenn jemand ein positives COVID-Testergebniss bekommt, schickt das Gesundheitsamt der Person eine TAN mit der die Warnfunktion der App aktiviert werden kann, was wiederum freiwillig ist. Kontakte, die in der Apphistorie gespeichert sind (also auch die App aktiv hatten und 15 Minuten lang im Nahbereich waren) werden jetzt informiert und gebeten, sich in Quarantäne zu begeben und das Gesundheitsamt zu informieren.

Was dabei alles technisch schiefgehen kann (und wird):

Wer installiert die App tatsächlich? Es ist klar, dass die App nur funktionieren kann, wenn möglichst viele Leute sie benutzen. Da die App selbst aber nicht wirklich mit Servern oder dergleichen kommuniziert, kann vermutlich nicht einmal gesagt werden, wer die App wieder deinstalliert. Auch nicht, wer die App wie oft benutzt. Damit wird es unmöglich, die Anwendung der App irgendwie zu analysieren. Die meisten Leute die ich kenne, haben nicht immer das Handy am Körper. Wer zu zweit rausgeht, nimmt vielleicht nur ein Gerät mit. Handys haben Akkus. Diese werden schneller leer, wenn im Hintergrund eine App permanent auf Bluetooth zugreift. Zumal bei Android Bluetooth nur gemeinsam mit der Standorterfassung aktiviert werden kann. Google weiß dann also genau, wer die App hat, wer sie nutzt und wo sich die Person aufhält, während die App selbst die Geodaten nicht speichert (mehr dazu im Abschnitt Datenschutz). Die Bluetooth-Erkennung ist alles andere als Fehlerfrei. Wer mag kann einfach mal eine der vielen Apps installieren, die es erlauben, Bluetooth-Geräte zu orten (ich habe Wunderfinder ausprobiert, weil keine Werbung oder zusätzliche Berechtigungen).

Auf dem Bild könnt ihr sehen, dass ein Gerät, das direkt vor dem Tablet steht, auf eine Entfernung von 3m geschätzt wird… Genauso ist es möglich, dass die App meinen Nachbarn auf dem Balkon unter mir, den Fahrer in der Tram hinter seiner Glasscheibe, oder sonst wen, mit dem ich gar keinen echten Kontakt hatte, als potentielles Risiko einstuft. Es werden also definitiv nicht alle relevanten Kontakte erkannt und umgekehrt werden auch IDs gespeichert, die nicht gespeichert werden sollten. Da die IDs nur dezentral gespeichert werden, geht die Information natürlich auch verloren, wenn ich mein Handy wechsel, verliere, formatiere, den Speicher lösche…
Wer dann ein positives medizinisches Test-Ergebnis bekommt – also zunächst einmal getestet wurde – soll dann eine TAN kriegen (wie auch immer) und kann dann selbst entscheiden, ob sie verwendet wird oder nicht. Die Nutzer müssen also erstens bei diesem heiklen Schritt mitspielen, obwohl sie vielleicht gerade andere Sorgen haben. Zweitens müssen sie das auch technisch bewältigen, also die TAN beispielsweise auf dem richtigen Gerät eingeben, bei einer stabilen Internetverbindung usw.
Und wer dann benachrichtigt wird, muss dem Hinweis freiwillig folgen, sich in Quarantäne begeben und das Gesundheitsamt benachrichtigen. Ansonsten passiert einfach gar nichts. Und dann müsste man am besten sehr schnell getestet werden, denn…

Das Unterbrechen der Kontaktketten kann so nicht funktionieren

In China spielte Datenauswertung eine große Rolle bei der Unterbrechung der Kontaktketten, also beim Eindämmen der Pandemie. Das ist aber in Deutschland momentan gar nicht die Politik. Meines Kenntnisstands nach wurden in Hudei Teams von fünf Personen für jede positiv getestete Person eingesetzt, die alle Kontakte aufspüren sollten. Um das zu reproduzieren bräuchten wir mehrere hunderttausend Kontakt-Detektive. In China hatten die Teams Zugriff auf den kompletten Internetverkehr der Volksrepublik. Ich stelle mir das in etwa so vor: Jemand wird getestet und wird verhört. Wo sind Sie die letzten Tage gewesen, bitte erinnern Sie sich ganz genau. Sind Sie sicher, dass Sie am Samstag zuhause waren? Auf Wechat haben Sie gepostet, Sie waren im Kino. Wer saß neben Ihnen? Eine Frau über 50, gut. Lasst uns schauen, wer noch Kinokarten für die Vorstellung gekauft hat, weiblich und über 50 ist. Wer in der Region hat sonst noch an dem Abend über den Film gechattet? Lasst uns mal die Bewegungsprofile aller Leute an dem Abend übereinander legen, mal sehen, was sich ergibt… Vielleicht war es auch ganz anders. Aber es war sehr effektiv und völlig grundgesetzwidrig.
In Korea (und auch in China) wurde eine App eingesetzt, um social distancing effektiver zu machen. Dafür wurden positiv getestete an einen digitalen Pranger gestellt, so dass ihnen alle anderen in Echtzeit aus dem Weg gehen konnten. Singapur hat detaillierte Informationen (Alter, Geschlecht, in welchem Krankenhaus usw.) zu allen positiven Patienten ins Netz gestellt zusammen mit einem Netzwerk, welcher Patient von wem infiziert wurde. Auch dadurch lässt sich social distancing intensivieren.
Aber was soll mit der App in Deutschland erreicht werden? Im Alltag nützt die App überhaupt nichts. Wenn es darum gehen soll, Kontaktketten zu unterbrechen, dann kann das mit einer App alleine eh nicht gehen. Dann müssen mögliche Verdachtsfälle sofort isoliert und getestet werden und ihre Kontaktpersonen aufgespürt werden. Denn die Inkubationszeit beträgt fünf Tage. Nur wenn es gelingt, innerhalb dieser fünf Tage die Infizierten zu isolieren, entsteht der gewünschte Effekt. Die Ansteckungsgefahr fängt aber zwei Tage vor den Syntomen an. Getestet wird derzeit erst - wenn überhaupt -, wenn Syntome da sind. Damit hat man schon einmal mindestens zwei Tage verloren (und wer wird wirklich am ersten Tag mit Syntomen getestet?). Bis die Testergebnisse dann vorliegen, scheint derzeit ein paar Tage zu dauern. Dann muss die TAN ankommen. Und die betroffene Person muss sich aufraffen, die Warnfunktion tatsächlich zu aktivieren. Was in der Situation vielleicht auch nicht der dringenste Gedanke ist. Kurz um, bei der derzeitigen Testpraxis ist es sehr unwahrscheinlich, dass die Warnung irgendwen rechtzeitig erreicht, bevor diese Personen selbst andere angesteckt haben. Und wenn die Warnung ankommt, geht der Kreis von vorne los: Wird getestet? Wann wird getestet? Wann sind die Ergebnisse da? Wird gewarnt? Wann wird gewarnt?
Mein Eindruck ist, die Politik hat zuerst gedacht, wir machen auch so was wie in Korea. Dann kam der Hinweis, dass das datenschutzrechtlich nicht machbar ist. Und dann haben sich Ingenieure hingestellt und gesagt: Das ist ja ein rein technisches Problem, das kriegen wir schon datenschutzkonform! Und das Ergebnis ist…

Ein völlig sachfremdes Datenschutzkonzept

Mal im Ernst: Ich soll eine App nutzen, die selbst zwar keine persönlichen Daten speichert, aber zu dem Preis, dass Google meine komplette Bewegungsgeschichte auswerten kann? Meines Wissens lässt sich unter Android die Standortbestimmung nicht deaktivieren, wenn Bluetooth eingeschaltet ist. Und Bluetooth ist ein ziemliches Sicherheitsrisiko... Da alles verschlüsselt ist, können auch keine wirklichen Kontaktketten identifiziert werden, sondern nur, was nach der Definition der App ein relevanter Kontakt ist. Was ich allerdings richtig finde, denn ich glaube, wir werden uns noch wundern, wie sehr die Privatsphäre in dieser Krise dauerhaft beschädigt wird. Aber der Nutzen der App ist damit nicht wirklich nachvollziehbar. Zumal dass, was geschützt werden soll (wer ist krank), kaum vernünftig gesichert wird. Wenn in meinem näheren Umfeld mehrere Leute eine Benachrichtigung bekommen, dann ist es in den allermeisten Fällen vermutlich sehr leicht, die Kontakte abzugleichen und zu wissen, wer der Auslöser ist. Und sogar noch schlimmer: Da es keine Möglichkeit gibt, die Information der App zu verifizieren, werden wilde Spekulationen anfangen. Warum hast DU nicht aufgepasst? WEN hast du eigentlich getroffen? Usw.
Und das schlimmste, ich kann selber gar nicht einschätzen, wie verlässlich die Einschätzung der App ist, weil ich ja nicht weiß, wer der Kontakt ist, der sich gemeldet hat. Und das auch noch bei einer App, für die mit ziemlicher Sicherheit folgendes Prädikat gilt…

Katastrophal ungenau

Die App ist ja so was wie ein Pre-Test. Sie sagt mir, ob ich mir Sorgen machen muss und in Quarantäne gehen sollte. Um die Güte eines solchen Tests zu bewerten brauchen wir drei Größen, die Prävalenz, also wie viele Personen erkrankt sind, die Sensitivität des Tests, also wie genau der Test Personen erkennt, die tatsächlich krank sind, und die Spezifität des Tests, also wie genau gesunde Personen auch als gesund erkannt werden.
Im Falle der App gibt es ein paar Besonderheiten, weil es ja kein diagnostischer Test ist.
Da die App ja nur auf positive Testergebnisse anspringt, geht es auch nicht um die Frage, wie viele Leute an COVID erkrankt sind. Die Frage ist, wie groß ist die Wahrscheinlichkeit, dass ich jemanden treffe, der (ein paar Tage später) ein positives Testergebnis hat. Derzeit haben wir in Deutschland ca. 120.000 positive Testergebnisse. 55.000 davon sind wieder gesund oder tot. Bei 83 Millionen Einwohnern ist die Wahrscheinlichkeit, jemand infizierten zu treffen derzeit also noch unter 0.1%. Wir bezeichen diese Wahrscheinlichkeit als P(K)=0.001. Die Wahrscheinlichkeit P(K^c) – dem Komplement von K – ist demnach 0.999.
Die Sensitivität würde in unserem Fall die Wahrscheinlichkeit bedeuten, dass ich mit jemanden Kontakt habe der positiv getestet ist (wird) und die App (wir unterstellen, dass ich die App ordnungsgemäß verwende) diesen Kontakt tatsächlich als relevant vermerkt. Dafür muss wie beschrieben eine ganze Liste von Bedingungen erfüllt sein: Mein Gegenüber muss auch eine aktive und funktionierende App haben. Da die Installation freiwillig ist und man nicht immer das Handy am Körper hat usw. halte ich hier eine Wahrscheinlichkeit von 50% schon für extrem hoch und kaum zu erreichen. Dann geht es aber weiter: Die App arbeitet ja mit Heuristiken, die das Bluetooth-Signal auswerten. Wie genau kann ich damit ein Infektionsrisiko für mich abbilden? Sicher nicht sehr genau. Studien haben gezeigt, dass eine Infektion auch passieren kann, wenn ich nur kurz Kontakt habe (zum Beispiel weil ich direkt angehustet werde). Die 15 Minuten Verweildauer scheinen hier sehr ungenau. Und dann kommt noch die Ungenauigkeit des Bluethooth-Signals dazu. Ohne Tests kann man das natürlich nicht wissen, aber meine Einschätzung ist, dass es fast schon ein Wunder wäre, wenn die App eine Spezifität von 70% hinbekommt. Aber da eh nur jeder zweite in diesem Beispiel die App verwendet, müssen wir diese Wahrscheinlichkeit noch halbieren. Also nehmen wir eine Wahrscheinlichkeit, das die App einen riskanten Kontakt erkennt wenn ich mit einer positiv getesteten Person zusammen komme P(A|K)=0.35 an.
Und die Spezifität? Wie hoch ist die Wahrscheinlichkeit, dass die App einen Kontakt, der harmlos ist, auch als harmlos einstuft und nicht speichert? Oder umgekehrt: Wie hoch ist die zu erwartende Falsch-Positiv-Rate: Mit welcher Wahrscheinlichkeit wird die App einen nicht positiven Kontakt als riskant einstufen? Hier gibt es ganz offensichtlich einen Trade-Off: Da die App nur Leute als riskant einstuft, die 15 Minuten in meiner Nähe sind, werden automatisch nicht so viele Leute falsch-positiv eingeordnet werden. Vorkommen wird es aber trotzdem. Zum Beispiel kann es sein, dass ich einem Arzt in voller Schutzmontur gegenübersitze, was die App für riskant halten muss usw. Auch hier treffe ich eine Annahme, die ich für sehr milde halte, sagen wir mal die Wahrscheinlichkeit P(A|K^c)=0.01.
Mit diesen Annahmen können wir jetzt berechnen, wie hoch eigentlich die Wahrscheinlichkeit ist, dass ich mit einer positiv getesteten Person Kontakt hatte, nur weil die App das sagt: P(K|A).
Dafür verwenden wir den berühmten Satz von Bayes:

Und hier setzen wir unsere Werte ein und erhalten:

Das heißt, in 97 von 100 Fällen, in denen die App rät, sich in Quarantäne zu begeben, habe ich noch nicht einmal wirklichen Kontakt mit einer positiv getesteten Person gehabt! Und das der Kontakt noch keine Infektion bedeutet, ist ja klar. Und umgekehrt, wenn ich Kontakt mit einer positiven Person hatte, wird die App das – unter den hier getroffenen Annahmen – nur in 35 von 100 Fällen registrieren.

Ich bin gerne bereit, mich davon überzeugen zu lassen, dass diese Zahlen zu streng sind. Ich befürchte aber, sie sind sogar zu positiv für die App. Das Grundproblem bleibt aber so oder so: Bei einer Prävalenz von 0.1% werde ich immer extrem viele Falsch-Positive erzielen, wenn der "Test" nicht wirklich richtig gut funktioniert.

Fazit

Wir sollen möglichst alle eine App verwenden, die nichts weiter ist als ein Technikplazebo. Mit dieser App werden wir fälschlicherweise in Sicherheit gewogen und gleichzeitig völlig zu unrecht verunsichert. Und noch dazu kann niemand den Entscheidungsprozess der App rekonstruieren. Es ist nicht möglich, sich ein eigenes Urteil über den persönlichen Befund zu erarbeiten. Niemand kann sagen, wie gut oder wie schlecht die App tatsächlich funktioniert, denn dafür müsste man sie testen. Sie soll aber offenbar ungetestet als großer Feldversuch einfach eingesetzt werden. Und man sollte auch nicht vergessen, dass damit ein Prozess in Gange gesetzt wird: Haben ersteinmal viele die App, dann ist es vielleicht nicht so hart, sie verpflichtend zu machen. Oder ein Update zu versenden, dass dann doch viel mehr Informationen speichert oder ... oder ...

Ein Taschencomputer als Blackbox soll darüber entscheiden, ob wir uns in Quarantäne geben. Eine mündige Entscheidung ist nicht mehr möglich, obwohl keinerlei medizinischer Befund vorliegt. Zwar werde ich zu nichts gezwungen, aber wenn ich mich auf die App einlasse, bin ich völlig fremdbestimmt ohne die Möglichkeit, selbst verantwortlich zu entscheiden. Und jetzt müssen wir uns entscheiden, ob wir elektrische Schafe sein wollen. Oder habe ich was übersehen?

Political Data Science

Dieses Blog durchsuchen