#bleibtzuhause hat nicht zu einer Senkung der #Covid-Infektionen beigetragen und #flattenthecurve ist eine dumme Idee

Gerade haben Bund und Länder die Maßnahmen und insbesondere die Kontaktbeschränkungen um mindestens zwei Wochen verlängert.
Das Robert-Koch-Institut hat am selben Tag ein kleines Papier veröffentlicht, dass definitiv mehr Aufmerksamkeit verdient: https://www.rki.de/DE/Content/Infekt/EpidBull/Archiv/2020/Ausgaben/17_20_SARS-CoV2_vorab.pdf?__blob=publicationFile
In diesem Bulletin versucht das RKI die Reproduktionszahl des COVID-Virus über den Zeitverlauf zu berechnen.
Hier der entscheidende Plot:

Wenn man sich den Zeitverlauf anschaut, sieht es nicht so aus, als hätten die Maßnahmen am 16.03. (keine Veranstaltungen mit über 1000 Leuten) oder die Ausgangsbeschränkungen vom 23.03. einen sichtbaren Effekt. Gleichzeitig ist die Reproduktionszahl wesentlich geringer, als in früheren Szenarien angenommen und lag schon vor dem 23.03. unter eins, was eine Eindämmung der Krankheit bedeutet.
Dies widerspricht dem herrschenden Diskurs in zweierlei Hinsicht: Erstens hieß es bislang immer wieder, eine Senkung der Reproduktionszahl R unter 1 sei faktisch nicht möglich oder nur mit noch drakonischeren Maßnahmen. Ein Sinken von R unter 1 heißt, dass man das Virus in den Griff bekommen kann! Die ganze "FlattenTheCurve"-Strategie lebte von der Annahme, dass das nicht geht.
Zweitens wird uns die ganze Zeit erzählt, die relativ glimpfliche Situation in Deutschland wäre Resultat der Maßnahmen, insbesondere der Ausgangssperre. R ist aber - laut der Berechnung des RKI! - schon vor dem 23.03.2020 unter 1 gesunken.
Es ist an der Zeit, den bisherigen Ansatz, der auf den exponentiellen Modellen der Virologen basierte grundlegend zu hinterfragen!

Was ist die Reproduktionszahl?

Die Reproduktionszahl R gibt an, wie viele Menschen ein Infizierter im Durchschnitt ansteckt. Steckt jeder Infizierte im Durchschnitt eine weitere Person an (R = 1) dann bleibt die Anzahl der Fälle konstant. Ist R höher als eins, dann steigt die Zahl der Infizierten immer schneller an. Ist R kleiner als eins, dann sinkt die Zahl, ebenfalls immer schneller.

Die Reproduktionszahl ist keine biologische Eigenschaft eines Virus, sondern hängt von den gesellschaftlichen Umständen ab, die sich ändern können. R ist auch keine Größe, die man irgendwo ablesen könnte, sondern kann nur empirisch und mathematisch bestimmt werden.

Als Kenngröße für den Verlauf eine Epidemie ist R sehr relevant, denn wenn R unter 1 sinkt, also weniger Leute neu infiziert werden als es bereits Infizierte gibt, dann sinkt die Zahl der Kranken genauso schnell, also umgekehrt exponentiell, wie sie zuvor gestiegen ist. Eben wie man das von einer S-Kurve kennt: https://politicaldatascience.blogspot.com/2020/04/covid-s-kurven-revisited-eine.html

Das heißt auch, dass dann ein anderer Umgang mit der Krankheit möglich wird. Erstens verringert sich jeden Tag das Risiko, sich anzustecken. Zweitens führt der Rückgang dazu, dass ganz andere Szenarien entstehen. Es ist dann nicht mehr die Frage, ob die Krankenhauskapazitäten reichen, sondern es kann gezielt daran gearbeitet werden, mögliche Infektionen aufzuspüren, schnell zu testen und die Ansteckungen weiter zu verringern.

Wie wird die Reproduktionszahl berechnet?

Wer sich für Statistik nicht interessiert, kann die folgenden Abschnitte überspringen und wieder bei:

"Was sagen die Ergebnisse"

einsteigen.

Wir wissen nicht, wer wen angesteckt hat und kennen daher die Reproduktionszahl nicht. Im Prinzip ist die Sache aber relativ einfach: Wenn wir wissen, wie lange es dauert, bis eine Person eine weitere ansteckt, dann können wir "einfach" die Infektionen an einem Zeitpunkt in ein Verhältnis setzen zu den Infektionen nach genau dieser Zeitspanne. Aber auch hier fangen schon die Schwierigkeiten an. Die Zeit, bis neue Leute infiziert werden, nennt man Generationszeit. Das RKI geht davon aus, dass die Generationszeit 4 Tage beträgt. Das ist natürlich selbst wieder nur eine Schätzung und noch dazu ein Mittelwert. Im Prinzip könnte man auch für die Generationszeit eine Verteilung schätzen und statt des Mittelwerts diese Verteilung zur Berechnung von R verwenden. Dafür bräuchte man aber empirische Daten, wer wen wann angesteckt hat und die liegen vermutlich nicht vor.

Mittelwertschätzungen sind so eine Sache, die ich auf diesem Blog schon häufig kritisiert habe. In diesem Kontext ergibt das m. M. nach aber durchaus Sinn. Denn erstens sind andere Daten eh nicht da, zweitens geht es ja um mehrere Tausend Infizierte und einen größeren Zeitraum. Es mittelt sich da auf die Dauer tatsächlich einiges raus.

Also können wir jetzt R berechnen, indem wir vergleichen, wie viele Leute gestern neu als offizielle Fälle dazugekommen sind im Verhältnis zur Anzahl der Leute, die sich vor fünf Tagen angesteckt haben. Aber ganz so einfach ist es leider nicht. Die Zahl der gemeldeten Fälle weist sehr merkwürdige Schwankungen auf, wie der folgende Plot zeigt:

Zwar sieht man auf dem Plot, was ich seit Wochen sage, die neuen Fälle gehen der Tendenz nach zurück. Aber man sieht auch, dass es krasse Schwankungen gibt. Noch dazu scheinen diese Spitzen in einer gewissen Regelmäßigkeit aufzutreten. Ein großes Problem ist, dass an den Wochenenden keine offiziellen Meldungen gemacht werden und daher die Zahlen zum Anfang der Woche extrem hoch sind. Anstatt also die Zahlen von Donnerstag mit denen von Montag zu vergleichen muss man irgendwie schätzen, wie hoch die Zahlen an jedem Tag wirklich sind, also die Fehler im Meldesystem ausgleichen.

Das RKI verwendet hier eine ziemlich komplizierte Methode, die sie Nowcasting nennen. Es geht darum, anstatt der gemeldeten Fälle die Zahl der wirklich erkrankten inklusive des Krankheitsbeginns (auftreten von Symptomen) zu berechnen, um dann möglichst verlässlich zu sehen, wie viele Leute neu angesteckt wurden. Das RKI geht in folgenden Schritten vor: Zunächst wird das Datum der Erkrankung geschätzt, für die Fälle, in denen es nicht bekannt ist. Dieses Verfahren heißt multiple imputation.

Wie funktioniert multiple imputation?

Bei multiple imputation wird für die fehlenden Werte zunächst eine Verteilung, basierend auf den bekannten Werten, berechnet. Die Verteilung ergibt sich in Abhängigkeit von anderen Variablen. Im konkreten Fall lagen für 37,5% der Fälle keine Werte für den Krankheitsbeginn vor. Die Verteilung dieser Werte wurde dann in Abhängigkeit vom Meldedatum geschätzt. Jetzt wird aus dieser ermittelten Verteilung für jeden fehlenden Wert ein Zufallswert gezogen. Die eingesetzten Werte sind also rein zufällig, aber entsprechen dem Charakter der bekannten Werte. Dieses Verfahren wird jetzt aber sehr häufig wiederholt, so dass man am Ende hunderte von Datensätzen hat, die alle unterschiedliche Zufallswerte enthalten. Und auf jedem dieser Datensätze führt man dann die gewünschte Berechnung durch und mittelt die Ergebnisse. Das klingt vielleicht nach Betrug, ist aber ein sehr anerkanntes Verfahren aus dem Bereich des Bootstrapping.
Ich habe trotzdem Bedenken: Erstens zeigt meine Erfahrung, dass nicht parametrische Imputations-Verfahren (zum Beispiel random forest) häufig bessere Ergebnisse erziehlen. Zweitens sind 37,5% fehlende Werte ziemlich krass. Drittens könnte man das vielleicht auch ganz ohne Imputation lösen...
Dennoch, das RKI verwendet hier ein anerkanntes Verfahren und ist - gemessen an der Kürze des Textes - relativ transparent was die Methoden anbelangt. Allerdings muss dieser Weg notwendig eine Menge Unsicherheit in die Berechnung bringen. Die so gepimpten Werte des Krankheitsbeginns werden jetzt genutzt, um zu schätzen, wie viele Leute an welchem Tag "tatsächlich" erkrankt sind. Dafür verwendet das RKI ein Verfahren, das sie Nowcast nennen.

Was ist Nowcast?

Hier geht es um ein Bayesisches Verfahren, ähnlich dem, das ich zur Kritik der Corona-App verwendet habe (https://politicaldatascience.blogspot.com/2020/04/kritik-der-coronaapp-traumen.html). Durch den vorherigen Schritt "weiß" man, wie viel Leute an einem Tag offiziell gemeldet wurden und wie viele vorher erkrankt sind. Jetzt kann man, wie hoch die Wahrscheinlichkeit ist, dass eine erkrankte Person in einem, zwei, drei Tagen als offizieller Fall gemeldet wird. Mit Bayes kann man auch umgekehrt schließen, wie hoch die Zahl der Erkrankten an einem Tag geschätzt wird, gegeben die Zahl der offiziellen Fälle und die Historie in den Daten. Das RKI berechnet das immer für ein Fenster von sieben Tagen, um so die beschriebene Verzerrung auszugleichen. Es ist ziemlich kompliziert, mit weiteren Unsicherheiten behaftet aber durchaus eine Methode, die zum Problem passt.

Und R?

Nach dem ganzen Klimbim wird R jetzt einfach als Verhältnis des Nowcast von heute zu dem von vor vier Tagen berechnet.

Was sagen die Ergebnisse?

Meiner Meinung nach zeigen die Ergebnisse, dass die Maßnahmen, insbesondere der Lockdown nicht den Rückgang von R bewirkt haben. Das RKI stellt die Sachen aber so da, dass dieser Schluss zumindest nicht ins Auge springt.

Zur Erinnerung hier noch einmal die Entscheidende Grafik vom RKI:

Der Ausgewählte Zeitraum ist merkwürdig. Wieso fängt die Darstellung erst am 7.03. an? Vom gewählten Ausschnitt sieht es so aus, als wäre die Kurve erst angestiegen, bis die Regierung dann am 9.03. reagiert hat. Aber wenn man die Zahlen der gemeldeten Fälle betrachtet, sieht man, dass es schon in der letzten Februar Woche eine sehr starke Zunahme gab. Ich bin überzeugt, wenn man die Analyse da beginnen würde, sähe der Höcker am 11.03. weniger eindrucksvoll aus. Es ergibt ja übrigens auch theoretisch nicht wirklich viel Sinn, warum die Reproduktionszahl, die ja auf 2,5 bis 3 geschätzt wurde, erst systematisch ansteigen sollte. Ich stelle unten ein alternatives Konzept zur Berechnung von R vor, indem es eher so aussieht, als würde R im Trend stetig sinken (was logisch wäre, da ja auch das viele Händewaschen etc. etwas bewirkt haben sollte). Am 16.03. wurde dann die Bund-Länder-Vereinbarung zu Leitlinien gegen die Ausbreitung des Coronavirus veröffentlicht. Die R-Kurve sinkt ab diesem Zeitpunkt NICHT MEHR SO STARK. Trotzdem sank R auf unter 1 was wie beschrieben ein total kritischer Wert ist. Und dann kommt der Lockdown am 23.03. Und seitdem stagniert R oder steigt sogar.

Kein Empiriker dieser Welt würde basierend allein auf diesen Daten ein wissenschaftliches Paper akzeptieren, dass behauptet, die Maßnahmen hätten einen spürbar positiven Effekt. Von dem, was das RKI hier präsentiert müsste man eher davon ausgehen, die Maßnahmen am 16.03. und 23.03. seien schädlich (und vielleicht sind sie das auch, mehr dazu später).

Aber kann es nicht sein, dass ohne die Maßnahmen R wieder gestiegen wäre?

Klar kann das sein. Nur warum sollte es so sein? Es bräuchte erstens eine Theorie, die einen Anstieg begründet. Das RKI bietet zwei:

"Ein Grund dafür, dass der Rückgang der Neuerkrankungen trotz der gravierenden Maßnahmen nur relativ langsam passiert, ist, dass sich das Virus nach dem 18. März stärker auch unter älteren Menschen ausbreitet und wir zunehmend auch Ausbrüche in Pflegeheimen und Krankenhäusern beobachten. Ein weiterer Aspekt ist aber auch, dass in Deutschland die Testkapazitäten deutlich erhöht worden sind und durch stärkeres Testen ein insgesamt größerer Teil der Infektionen sichtbar

wird."

Hier sind mehrere Punkte zu betonen: Erstens hat sich das RKI wiederholt sehr skeptisch geäußert, ob es überhaupt einen Rückgang gibt! RKI-Präsident Wieler hat noch am 14.04. auf NTV gesagt, es gebe "noch keinen eindeutigen Hinweis" darauf, dass die Zahlen zurückgingen (https://www.n-tv.de/ticker/RKI-Zahl-der-Corona-Neuinfektionen-auf-relativ-hohem-Niveau-eingependelt-article21712080.html).

Wenn es aber einen Rückgang gibt, dann kommt der auf jeden Fall von den Maßnahmen!

Im Deutschlandfunk (https://www.deutschlandfunk.de/rki-praesident-wieler-die-leute-duerfen-das-coronavirus.694.de.html?dram:article_id=474283) sagte RKI-Präsident Wieler am 8.04. noch: "Ja, es ist auf jeden Fall ein positiver Trend, und den bringen wir natürlich zusammen mit den Maßnahmen. Das heißt, die Maßnahmen, die von den politischen Entscheidern eingeführt wurden, diese Maßnahmen helfen."

Im gleichen Interview hebt Wieler die Bedeutung von R hervor und sagt: "Unser Ziel ist, dass dieser Wert unter eins kommen muss."

Dieses Ziel war vor dem 23.03. bereits erreicht.

Sind die Zahlen jetzt durch Neuinfektionen in Altersheimen gestiegen? Ich kann das nicht überprüfen, das RKI kann das aber, da die selbstverständlich Informationen dazu haben. Es wäre also kein Problem, den Effekt von Erkrankungen in Altersheimen auf die Reproduktionszahl zu berechnen.

Außerdem muss man sich fragen, ob die Maßnahmen nicht eher zu einem Anstieg der Fallzahlen in den Altersheimen geführt haben. Ohne das Kontaktverbot hätten bestimmt viele Familien ihre Alten zu sich geholt, weniger hätten sich infiziert und die Lage in den Altersheimen wäre vielleicht weniger beengt. Es ist eine unfassbare Tragik, dass die Menschen in den Heimen zuerst jedes sozialen Kontaktes beraubt wurden, mit dem Anspruch, sie dadurch zu schützen, und nun zu sehen, dass sie in diesen isolierten Heimen so rasch erkranken, dass dies als Gefahr für die Gesellschaft gesehen wird, die nur mit weiteren Ausgangsbeschränkungen angegangen werden kann.

Das zweite Argument ist einerseits richtig: Wenn mehr getestet wird, dann steigen die Fälle und herausrechnen lässt sich das nicht so leicht. Aber: Für die Berechnung von R werden ja nur Zeiten verglichen, die in einem Vier-Tage-Fenster liegen. Es kann also eigentlich dadurch nur eine kurzfristige Verzerrung entstehen, es sei denn, die Testkapazitäten werden zum Beispiel die ganze Zeit weiter ausgebaut. Zum Glück gibt es eine Veröffentlichung vom RKI, die ebenfalls am 15.04. erschienen ist und über die Anzahl der Tests ein wenig aufklärt: https://www.rki.de/DE/Content/Infekt/EpidBull/Archiv/2020/Ausgaben/15_20.pdf;jsessionid=747A8B0DFC8D37C50FD8DE06C4BB278F.internet071?__blob=publicationFile

Die folgende Abbildung des RKI zeigt die Tests im März.

Nach dem 16.03. sind die Testzahlen deutlich gestiegen. Das kann eventuell das Abschwächen des Sinkens erklären. Nach dem 23.03. hat sich da aber nichts geändert. Und das RKI weiß das!

Selbst wenn es mögliche Effekte gibt, die zu einer Erhöhung der Reproduktionszahl führen könnten, die dann eventuell von dem positiven Effekt der Maßnahmen abgemildert wurden, ist es absolut unwissenschaftlich, einen solchen Zusammenhang einfach anzunehmen, ohne ihn irgendwie belegen zu können.

Mein Eindruck ist, dass ein Gedanke auf gar keinen Fall aufkommen soll:

Vielleicht helfen die Maßnahmen gar nicht?

Ich weiß es nicht. Ich weiß nur, dass zuwenig darüber nachgedacht wird. Die Annahme eines exponentiellen Wachstums erscheint mir nach wie vor zu artifiziell. Es ist auch merkwürdig, dass sich trotzdem in allen Ländern ein irgendwie ähnlicher Verlauf zeigt. Lest dazu bitte meinen letzten Post: https://politicaldatascience.blogspot.com/2020/04/covid-s-kurven-revisited-eine.html

In China war es laut WHO-Joint-Mission-Bericht (https://www.who.int/docs/default-source/coronaviruse/who-china-joint-mission-on-covid-19-final-report.pdf) so, dass sich ab einer bestimmten Zeit, als nämlich alle eh vorsichtig waren, fast nur noch die Familienangehörigen angesteckt haben. Was, wenn das in Deutschland auch so wäre. Was, wenn die derzeitigen Maßnahmen zwar immense soziale Kosten bedeuten, aber eigentlich nichts helfen? Was, wenn sie sogar schaden, weil auf engstem Raum in Isolation bei gleichzeitigem Gang zur Arbeit für einige und regelmäßigen Gang in den Supermarkt keine Reproduktionszahl von unter 1 zu erreichen ist?

Die Studie des RKI - und dabei bleibe ich - gibt jedenfalls KEINERLEI Hinweis darauf, dass die Maßnahmen vom 23.03. einen positiven Effekt hatten. Ich glaube nicht, dass Zuhause bleiben Leben rettet und nach drei Wochen Lockdown müsste das ansonsten in den Daten deutlich sichtbar sein.

Und was, wenn die Situation eigentlich heute schon ganz anders aussähe, aber nichts, was die Angst reduziert, derzeit politisch erwünscht ist?

Political Data Science

Dieses Blog durchsuchen