Kritik an dem Science-Artikel der Priesemann-Gruppe „Inferring change points in the spread of COVID-19 reveals the effectiveness of interventions“

Der Science-Artikel von Dehning et al. (2020) gilt als Beleg für die Effektivität der Corona-Maßnahmen in Deutschland im März 2020. Wir glauben, dass der Artikel gravierende Fehler enthält und daher nichts darüber aussagt, ob insbesondere das Kontaktverbot vom 23.03.2020, irgendeinen Effekt hatte. Unsere Kritik haben wir bei Science eingereicht und sie ist hier zu finden:

https://science.sciencemag.org/content/369/6500/eabb9789/tab-e-letters

Im folgenden übersetze ich unseren Beitrag und gehe anschließend auf die Frage ein, wie Wissenschaft unter COVID-19-Bedingungen funktioniert und was daran bedenklich ist.

Eine Kritik an ‘Inferring change points in the spread of COVID-19 reveals the effectiveness of interventions’

Wir haben den Artikel ‘Inferring change points in the spread of COVID-19 reveals the effectiveness of interventions’ analysiert und dabei gravierende Unstimmigkeiten im Design der Studie festgestellt: Anstatt das Datum der Wendepunkte (wann sich die COVID-19-Entwicklung in Deutschland verändert hat) aus den Daten herzuleiten, wird das Modell durch das Setzen der Anfangsparameter dazu gebracht, die a priori Annahmen zu bestätigen.

Die Autorinnen verwenden Bayesische Inferernz basierend auf Markov Chain Monta Carlo Sampling um ein epidemiologisches SIR-Modell zu schätzen. Dafür stehen 52 Datenpunkte der täglichen Infektionszahlen in Deutschland (1.03.2020 – 21.04.2020) zur Verfügung und es werden insgesamt 14 Parameter durch die Simulation geschätzt, darunter die Wendepunkte. Das Datum der drei angenommenen Wendepunkte wird a priori als Normalverteilung mit den bekannten Daten der politischen Intervention (9.03.2020, 16.03.2020 und 23.03.2020) als Mittelwert gesetzt. Die Standardabweichung des ersten Wendepunkts beträgt 3, die des zweiten und dritten 1. Warum die Priori-Verteilung für den zweiten und dritten Wendepunkt modifiziert wurde, wird im Artikel nicht begründet. Wir haben das Modell neu berechnet mit einer Standardabweichung von 3 für alle Wendepunkte. Diese geringfügige Veränderung reicht aus, um die Ergebnisse des Modells bedeutend zu verändern: Die Daten für die Wendepunkte sind dann der 8.03.2020, der 18.03.2020 und der 27.03.2020. Damit weichen die vom Modell abgeleiteten Daten stark von den echten Interventionsdaten ab. Besonders der dritte Wendepunkt, der die Wirkung der „Kontaktsperre“ zeigen sollte, liegt nun deutlich hinter dem wirklichen Ereignis. Warum es zu diesem Effekt kommt kann man deutlich in Abbildung 3 der Veröffentlichung sehen.

In dem Hauptmodell der Autorinnen ist die a-posteriori-Wahrscheinlichkeit (grünes Integral) sichtbar durch die a-priori-Wahrscheinlichkeit (graue Linie) bestimmt, was bedeutet, dass die Daten der Wendepunkte, wie sie im Artikel angeben sind, eben nicht durch das Modell hervorgebracht wurden, sondern aus den vorgefassten Annahmen entspringen. Die Autorinnen geben aber als ein zentrales Resultat an, dass es eine starke Korrelation zwischen den durch das Modell ermittelten Daten der Wendepunkte und den Daten der echten politischen Intervention gäbe (“We detected change points in the effective growth rate that correlate well with the times of publicly announced interventions” (Dehning et al., p1)). Dieses Ergebnis ist damit nichtig.

Im Anhang zu dem Artikel (Abbildung S 6) präsentieren die Autorinnen selbst ein alternatives Modell, bei dem die Standardabweichung der Wendepunkte auf 7 gesetzt ist. Die Daten der Wendepunkte, die aus diesem Modell abgeleitet werden, sind nicht durch die a-priori-Wahrscheinlichkeit determiniert. Allerdings ist die Abweichung von den wirklichen Daten noch größer: Das Modell identifiziert den 9.03.2020, den 19.03.2020 und den 28.03.2020 als wahrscheinlichsten Zeitpunkt der Interventionen. Nach den eigenen Maßstäben der Autorinnen hätten sie eigentlich dieses Modell bevorzugen müssen. Denn es hat in den gleichen LOO-Score wie das Hauptmodell und die Autorinnen geben an, dass sie die a-priori-Wahrscheinlichkeiten möglichst breit wählen wollen, um zu Ergebnissen zu kommen, die durch die Daten und nicht durch das Modell begründet sind (“We keep the informative priors as broad as possible so that the data would constrain the parameters” (Dehning et al. 2020, p2)). Dieses alternative Modell (das zu bevorzugen wäre) widerspricht aber der Behauptung, dass es eine gute Korrelation zwischen den inferierten Daten und den Daten der politischen Intervention gäbe.

Warum ist es so wichtig, dass die Wendepunkte nicht durch die a-priori-Wahrscheinlichkeit determiniert sind? Die Autorinnen geben selbst an, dass schon die zwei Parameter Genesungsrate (recovery rate) und Meldeverzug (reporting delay) durch die a-priori-Wahrscheinlichkeiten determiniert sind (Dehning et al. 2020, p2). Wenn jetzt noch die Daten der Wendepunkte durch das Modell und nicht durch die Daten bestimmt sind, dann ist die einzige verbleibende Dynamik, die das Modell überhaupt schätzt, die wöchentliche Oszillation. Das Bedeutet: Wenn man davon ausgeht, dass es genau drei Wendepunkte gegeben hat, die an den bekannten Daten stattfanden und dann auch noch das Modell zwingt, von diesen Daten nicht oder nur gering abzuweichen (und auch noch Genesungsrate und Meldeverzug a-priori vorgegeben sind), dann ist die Ausbreitungsrate (spreading rate), die das Modell ermittelt, nichts weiter als die Reduzierung der täglichen Fallzahlen im Wochendurchschnitt (also der bekannte R-Wert, der auch ganz ohne aufwendige Simulationen berechnet werden kann).

Resultat dieser Kritik ist, dass entweder eingestanden werden müsste, dass das Modell keine Wendepunkte in den Daten identifiziert hat, oder dass die Wendepunkte, die das zu bevorzugende Modell (Abbildung S6) identifiziert nicht gut mit den Daten der echten Interventionen korrelieren. In beiden Fällen müssen wir festhalten, dass das Modell, wie es im Artikel dargestellt wird, keinen Beweis für die Effektivität der politischen Maßnahmen in Deutschland liefert und deshalb auch nicht für die Politikberatung verwendet werden sollte. Da die Pandemie noch nicht vorbei ist, sollten Wissenschaftlerinnen und Wissenschaftler dringend die bisherigen Ergebnisse überprüfen, insbesondere bei Veröffentlichungen, die so direkt den Anspruch formulieren, als Instrument der Politikberatung zu fungieren. Durch das Festhalten an falschen Modellen stehen Leben auf dem Spiel.

Prolog:

Es ist das Privileg der Wissenschaft, Fehler machen zu dürfen, weil wissenschaftlicher Fortschritt eben unterstellt, dass jemand auch falsch liegt. Die Priesemann-Gruppe war in einer Zeit, in der wissenschaftlicher Rat dringend benötigt wurde und die Datenlage noch sehr dünn war, in der Lage, sehr schnell ein solides Modell zu entwickeln und der wissenschaftlichen Gemeinschaft als Erkenntnis anzubieten. Insbesondere haben sie dabei sehr hohe Standards der Reproduzierbarkeit verfolgt (die Modelle sind alle über Github verfügbar und jede und jeder kann sie nachrechnen). Diese Leistung verdient definitiv Respekt.

Ich glaube, dass den Wissenschaftlerinnen dabei ein Fehler unterlaufen ist, und dass dieses Modell und der dazugehörende Artikel sogar zurückgezogen werden sollte. Zu dieser Erkenntnis bin ich aber auch erst nach mehreren Wochen intensiver Beschäftigung mit dem Modell gekommen. Insofern kann man noch nicht einmal von einem Versagen des Begutachtungsprozesses sprechen. Ich glaube einfach, dass unsere Analyse des Priesemann-Papers neues Wissen hervorgebracht hat, was bis dato nicht verfügbar war.

Wir sind mit der Priesemann-Gruppe in Austausch getreten und haben in diversen Emails und in einem Videocall versucht, uns gegenseitig zu überzeugen, was jedoch keiner der beiden Seiten gelungen ist. Normalerweise gibt es bei Science für diese Situation das Instrument des „Technical Comments“, ein Kommentar, der auf methodische Schwachstellen in publizierten Artikeln hinweist, selbst noch einmal durch einen Begutachtungsprozess geht und dann veröffentlicht wird mit der Möglichkeit für die Autorinnen, dazu Stellung zu nehmen. Leider – und das halte ich für geradezu gefährlich – hat Science entschieden, dass bei COVID-19-Artikeln dieser Weg der Klärung generell nicht zur Verfügung steht. Anstelle von technischen Kommentaren mit Begutachtung gibt es nur e-Letter, die nicht begutachtet sind und auch nicht dazu führen werden, dass falsche Erkenntnisse revidiert werden.

Deep-Dive Impfeffektivität: Eine kritische Datenanalyse der RKI-Berechnungen / Teil 1: Die Methode

Die Einschätzung, wie effektiv die COVID-Impfung ist, ist eine der politisch relevantesten Kennzahlen derzeit. Insbesondere für die Einschätzungen der Angemessenheit einr Impfpflicht ist diese Zahl extrem wichtig. In der Vergangenheit hat sich immer wieder gezeigt, dass die Berechnungen des RKI nicht in jeder Hinsicht eindeutig sind, sondern auf vielen Annahmen beruhen, die man auch kritisch hinterfragen kann und muss. Für die politische Datenwissenschaft ist es daher essenziell, diese Berechnungen nachvollziehbar zu machen. In diesem Beitrag wird das methodische Vorgehen des RKI zur Berechnung der Impfeffektivität analysiert. Die Informationen dazu entstammen den RKI-Wochenberichten . In einem zweiten Teil habe ich die konkreten Berechnungen des RKI so weit wie möglich rekonstruiert und kann daher zeigen, wie stark die Ergebnisse schwanken, wenn Annahmen leicht verändert werden. Meine Erkenntnisse aus der folgenden Analyse: Das RKI verwendet zur Berechnung der Impfeffektivität di...

Political Data Science

Dieses Blog durchsuchen