Der große Test: Warum eine Politik, die sich an den #COVID19-Fallzahlen orientiert, aus Perspektive der politischen Datenwissenschaft fahrlässig ist

Bei der Interpretation „der Zahlen“ wird jeder datenwissenschaftliche Standard ignoriert. Die COVID19-Politik, die auf den ersten Blick evidenzbasiert – weil an Daten orientiert – erscheint, ist auf dieser Basis nicht zu begründen. Im Folgenden werden Punkte aufgeführt, die eindeutig belegen, dass die gängige Interpretation „der Zahlen“ durch Politik und Medien unzureichend ist.

Jeden Tag werden die „Fallzahlen“ berichtet. Es gibt ein neues Rekordhoch bei den COVID19-Fällen zu verkünden oder einen moderaten Rückgang, der uns aufatmen lassen soll. Im R-Wert werden die Fälle der letzten Woche mit denen von heute ins Verhältnis gesetzt, um das Infektionsgeschehen abzubilden. Die Inzidenzwerte setzen die Fälle in Verhältnis zur Bevölkerungszahl und machen so die Entwicklung in Berlin und Bayern vergleichbar. Auch die absolute Zahl der Fälle seit Februar wird täglich in den Medien berichtet, um die Dramatik der Entwicklung deutlich zu machen. Und wer sich wirklich schaudern will, schaut auf die Todeszahlen, also wie viel Fälle bislang schon verstorben sind – auch das als Tageswert oder absolut oder im Verhältnis zur Bevölkerungszahl. Selbst die Frage nach der Auslastung des Gesundheitssystems lässt sich nur dadurch beantworten, dass die COVID19-Fälle in den Intensivstationen gezählt werden. Es stellt sich nur eine Frage: Was ist eigentlich ein Fall?

Schon diese Definition ist eine politische.

Falldefinitionen

Bei der Falldefinition muss man unterscheiden zwischen Fällen die dem RKI gemeldet werden müssen und solchen, die das RKI auch in seine Berichte aufnimmt (Referenzdefinition). Wenn ein*e Ärztin*Arzt eine COVID19-Infektion feststellt, muss dies gemeldet werden, auch wenn gar kein Labortest gemacht wird. Solche Fälle werden aber nicht in die Berichte des RKI aufgenommen. Bereits in der Falldefinition vom 23.02.2020 geht das Robert-Koch-Institut (RKI), das für die Falldefinition zuständig ist, einen interessanten Weg: Das klinische Bild einer COVID19-Erkrankung ist sehr uneindeutig. In der Februar-Falldefinition werden „akute respiratorische Symptome jeder Schwere“ als spezifisch klinisches Bild angegeben und „unspezifische Allgemeinsymptome“ oder „krankheitsbedingter Tod“ als unspezifisches Symptom, also als Hinweis auf COVID19. Es ist unmittelbar ersichtlich, dass man aus diesen Symptomen bei einer*einem Patient*in nicht auf eine COVID19-Erkrankung zurückschließen kann. (Seit dem 24.03.2020 ist die Definition geändert, ohne aber eine eindeutige Symptomatik zu enthalten. Spezifisch ist jetzt eine Lungenentzündung und unspezifisch „akute respiratorische Symptome jeder Schwere“). Wenn sich eine COVID19-Erkrankung also nicht durch eine normale medizinische Untersuchung der Patient*innen feststellen lässt, wie dann?

Das RKI hat sich von Anfang an darauf festgelegt, auf labordiagnostische Verfahren (Erregerisolierung oder Nukleinsäurenachweis (PCR)) zu setzen. Nur Fälle mit positiven Testergebnis werden in die Statistiken (Referenzdefinition) aufgenommen. Das heißt, ein*e Patient*in, bei der*dem COVID19 aufgrund der Symptomatik und vielleicht der epidemiologischen Situation (Kontakt mit bestätigten Fällen) diagnostiziert wird, wird zwar gemeldet, aber nicht als offizieller Fall geführt. Umgekehrt ist jeder positiver Test ein offizieller Fall: Explizit auch dann, wenn ein anderes klinisches Bild vorliegt, dass nicht zu COVID19 passt, wenn gar keine Symptome vorliegen oder wenn keine klinische Untersuchung stattgefunden hat. Die Falldefinition des RKI ist also etwas völlig anderes als ein medizinischer Befund. Und zwar aus nachvollziehbaren politischen Gründen: Ein*e Ärztin*Arzt erstellt eine Diagnose eines Individuums, um bei einer möglichen Erkrankung zu helfen. Das RKI hat die Aufgabe, die Ausbreitung einer Krankheit in der Gesellschaft zu überwachen und wenn möglich zu verhindern. Bei COVID19 kommt hinzu, dass offenbar eine Ansteckung auch möglich ist, bevor Symptome sichtbar werden. Vom Standpunkt der Ausbreitung der Krankheit ist es daher logisch, auch Personen als Fall zu führen, die vielleicht nie krank werden. Aber es ist entscheidend festzuhalten, dass die Zahl der bestätigten Fälle und die Zahl der Erkrankungen zwei verschiedene Größen sind: Diese Zahlen gehen sogar sehr weit auseinander. Laut RKI-Lagebericht vom 10.11.2020 (S. 6) sind bei 35% der bestätigten Fälle keine klinischen Informationen vorhanden, sprich: Diese Personen waren vermutlich nie bei einem Arzt. Von den Fällen mit klinischen Informationen sind 15% bestätigter Weise symptomfrei (was 10% aller bestätigter Fälle entspricht). Insgesamt sind also bei 45% aller bestätigter Fälle keine Symptome oder keine Informationen über Symptome. Tabelle 1 zeigt die absoluten Fallzahlen für diese Kategorien und den entsprechenden prozentualen Anteil an den absoluten Fallzahlen.

Tabelle 1: Asymptopische Fälle

Quelle: RKI-Lagebericht vom 10.11.2020, eigene Berechnung

Wer ernsthaft erkrankt, wird vermutlich irgendwann bei einem Arzt auftauchen. Schon hier wird also bereits deutlich, dass es sachlich einfach falsch ist, die Zahl der bestätigten Fälle mit COVID19-Erkrankungen gleichzusetzen. Das gleiche gilt auch für die Todeszahlen. Denn jeder bestätigte COVID19-Fall, der verstirbt wird in der RKI-Statistik als COVID19-Toter gezählt, ganz egal, ob überhaupt krankheitstypische Symptome vorlagen oder nicht. Im Extremfall ist also ein Toter bei einem Autounfall ein COVID19-Todesfall, wenn zuvor (oder danach) ein Test positiver Test gemacht wurde.

Dass es sich dabei um eine politische Entscheidung handelt, zeigt der Blick ins Ausland. In den USA ist eine wesentlich weitergefasste Falldefinition gewählt worden. Bemerkenswert ist u. a. dass die Referenzdefinition auch unbestätigte, aber wahrscheinliche Fälle enthält („probable“). Dazu zählt dann jeder Fall, der eine Kombination aus klinischen Symptomen und epidemiologischen Merkmalen (z. B. Kontakt zu einem anderen wahrscheinlichen Fall) aufweist. Bei der Laborbestätigung werden zudem nicht nur die in Deutschland verwendeten PCR-Tests sondern auch Antigentests und Antikörpertests berücksichtigt. Es ist also schon aus der Falldefinition ableitbar, dass es in den USA relativ gesehen wesentlich mehr Fälle geben muss.

Fazit: Die Falldefinition ist politisch: Was als Fall zählt bestimmt sich aus dem Anliegen, den Überblick über das Infektionsgeschehen zu behalten. Die labordiagnostische Untersuchung ist dabei in Deutschland entscheidend und klinische und epidemiologische Aspekte werden vernachlässigt. Eine Analyse der „Zahlen“ muss die Falldefinition(en) berücksichtigen.

Wer wird getestet?

Wenn also alles an einem positiven Test hängt, dann ist die Fallzahl maßgeblich davon abhängig, wer getestet wird. Und zwar sowohl quantitativ, wie viele Tests es gibt als auch qualitativ, welche Personengruppen getestet werden. Mitte März wurden ca. 350.000 Tests pro Woche durchgeführt. Mitte November sind wir bei über 1.500.000 wöchentlichen Tests. Selbst wenn also die Fallzahlen jetzt viermal so hoch wären wie im März ließe sich aus diesem Umstand allein noch keine veränderte Lage ableiten. Denn wenn ich viermal so oft teste, dann gibt es auch viermal so oft die Möglichkeit, dass ein Test positiv ausgeht. Obwohl niemand diesen Zusammenhang abstreiten kann, wird er meistens ignoriert. Stattdessen wird darauf verwiesen, dass ja auch der qualitative Aspekt zu berücksichtigen ist. Und das stimmt auch. Denn von 100 Tests in einem Pflegeheim mit bekanntem COVID19-Ausbruch werden vermutlich mehr Tests positiv sein, als wenn ich 100 Leute an der Autobahn teste, die gerade einen Sparziergang in den österreichischen Alpen gemacht haben. Wir müssen annehmen, dass es unterschiedliche Vorwahrscheinlichkeiten (Prävalenz) gibt. Das heißt dann aber, dass die Daten ohne Informationen über die Prävalenz nicht aussagekräftig sind. Wenn man trotzdem Schlüsse daraus ziehen möchte, dann wäre eine einfache Gewichtung anhand der absoluten Testzahlen auf jeden Fall den rohen absoluten Werten vorzuziehen wären. Stattdessen schaut die Öffentlichkeit nach wie vor gebannt auf die absoluten Zahlen, begleitet von einem „Raunen“, dass ja auch die Positivrate der Tests – also der prozentuale Anteil aller positiven Testergebnisse – steigt. Das Steigen der Positivrate zeigt aber für sich genommen eben nur, dass pro Test mehr Fälle gefunden werden. Solange man nicht die Prävalenz in den unterschiedlichen Gruppen kennt, die getestet werden, ist völlig unklar, ob man mehr findet, weil es mehr gibt, oder weil in anderen Gruppen gesucht wird.

Wer getestet wird ist allerdings erneut eine politische Entscheidung. Seit Beginn der Pandemie macht das RKI Vorgaben, wann ein Test durchgeführt werden soll und wann nicht. Aus der Anleitung für Ärzt*innen vom 23.03.2020 geht zum Beispiel hervor, dass nur Personen getestet werden, die Kontakt mit einem bekannten Fall hatten oder wenn in Krankenhäusern vermehrt Lungenentzündungen auftreten. Seit Mitte Mai wurde jede Person mit Symptomen getestet. Und seit Anfang November ist die Definition, wer getestet werden soll, ziemlich komplex geworden:

Abbildung 1: Testkriterien seit dem 3.11.2020

Quelle: RKI, https://drive.google.com/file/d/1mYqu8edIFCbb1owimOblreWqeVM1mDHe/view?usp=sharing

Wenn jetzt statt Personen mit jeder Art von Symptomen nur solche mit schweren Symptomen getestet werden, ist zum Beispiel davon auszugehen, dass in dieser Gruppe mehr positive Fälle gefunden werden. Andererseits sind eventuell in der Gruppe der Personen, die Kontakt hatten, durch die neue Definition weniger Personen mit positiven Befunden enthalten, weil Personen, die Umgang mit Risikogruppen oder Personen die im Gesundheitssystem arbeiten haben, vielleicht vorsichtiger sind. Wie sich die veränderte Teststrategie auf die Fallzahlen auswirkt, lässt sich also nicht einfach sagen. Allerdings ist ziemlich klar, dass sie sich (u. U. auch massiv) auswirken wird. Wenn jetzt Mitte November mit einiger Verzögerung eine Trendwende in den Daten zu sehen ist (es gibt die „Hoffnung“, dass „die Zahlen“ sinken“) dann lässt sich nicht ausschließen, dass dies auf die veränderte Teststrategie zurückzuführen ist.

Die veränderte Teststrategie hat zumindest zu einem deutlichen Rückgang der Tests um 12% geführt. Bei gleichen Tests hätten wir also viel höhere Zahlen erwartet.

Fazit: Ohne die Veränderungen in der Anzahl der Tests und in der Teststrategie zu berücksichtigen, sind die Fallzahlen nicht aussagekräftig.

Wie wird getestet?

Welche Tests anerkannt sind, ist – schon wieder – eine politische Entscheidung. Wie oben erwähnt, zählen in den USA sowohl PCR, als auch Antigentests für die Referenzdefinition. In Madrid gehen gerade „die Zahlen“ nach unten, was alle so verblüfft, dass vom „Wunder von Madrid“ gesprochen wird. Allerdings könnte es sein, dass der Rückgang wenig mit irgendwelchen Maßnahmen zu tun hat, sondern einfach mit einem anderen Testverfahren: Laut WELT hat Madrid 5 Millionen Antigentest gekauft und nutzt nun diese. Vielleicht sind diese Tests ja einfach weniger sensitiv als die PCR-Tests die bis dato verwendet wurden. In Deutschland zählt der direkte Erregernachweis durch Kultivierung (was aber nur von speziellen Laboren durchgeführt werden kann und wesentlich aufwendiger ist) und PCR-Tests. Es ist dabei ein sehr verbreitetes Missverständnis, über DEN PCR-Test zu sprechen. In Wahrheit gibt es nämlich sehr unterschiedliche Tests. Das Bundesinstitut für Arzneimittel und Medizienprodukte führt derzeit 660 verschiedene Tests (Antigen, Antikörper und PCR) von diversen Herstellern auf. Alle zugelassenen Tests sind natürlich geprüft worden. Das heißt aber nicht, dass alle Tests gleich oder gleich gut funktionieren. Ein häufig angewandter PCR-Test ist cobas® SARS-CoV-2 von der Firma Roche. Wie bei allen PCR-Tests für Covid19 wird die RNA in den Proben aufgebrochen und dann wird das Signal in den Proben in sogenannten Cycle-Thresholds (Ct) verstärkt. In dieser aufbereiteten Probe wird dann nach Genen gesucht, die für das Corona19-Virus charakteristisch sind. Die Tests unterscheiden sich darin, nach welchen Genen gesucht wird und ob nach zwei unterschiedlichen Genen (wie bei Roche) oder nur nach einem gesucht wird (wie zum Beispiel beim genesig® Real-Time PCR).

Manche der Gene, die in den Tests untersucht werden, treten auch bei anderen Viren auf. Das Target 2 Gen im Roche Test ist z. B. auch bei SARS-Covid auffindbar (cobas® SARS-CoV-2, S. 23). Auch die Studien, mit denen die Zulassung der Tests erreicht wird, unterscheiden sich. Roche hat für sieben unterschiedliche Konzentrationen des Virus jeweils 21 Versuche durchgeführt, beim genesig® Real-Time PCR waren es 36. Der eigentliche klinische Test, auf den sich dann die Aussagen zur Genauigkeit beziehen, wurde von Roche anhand von 50 echten Proben von Patienten mit Symptomen und 100 negativen Proben durchgeführt (cobas® SARS-CoV-2, S. 24-25). In diesem Versuchsaufbau hat der Test alle Proben richtig als positiv oder negativ erkannt (Genauigkeit 100%). Es ist aber anzumerken, dass erstens nur positive Proben untersucht wurden von Leuten die tatsächlich erkrankt waren (Symptome und ärztlicher Befund). Der Test wird aber auch als positiv gewertet, wenn keine Erkrankung vorliegt. Es wird also etwas Anderes getestet als in der klinischen Studie. Deshalb steht im Handbuch – und bei anderen Tests ebenfalls – auch ganz deutlich: „Results of this test should only be interpreted in conjunction with information available from clinical evaluation of the patient and patient history“ (cobas® SARS-CoV-2, S. 17). Da das RKI in der Falldefinition aber explizit Fälle ohne Symptome oder epidemiologischen Hintergrund einschließt, muss man festhalten, dass die PCR-Tests nicht wirklich das messen, was sie messen sollen. In der Statistik würde man sagen, die Validität der Tests ist zweifelhaft. Zweitens ist zu bedenken, dass 50 positive Proben nicht besonders viel sind. Statistisch zeigt sich das in den Konfidenzintervallen. Zwar hat die Studie eine Genauigkeit von 100% ergeben, es wäre mit einer Wahrscheinlichkeit von 95% aber auch eine Genauigkeit von 86,7% beim Erkennen von positiven Fällen und 96,3% bei den negativen Proben möglich. Wie wichtig diese Zahl ist, wird deutlich, wenn wir uns ein konkretes Beispiel anschauen. In der 45. Kalenderwoche wurden 123.383 Personen positiv auf Covid19 getestet. Die klinische Studie des Roche-Tests sagt nun, dass wir mit 95%-Wahrscheinlichkeit davon ausgehen können, dass zwischen 0 und 4.565 dieser positiven Fälle in Wirklichkeit negativ waren.

Wenn berichtet wird, „der PCR-Test“ hätte eine Genauigkeit von 100%, dann bezieht sich das in der Regel auf die Studien der Hersteller mit relativ kleinen Fallzahlen und einer sorgfältigen Durchführung im eigenen Labor wobei die Konfidenzintervalle nicht beachtet werden. Es ist utopisch anzunehmen, dass solche Ergebnisse erreichbar sind, wenn pro Woche 1,5 Millionen Tests durchgeführt werden und die Qualität der Abstriche und Reagenzien stark variiert und es an jeder Stelle der Testkette zu Fehlern (falsche Temperatur, zu lange Wartezeiten, etc.) kommen kann. Ein Test der Tests unter echten Bedingungen wäre daher sehr wünschenswert.

Unabhängig von der Qualität der Tests als labortechnisches Werkzeug müsste es auch darum gehen, die Qualität der Labore zu überprüfen. Denn jeder weiß, dass auch ein akkurater Test fehlerhaft angewandt werden kann. Im Ansatz findet dies auch statt. INSTAND e.V. sendet im sogenannten Ringversuch Proben an die Labore und wertet dann deren Performance aus. Über die Qualität des Tests lassen sich so zwar kaum Aussagen machen, aber es wird stichprobenartig die Performance der Labore überprüft. INSTAND e.V. bescheinigt den 284 Laboren (das sind bei weitem nicht alle), die im April am Ringversuch teilgenommen haben, eine sehr gute Auswertung der eingeschickten Proben. Die Ergebnisse der Ringversuche, die seitdem stattgefunden haben sind leider bislang nicht veröffentlicht worden. Insofern ist es unmöglich, einen Rückschluss auf die Qualität der Labore zu ziehen.

Es gibt inzwischen auch Studien, die die unterschiedlichen Ansätze in Bezug auf die untersuchten Gene evaluieren. Vogels et al. 2020 kommen im Journal Nature – Microbiology zu dem Ergebnis, dass die unterschiedlichen Tests ähnlich gut performen: Mit einer Ausnahme, nämlich dem Test der Charité in Berlin, dem eine geringere Sensitivität bescheinigt wird. Es wäre also nicht auszuschließen, dass Deutschland im Vergleich zu anderen Europäischen Ländern einfach nur deshalb „besser“ dasteht, weil häufig ein Test verwendet wird, der weniger Fälle identifiziert.

Fazit: Ohne Informationen, welcher Test denn wie oft durchgeführt wurde, wie genau die einzelnen Tests tatsächlich sind und ob sich diese Genauigkeit auch im massenhaften Einsatz bewährt, ist es im Prinzip unmöglich, aus den Testzahlen irgendetwas abzuleiten.

Wie wird der Test ausgewertet?

Häufig wird behauptet, die PCR-Tests würden nur positiv gewertet, wenn zwei Gene gefunden wurden. Das Labor Bioscientia gibt auf seiner Webpage an, dass es auch Tests als positiv wertet, bei denen nur ein Gen gefunden wurde und das unabhängig vom Ct-Wert. Bei Eurofins scheint die Praxis ähnlich zu sein (siehe Scan):

Das Augsburger MVZ-Labor hatte auf seiner Webpage folgenden Text stehen:

„Falls die Probe mit dem Verfahren der Fa. Roche analysiert wurde, haben wir die Messergebnisse für beide Zielsequenzen der PCR (ORF1- und E-Gen) getrennt angegeben. Das ORF1-Gen ist dabei für SARS-CoV-2 spezifisch, während das E-Gen auch in anderen Coronaviren vorkommt. Die Fälle, in denen nur das ORF-Gen amplifiziert wurde, haben wir auch bisher schon positiv bewertet. Wenige Fälle mit isoliert positivem E-Gen wurden als fraglich eingestuft und führten deshalb immer wieder zu Rückfragen und Problemen hinsichtlich des weiteren Managements betroffener Patienten. Unter Berücksichtigung der epidemiologischen Situation und der insgesamt gestiegenen Positivenrate folgen wir ab sofort der WHO-Empfehlung und geben ein Ergebnis bereits dann als „positiv“ heraus, wenn nur das E-Gen amplifiziert wurde. Um den Befund zu vereinfachen, erscheint deshalb zukünftig nur noch ein Gesamtergebnis (positiv oder negativ). Ein Ergebnis ist positiv, wenn mindestens eine der beiden Zielsequenzen des SARS-CoV-2 im Abstrichmaterial nachgewiesen wurde.“

Dieser Text wurde inzwischen entfernt, ist aber archiviert. Interessant ist hier erstens, dass es um den beschriebenen Roche Test geht, der eigentlich tatsächlich auf zwei Gene testet. Zweitens handelt es sich bei dem MVZ-Labor interessanterweise um das Labor, was später durch eine hohe Anzahl falsch-positiver Tests auffiel.

Drittens beruft sich das MVZ-Labor auf die WHO und macht damit erneut klar, dass die Diagnose von COVID19 eine politische Entscheidung ist. Denn das Labor hat Recht: Die WHO stellt in ihrer Empfehlung klar: „In areas where COVID-19 virus is widely spread a simpler algorithm might be adopted in which, for example, screening by rRT-PCR of a single discriminatory target is considered sufficient.“ Dass plötzlich ein Gen ausreichen soll, ergibt aus epidemiologischer Sicht durchaus Sinn: Denn wenn die Prävalenz steigt, dann ist auch ein unsicherer Test eher positiv. Problematisch ist nur, dass ja inzwischen ganz Deutschland ein Risikogebiet ist. Wenn deshalb die Auswertung der Tests verändert wird (ein Gen reicht), dann steigen selbstverständlich die Fallzahlen, weil die Zahl der falsch-positiven Tests steigt. Allerdings muss man festhalten, dass immer wieder „Massentests“ durchgeführt werden, bei denen sehr wenige positive Resultate auftreten. Dass der Test also prinzipiell eine hohe Anzahl von falsch-positiven Ergebnissen liefert, kann daher ausgeschlossen werden. Das nützt nur leide wenig, da sich nicht einschätzen lässt, wie viele der positiven Tests nun falsch sind.

Die zweite große Frage bei der Auswertung ergibt sich aus dem Cycle Threshold (Ct). Dieser Wert zeigt, wie stark das Signal in der Probe verstärkt werden muss, bis ein positives Resultat gefunden wird. Das Problem ist, dass PCR-Tests eben nicht nach dem vollständigen Virus, sondern nach einem oder zwei Genen suchen. Diese Gene können – bei hohem Ct-Wert – auch dann gefunden werden, wenn gar kein Virus vorhanden ist. Bei Proben, die einen hohen Ct-Wert haben, sinkt die Wahrscheinlichkeit, dass sich das Virus aus der Probe vermehren lässt. Das Misslingen der Virusanzucht spricht dafür, dass zum Zeitpunkt des Tests auch keine Krankheit vorlag. Das bestätigt laut SZ auch das RKI, zumal ein PCR-Test noch Monate nach einer Infektion Erreger nachweisen kann. Die New York Times berichtete, dass im Staat New York 63% der Tests nicht mehr als positiv gezählt würden, wenn man einen Ct-Wert von 30 anlegen würde. Es gibt zwei Gründe dafür, warum dies nicht getan wird: Erstens sind die Ct-Werte sehr relative Größen, die vom Test und den verwendeten Reagenzien abhängen. Zweitens geht man davon aus, dass COVID19 schon übertragen werden kann, bevor man selbst Symptome hat. Auch dann wäre der Ct-Wert eventuell hoch und dieses Risiko soll offenbar vermieden werden.

Aber was man auch hier wieder sieht: Die Frage, ob jemand ein COVID19-Fall ist oder nicht, ist eine politische, keine medizinische.

Fazit: Ohne zu wissen, wie welche Tests ausgewertet werden, lässt sich nicht einschätzen, wie viele Testergebnisse falsch positiv sind.

Wie werden die Tests über die Zeit verglichen?

Der letzte Punkt, der eine Interpretation der Zahlen, wie sie jeden Tag vorgenommen wird, ad absurdum führt, ist die Tatsache, dass über einen längeren Zeitraum einfach völlig unterschiedliche Dinge verglichen werden. Wenn sich die Falldefinition, die Teststrategie, die Tests selbst und die Testauswertung in den letzten Monaten mehrfach verändert haben, wie soll man dann die „Zahlen“ von heute mit denen von vor vier Monaten vergleichen? Die Antwort ist einfach: Es geht nur, wenn all diese Veränderungen berücksichtigt werden. Das geschieht aber nie. Es ist auch extrem schwierig, weil die entsprechenden Daten ja gar nicht bekannt sind. Also vergleicht man einfach munter die Fallzahlen im November mit denen im April und ignoriert alle Probleme. Die Politik tut dies, Virolog*innen tun dies, die Medien tun dies täglich, wenn sie über die Fallzahlen berichten oder die Kurve der Fallzahlen im Jahresverlauf einblenden. Aber obwohl alle es tun ist es eine Praxis, die so unwissenschaftlich ist, wie Kaffeesatzleserei. Aus dem Flug der Schwalben die Entwicklung der Pandemie abzulesen, wäre vermutlich sogar seriöser als das tägliche Schauen auf die Zahlen und gleichzeitige Wegschauen von allen systematischen Veränderungen in ihrer Erhebung. Denn das zweite große Problem bei Betrachtungen über die Zeit ist, dass man Zeitreihen statistisch gesehen nicht einfach wie Laborwerte betrachten kann. Denn offenbar gibt es einen Trend bei der Entwicklung der Fallzahlen. Warum sonst sollte man auch davon ausgehen, dass die Fallzahlen im Herbst „selbstverständlich“ steigen werden. Niemand wird bestreiten, dass bei COVID19 saisonale Trends zu berücksichtigen sind. Und deshalb müsste man diese Trends erst aus den Daten entfernen, bevor man zu Vergleichen ansetzt. In einem Land, in dem die Arbeitslosenquote saisonal bereinigt wird, sollte dies eigentlich selbstverständlich sein.

Den wahren saisonalen Trend zu bestimmen ist allerdings sehr anspruchsvoll, weil ja gar keine Daten über mehrere Jahre vorliegen. Anscheinend nimmt man allerdings an, dass die Verbreitung von COVID19 einem ähnlichen Trend folgt, wie die saisonale Grippe. Dann müsste man allerdings „die Zahlen“ auch um diesen Trend bereinigen, was aber nicht geschieht.

Fazit: Ohne die Veränderungen der Definition der Daten über die Zeit zu berücksichtigen, lassen sich keine Vergleiche der Situation heute mit der vor ein paar Monaten oder Wochen ziehen. Wegen der Saisonalität des Geschehens müssten zusätzlich Trends aus den Daten entfernt werden, bevor irgendein Vergleich angestellt werden kann.

Wie werden politische Maßnahmen getestet?

Die Saisonalität der COVID19-Fälle zeigt, dass es offenbar starke Faktoren gibt, die die Entwicklung beeinflussen, die eher indirekt wirken, wie offenbar das Wetter. Die Politik und die Berichterstattung in den Medien nehmen jetzt aber die Fallzahlen als Indikator, um daraus politische Maßnahmen abzuleiten. Der „Erfolg“ der Maßnahmen wird dann ebenfalls an den Fallzahlen überprüft. Dabei wird gegen alle Gesetze der Logik verstoßen: Das pure Ansteigen „der Zahlen“, zum Beispiel gemessen als Inzidenzwert pro 100.000 Einwohner, reicht aus, um politische Maßnahmen zu begründen. Wenn die Zahlen dann tatsächlich sinken, macht sich niemand die Mühe, dies als Effekt der Maßnahmen zu zeigen (zur Erinnerung: Vielleicht wurde die Falldefinition geändert, oder die Teststrategie, oder die Tests, oder die Auswertung der Tests, oder es gab eine saisonale oder sonstige Entwicklung, die unabhängig von den Maßnahmen war). Selbst wenn „die Zahlen“ sinken, wie jetzt Mitte November, kann daraus auch gefolgert werden, dass die Maßnahmen zwar wirken, aber man noch mehr tun muss. Wenn „die Zahlen“ aber trotz der Maßnahmen steigen, dann ist der einzige Schluss, dass man noch nicht genug getan hat.

Diese politische Auffassung geht von der Grundannahme aus, die Verbreitung des Virus sei vollständig politisch kontrollierbar durch die bekannten Maßnahmen. Ob dem so ist, ist aber mehr als fraglich. Was politisch kontrollierbar ist, ist die Entstehung der Zahlen.

Fazit: Für eine Beeinflussung der Pandemie durch politische Entscheidungen kann es erst Evidenz geben, wenn all die genannten politischen Faktoren aus den Zahlen herausgerechnet werden.

Ohne die Zahlen kritisch zu hinterfragen wird aus der COVID19-Strategie noch ein ganz anderer großer Test, nämlich auf die politische Macht zur Kontrolle der Bevölkerung mit Hilfe von technokratischen obskuren Zahlen. Das Element der Aufklärung, dass in einer evidenzbasierten Politik steckt, schlägt gerade um in sein Gegenteil: einen totalitären Glauben an die Macht der Zahlen und die dahinterstehende Mächtigkeit der Politik.

Eine Entscheidungshilfe, ob man sich zu „den Zahlen“ äußern sollte

Wenn die Zahlen so schlecht sind, was kann man dann tun?

Im Prinzip gibt es zwei Wege: Entweder man versucht, die genannten Einflussgrößen zu berücksichtigen und arbeitet mit Modellen, die in ihrer Komplexität der Lage angemessen sind. Derzeit wird aber gerade versucht, die Komplexität auf eine einzige Nummer zu reduzieren. Das muss schief gehen. Der zweite Weg besteht darin, die Auswirkungen der Pandemie und der Maßnahmen auf einer höheren Ebene zu betrachten, auf der sich Systemzustände eventuell besser abbilden lassen. Gibt es Effekte auf die Sterblichkeit? Ist die Zahl der Hospitalisierungen höher als sonst üblich? Haben sich die Fälle der respiratorischen Krankheiten insgesamt verändert? Solche Daten auf der Makroebene sind relativ leicht zu überprüfen. Das Problem ist dann natürlich, wie man diese Zahlen interpretiert. Man kann nämlich immer sagen, es gibt keine Übersterblichkeit, weil die Maßnahmen so gut funktioniert haben. Oder umgekehrt, wenn mehr Leute sterben lässt sich auch argumentieren, dass das Resultat der Maßnahmen ist (z. B. wegen Einsamkeit). Es braucht also immer eine zugrunde liegende Theorie. Dabei gelten zwei Grundsätze: Eine Theorie, die mit weniger Annahmen auskommt und dieselben Phänomene erklärt, ist in der Regel vorzuziehen. Eine Theorie hingegen, die beständig neue Hilfsannahmen einführen muss, um nicht falsifiziert zu werden, verliert an Erklärungskraft. Letzteres scheint mir bei der Theorie, dass die Pandemie politisch steuerbar ist, der Fall zu sein.

Political Data Science

Dieses Blog durchsuchen