Direkt zum Hauptbereich

Lineare Regression erklärt für Nicht-StatistikerInnen



Eine Regression beschreibt einen Zusammenhang zwischen einer abhängigen Variable (response) und einem oder mehreren unabhängigen Variablen (predictors).
bei der linearen Regression geht man davon aus, dass die Response-Variable auf die Predictor-Variable immer gleich reagiert: Wenn z. B. der Predictor von 4 auf 5 steigt, und dass zu einer Veränderung der Response von vorher 12.5 auf 13 führt, dann würde man erwarten, dass die Response auf 13.5 steigt, wenn der Predictor den Wert von 6 annimmt.
Die Frage ist, was heißt „würde man erwarten“ genau:  Im Prinzip ist damit gemeint, dass 13.5 der wahrscheinlichste Wert ist, der AUF BASIS DER ANNAHMEN DES MODELLS zu erwarten ist. Das heißt also nicht, dass nicht auch ein anderer Wert auftreten kann, sondern nur, dass jeder andere Wert unwahrscheinlicher ist, sofern die Annahmen des Modells zutreffen.

Welche Annahmen und welches Modell überhaupt?

Mathematisch lässt sich der angenommene Zusammenhang zwischen Response und Predictor so ausdrücken:

y = α + βx + ε

Das sieht schon sehr schick aus, ist aber absolut simpel, wenn man sich klar macht, welches Zeichen wofür steht: y ist die Response und x ist der Predictor. β ist der Einflussfaktor des Predictors. Im Beispiel oben steigt y um 0.5, wenn x um 1 steigt. Wenn also x um 2 steigt, dann steigt y um 1. β ist also 0.5 in diesem Beispiel. Einfach y = 0.5x zu schreiben wäre aber verkehrt. Welchen Wert für y würde man im oberen Beispiel erwarten, wenn x gleich 0 wäre? Senkt man x um 1 sinkt y um 0.5. Wenn wir x um 4 verringern, sinkt y also 2. Bei einem x-Wert von 0 würden wir also einen y Wert von 10 erwarten. Und genau das ist α. Für das obige Beispiel lässt sich also schreiben: y = 10 + 0.5x. Stellt man sich einen Plot mit den x und y Werten vor, und zeichnet eine Linie durch die Punkte, dann schneidet diese Linie die x-Achse bei 10. α nennt man deshalb intercept. Bleibt nur noch ε. Das ist der Fehlerwert, der zeigt, wieweit die echten Werte von den Werten abweichen, die das Modell als die wahrscheinlichsten vorhersagt, z. B. wenn der y-Wert bei einem x-Wert von 6 nicht 13, sondern 12.8 wäre.
Die Berechnungen des Models kann man in jedem Statistikbuch nachlesen, z.B. bei Gelman, Andrew und Jennifer Hill. 2007. Data analysis using regression and multilevel/hierarchical models. Cambridge: Cambridge University Press; oder bei Dormann, Carsten F. 2013. Parametrische Statistik. Berlin: Springer.
Wichtig ist, dass lineare Regressionen auf zwei Annahmen basieren, die häufig nicht zutreffen: 
1) Das Modell geht davon aus, dass y einer Normalverteilung folgt. Dies impliziert die Annahme, dass Werte gleichermaßen nach oben und unten vom Mittelwert abweichen und dass Extremwerte extrem selten sind. Beide Annahmen sind häufig nicht realistisch!

2) Es wird von einem linearen Zusammenhang ausgegangen, d. h.  der Zusammenhang verändert sich nicht, wenn die Werte steigen oder fallen. Häufig hat man es aber in der echten Welt mit Effekten zu tun, die sich exponentiell verstärken oder auch die Richtung ändern: Rotwein in kleinen Mengen soll gesundheitsförderlich sein, in großen Mengen aber sicher nicht.
Besonders heikel ist es deshalb, mit linearen Regressionen über den bekannten Datenbereich hinaus Vorhersagen zu treffen. Angenommen, es ließe sich an einem Sample von 20- bis 50-Jährigen feststellen, dass das Vermögen mit jedem  Altersjahr um 1000€ steigt. Hochzurechnen, wie vermögend ein 75-Jähriger oder gar ein 175-Jähriger wäre, wird schief gehen.

In der klassischen Statistik werden die Ergebnisse der Regression häufig auf 2 Werte reduziert: R2 und Signifikanz. R2 gibt die Stärke des Zusammenhangs an und liegt zwischen 0 (kein Zusammenhang) und 1 (linearer Zusammenhang).  Ein Problem ist, dass  das R2 mit jedem zusätzlichen Predictor zunimmt. Im Data-Mining, wenn mit einer Vielzahl von Predictors gearbeitet wird, kann man sich auf diesen Wert daher nicht verlassen. Stattdessen benutzt man entweder das adjusted R2, bei dem sich mehr Predictors negativ geltend machen oder verzichtet ganz auf ein Bestimmtheitsmaß und berechnet stattdessen Indikatoren für den Fehlerterm:
Mean Absolute Error (MAE): der Durchschnitt der Abweichungen aller einzelnen Punkte vom Modell.
Root Mean Square Error (RMSE): die Abweichungen werden erst quadriert (dadurch verschwinden negative Vorzeichen, dann summiert und dann wird die Wurzel gezogen.
Mean Absolute Percentage Error (MAPE):  die durchschnittliche Abweichung aller Punkte in Prozent ausgedrückt.
Weicht der MAE deutlich von Null ab, dann hat das Modell einen Bias: Es liegt systematisch zu hoch oder zu niedrig mit den Prognosen. RMSE und MAPE sollten möglichst gering sein. Der MAPE lässt sich im Prinzip auch zwischen unterschiedlichen Modellen vergleichen.

Kommentare

Beliebte Posts aus diesem Blog

Kritik an dem Science-Artikel der Priesemann-Gruppe „Inferring change points in the spread of COVID-19 reveals the effectiveness of interventions“

Der Science-Artikel von Dehning et al. (2020) gilt als Beleg für die Effektivität der Corona-Maßnahmen in Deutschland im März 2020. Wir glauben, dass der Artikel gravierende Fehler enthält und daher nichts darüber aussagt, ob insbesondere das Kontaktverbot vom 23.03.2020, irgendeinen Effekt hatte. Unsere Kritik haben wir bei Science eingereicht und sie ist hier zu finden: https://science.sciencemag.org/content/369/6500/eabb9789/tab-e-letters Im folgenden übersetze ich unseren Beitrag und gehe anschließend auf die Frage ein, wie Wissenschaft unter COVID-19-Bedingungen funktioniert und was daran bedenklich ist. Eine Kritik an ‘Inferring change points in the spread of COVID-19 reveals the effectiveness of interventions’ Wir haben den Artikel ‘Inferring change points in the spread of COVID-19 reveals the effectiveness of interventions’ analysiert und dabei gravierende Unstimmigkeiten im Design der Studie festgestellt: Anstatt das Datum der Wendepunkte (wann sich die COVID-19-Entwicklung i

Der Nutzerismus: Eine Ideologie mit totalitärem Potential

Ich glaube, dass wir derzeit den Aufstieg einer Ideologie erleben, die ich Nutzerismus nennen möchte. Hannah Arendt hat darauf hingewiesen, dass jede Ideologie zu einem totalitaristischen Regime führen kann und es gibt ernste Anzeichen, dass dies auch für den Nutzerismus gilt.  Was ist der Nutzerismus? Wie bei jeder Ideologie ist der Kerngedanke sehr einfach: Im Prinzip gibt es für alle gesellschaftlichen Probleme eine technische Lösung. Leider wenden die Menschen die richtigen Technologien nicht an. Sie nehmen ihre Rolle als Nutzer nicht wahr. Es geht dem Nutzerismus also um das Zusammenspiel von Mensch und Technik, allerdings immer wieder aus der gleichen Perspektive. Die Technik kommt vor als potentielle Lösung eines gesellschaftlichen Problems. Eventuell fehlt die perfekte Lösung noch, aber das ist dann als Auftrag an die Wissenschaft und die Ingenieure zu verstehen. Dieser Technikglaube hat etwas sehr Naives. Er abstrahiert zum Beispiel von allen Interessen, für die Technologien

Was man an der COVID-Politik über Faschismus lernen kann

Kritiker der Corona-Politik führen immer häufiger den Begriff Faschismus im Munde, um die politischen Maßnahmen zu beschreiben. Einerseits ist damit natürlich eine polemische Ablehnung verbunden: Wer will schon für Faschismus sein? Generell ist der moralische Vorwurf, etwas sei faschistisch oder faschistoid in der demokratischen Auseinandersetzung durchaus geläufig. Dabei wird jedoch meist auf etwas verwiesen, was zum demokratischen Staat dazu gehört und gerade keinen Faschismus begründet: Die Polizei, die das Gewaltmonopol durchsetzt, ist keine faschistische Organisation, ein Parlament, welches Bürgerrechte einschränkt, ist kein Beleg für die faschistische Aufhebung des Rechtsstaats und ein Medienartikel, der dazu aufruft, Bürger sollen Straftäter anzeigen, ist keine faschistische Propaganda, usw. All dies sind Beispiele für das Leben in demokratischen Gemeinwesen. Anstatt die Demokratie also immer gleich auf dem Weg in den Faschismus zu wähnen, wäre es angebracht, sich zu fragen, war