Lineare Regression erklärt für Nicht-StatistikerInnen

Eine Regression beschreibt einen Zusammenhang zwischen einer abhängigen Variable (response) und einem oder mehreren unabhängigen Variablen (predictors).

bei der linearen Regression geht man davon aus, dass die Response-Variable auf die Predictor-Variable immer gleich reagiert: Wenn z. B. der Predictor von 4 auf 5 steigt, und dass zu einer Veränderung der Response von vorher 12.5 auf 13 führt, dann würde man erwarten, dass die Response auf 13.5 steigt, wenn der Predictor den Wert von 6 annimmt.

Die Frage ist, was heißt „würde man erwarten“ genau: Im Prinzip ist damit gemeint, dass 13.5 der wahrscheinlichste Wert ist, der AUF BASIS DER ANNAHMEN DES MODELLS zu erwarten ist. Das heißt also nicht, dass nicht auch ein anderer Wert auftreten kann, sondern nur, dass jeder andere Wert unwahrscheinlicher ist, sofern die Annahmen des Modells zutreffen.

Welche Annahmen und welches Modell überhaupt?

Mathematisch lässt sich der angenommene Zusammenhang zwischen Response und Predictor so ausdrücken:

y = α + βx + ε

Das sieht schon sehr schick aus, ist aber absolut simpel, wenn man sich klar macht, welches Zeichen wofür steht: y ist die Response und x ist der Predictor. β ist der Einflussfaktor des Predictors. Im Beispiel oben steigt y um 0.5, wenn x um 1 steigt. Wenn also x um 2 steigt, dann steigt y um 1. β ist also 0.5 in diesem Beispiel. Einfach y = 0.5x zu schreiben wäre aber verkehrt. Welchen Wert für y würde man im oberen Beispiel erwarten, wenn x gleich 0 wäre? Senkt man x um 1 sinkt y um 0.5. Wenn wir x um 4 verringern, sinkt y also 2. Bei einem x-Wert von 0 würden wir also einen y Wert von 10 erwarten. Und genau das ist α. Für das obige Beispiel lässt sich also schreiben: y = 10 + 0.5x. Stellt man sich einen Plot mit den x und y Werten vor, und zeichnet eine Linie durch die Punkte, dann schneidet diese Linie die x-Achse bei 10. α nennt man deshalb intercept. Bleibt nur noch ε. Das ist der Fehlerwert, der zeigt, wieweit die echten Werte von den Werten abweichen, die das Modell als die wahrscheinlichsten vorhersagt, z. B. wenn der y-Wert bei einem x-Wert von 6 nicht 13, sondern 12.8 wäre.

Die Berechnungen des Models kann man in jedem Statistikbuch nachlesen, z.B. bei Gelman, Andrew und Jennifer Hill. 2007. Data analysis using regression and multilevel/hierarchical models. Cambridge: Cambridge University Press; oder bei Dormann, Carsten F. 2013. Parametrische Statistik. Berlin: Springer.

Wichtig ist, dass lineare Regressionen auf zwei Annahmen basieren, die häufig nicht zutreffen:

1) Das Modell geht davon aus, dass y einer Normalverteilung folgt. Dies impliziert die Annahme, dass Werte gleichermaßen nach oben und unten vom Mittelwert abweichen und dass Extremwerte extrem selten sind. Beide Annahmen sind häufig nicht realistisch!

2) Es wird von einem linearen Zusammenhang ausgegangen, d. h. der Zusammenhang verändert sich nicht, wenn die Werte steigen oder fallen. Häufig hat man es aber in der echten Welt mit Effekten zu tun, die sich exponentiell verstärken oder auch die Richtung ändern: Rotwein in kleinen Mengen soll gesundheitsförderlich sein, in großen Mengen aber sicher nicht.

Besonders heikel ist es deshalb, mit linearen Regressionen über den bekannten Datenbereich hinaus Vorhersagen zu treffen. Angenommen, es ließe sich an einem Sample von 20- bis 50-Jährigen feststellen, dass das Vermögen mit jedem Altersjahr um 1000€ steigt. Hochzurechnen, wie vermögend ein 75-Jähriger oder gar ein 175-Jähriger wäre, wird schief gehen.

In der klassischen Statistik werden die Ergebnisse der Regression häufig auf 2 Werte reduziert: R² und Signifikanz. R²gibt die Stärke des Zusammenhangs an und liegt zwischen 0 (kein Zusammenhang) und 1 (linearer Zusammenhang). Ein Problem ist, dass das R² mit jedem zusätzlichen Predictor zunimmt. Im Data-Mining, wenn mit einer Vielzahl von Predictors gearbeitet wird, kann man sich auf diesen Wert daher nicht verlassen. Stattdessen benutzt man entweder das adjusted R², bei dem sich mehr Predictors negativ geltend machen oder verzichtet ganz auf ein Bestimmtheitsmaß und berechnet stattdessen Indikatoren für den Fehlerterm:

Mean Absolute Error (MAE): der Durchschnitt der Abweichungen aller einzelnen Punkte vom Modell.

Root Mean Square Error (RMSE): die Abweichungen werden erst quadriert (dadurch verschwinden negative Vorzeichen, dann summiert und dann wird die Wurzel gezogen.

Mean Absolute Percentage Error (MAPE): die durchschnittliche Abweichung aller Punkte in Prozent ausgedrückt.

Weicht der MAE deutlich von Null ab, dann hat das Modell einen Bias: Es liegt systematisch zu hoch oder zu niedrig mit den Prognosen. RMSE und MAPE sollten möglichst gering sein. Der MAPE lässt sich im Prinzip auch zwischen unterschiedlichen Modellen vergleichen.

Political Data Science

Dieses Blog durchsuchen

Lineare Regression erklärt für Nicht-StatistikerInnen

Welche Annahmen und welches Modell überhaupt?

Labels

Kommentare

Kommentar veröffentlichen

Beliebte Posts aus diesem Blog

Deep-Dive Impfeffektivität: Eine kritische Datenanalyse der RKI-Berechnungen / Teil 1: Die Methode

Der Nutzerismus: Eine Ideologie mit totalitärem Potential

Was man an der COVID-Politik über Faschismus lernen kann