Eine Regression
beschreibt einen Zusammenhang zwischen einer abhängigen Variable (response) und
einem oder mehreren unabhängigen Variablen (predictors).
bei der linearen
Regression geht man davon aus, dass die Response-Variable auf die Predictor-Variable
immer gleich reagiert: Wenn z. B. der Predictor von 4 auf 5 steigt, und dass zu
einer Veränderung der Response von vorher 12.5 auf 13 führt, dann würde man
erwarten, dass die Response auf 13.5 steigt, wenn der Predictor den Wert von 6
annimmt.
Die Frage ist,
was heißt „würde man erwarten“ genau: Im
Prinzip ist damit gemeint, dass 13.5 der wahrscheinlichste Wert ist, der AUF BASIS
DER ANNAHMEN DES MODELLS zu erwarten ist. Das heißt also nicht, dass nicht auch
ein anderer Wert auftreten kann, sondern nur, dass jeder andere Wert
unwahrscheinlicher ist, sofern die Annahmen des Modells zutreffen.
Welche Annahmen und welches Modell überhaupt?
Mathematisch
lässt sich der angenommene Zusammenhang zwischen Response und Predictor so
ausdrücken:
y = α + βx + ε
Das sieht schon
sehr schick aus, ist aber absolut simpel, wenn man sich klar macht, welches
Zeichen wofür steht: y ist die Response und x ist der Predictor. β ist der
Einflussfaktor des Predictors. Im Beispiel oben steigt y um 0.5, wenn x um 1
steigt. Wenn also x um 2 steigt, dann steigt y um 1. β ist also 0.5 in diesem
Beispiel. Einfach y = 0.5x zu schreiben wäre aber verkehrt. Welchen Wert für y würde
man im oberen Beispiel erwarten, wenn x gleich 0 wäre? Senkt man x um 1 sinkt y
um 0.5. Wenn wir x um 4 verringern, sinkt y also 2. Bei einem x-Wert von 0
würden wir also einen y Wert von 10 erwarten. Und genau das ist α. Für das
obige Beispiel lässt sich also schreiben: y = 10 + 0.5x. Stellt man sich einen
Plot mit den x und y Werten vor, und zeichnet eine Linie durch die Punkte, dann
schneidet diese Linie die x-Achse bei 10. α nennt man deshalb intercept. Bleibt
nur noch ε. Das ist der Fehlerwert, der zeigt, wieweit die echten Werte von den
Werten abweichen, die das Modell als die wahrscheinlichsten vorhersagt, z. B. wenn
der y-Wert bei einem x-Wert von 6 nicht 13, sondern 12.8 wäre.
Die Berechnungen des Models kann man in jedem Statistikbuch
nachlesen, z.B. bei Gelman, Andrew und Jennifer Hill. 2007. Data analysis using
regression and multilevel/hierarchical models. Cambridge: Cambridge University
Press; oder bei Dormann, Carsten F. 2013. Parametrische Statistik. Berlin:
Springer.
Wichtig ist, dass
lineare Regressionen auf zwei Annahmen basieren, die häufig nicht zutreffen:
1) Das
Modell geht davon aus, dass y einer Normalverteilung folgt. Dies impliziert die
Annahme, dass Werte gleichermaßen nach oben und unten vom Mittelwert abweichen
und dass Extremwerte extrem selten sind. Beide Annahmen sind häufig nicht
realistisch!
2) Es wird von
einem linearen Zusammenhang ausgegangen, d. h.
der Zusammenhang verändert sich nicht, wenn die Werte steigen oder
fallen. Häufig hat man es aber in der echten Welt mit Effekten zu tun, die sich
exponentiell verstärken oder auch die Richtung ändern: Rotwein in kleinen
Mengen soll gesundheitsförderlich sein, in großen Mengen aber sicher nicht.
Besonders heikel ist es deshalb, mit linearen Regressionen über
den bekannten Datenbereich hinaus Vorhersagen zu treffen. Angenommen, es ließe
sich an einem Sample von 20- bis 50-Jährigen feststellen, dass das
Vermögen mit jedem Altersjahr um
1000€ steigt. Hochzurechnen, wie vermögend ein 75-Jähriger oder gar ein 175-Jähriger
wäre, wird schief gehen.
In der
klassischen Statistik werden die Ergebnisse der Regression häufig auf 2 Werte
reduziert: R2 und Signifikanz. R2 gibt die Stärke des
Zusammenhangs an und liegt zwischen 0 (kein Zusammenhang) und 1 (linearer
Zusammenhang). Ein Problem ist, dass das R2 mit jedem zusätzlichen
Predictor zunimmt. Im Data-Mining, wenn mit einer Vielzahl von Predictors
gearbeitet wird, kann man sich auf diesen Wert daher nicht verlassen.
Stattdessen benutzt man entweder das adjusted R2, bei dem sich mehr
Predictors negativ geltend machen oder verzichtet ganz auf ein Bestimmtheitsmaß
und berechnet stattdessen Indikatoren für den Fehlerterm:
Mean Absolute
Error (MAE): der Durchschnitt der Abweichungen aller einzelnen Punkte vom
Modell.
Root Mean Square
Error (RMSE): die Abweichungen werden erst quadriert (dadurch verschwinden
negative Vorzeichen, dann summiert und dann wird die Wurzel gezogen.
Mean Absolute
Percentage Error (MAPE): die
durchschnittliche Abweichung aller Punkte in Prozent ausgedrückt.
Weicht der MAE
deutlich von Null ab, dann hat das Modell einen Bias: Es liegt systematisch zu
hoch oder zu niedrig mit den Prognosen. RMSE und MAPE sollten möglichst gering
sein. Der MAPE lässt sich im Prinzip auch zwischen unterschiedlichen Modellen
vergleichen.
Kommentare
Kommentar veröffentlichen