Direkt zum Hauptbereich

Cross-Validation

Im Folgenden geht es um drei Methoden der Cross-Validation: hold-out, leave one out, und k-fold. Bei der Kreuzvalidierung geht es hauptsächlich darum, zu vermeiden, dass das Modell zu gut ist. Häufig ist ein Modell so stark an die Daten angepasst, dass es bei der Schätzung neuer Werte versagt (overfitting). Bei der ersten Methode wird der Datensatz in ein Trainings- und ein Testsample unterteilt. Das Modell wird nur auf die Trainingsdaten gefittet und die Testdaten werden dann geschätzt. Bei der zweiten Variante wird immer ein Wert bei der Modellbildung ausgelassen und dann vom Modell geschätzt - und das für alle Werte (großer Rechenaufwand!). Die dritte Variante teilt den Datensatz in k Teile und schätzt dann jeden einzelnen mit allen anderen. Eine Ausführliche Einführung hierzu gibt es in: James, Gareth; Witten, Daniela; Hastie, Trevor und Robert Tibshirani. 2013. An introduction to statistical learning. New York [u.a.]: Springer. 


df = read.csv("recs2009_public.csv")
meta = read.csv("public_layout.csv")
dfm = subset(df, select = c("AIA_Zone","YEARMADE","TOTROOMS", "AGERFRI1", "WASHLOAD", "TVCOLOR", "NUMPC", "EQUIPAGE", "HHSEX", "HHAGE", "MONEYPY", "KWH"))

dfm.select = dfm[,c(1,2,3,5,6,7,10,12)]
fit2 = lm(KWH ~., data=dfm.select)
summary(fit2)

#hold-out
set.seed(1)
train = sample(nrow(dfm.select), round(nrow(dfm.select)/2))
fit2 = lm(KWH ~., data=dfm.select, subset=train)
summary(fit2)

# mit Hilfe der predict-Funktion können wir jetzt die Response für die
# übrigen Werte berechnen... und somit auch die Summe der quadrierten
# Abweichungen.

MSE.fit2 = mean((dfm.select$KWH - predict(fit2, dfm.select))[-train]^2)
RMSE.fit2 = sqrt(MSE.fit2)
MSE.fit2
RMSE.fit2
# MAPE.fit2 = 100/(dim(dfm.select)[1]-length(train))*
#   sum(abs((dfm.select$KWH - predict(fit2, dfm.select))[-train])/dfm.select$KWH[-train])
# Nun der Vergleich mit einem Single Predictor Model
fit3 = lm(KWH ~ AIA_Zone, data=dfm.select, subset=train)
MSE.fit3 = mean((dfm.select$KWH - predict(fit3, dfm.select))[-train]^2)
RMSE.fit3 = sqrt(MSE.fit3)
# MAPE.fit3 = 100/(dim(dfm.select)[1]-length(train))*
#   sum(abs((dfm.select$KWH - predict(fit3, dfm.select))[-train])/dfm.select$KWH[-train])

#Leave One Out Cross-Validation (LOOCV)
# requires :: boot
# die Funktion cv.gml() ist aus dem boot-Paket

library(boot)
glm.fit3 = glm(KWH ~ AIA_Zone, data=dfm.select)
# Vorsicht! Der nächste Befehl braucht Zeit
cv.err = cv.glm(dfm.select, glm.fit3)
cv.err$delta

#k-fold Cross-Validation
set.seed(123)
cv.error.10=rep(0,10)
glm.fit4 = glm(KWH ~ TOTROOMS, data=dfm.select)
for (i in 1:10){
  cv.error.10[i] = cv.glm(dfm.select, glm.fit4,K=10)$delta[2]
}
cv.error.10
sqrt(mean(cv.error.10))

Kommentare

Beliebte Posts aus diesem Blog

Kritik an dem Science-Artikel der Priesemann-Gruppe „Inferring change points in the spread of COVID-19 reveals the effectiveness of interventions“

Der Science-Artikel von Dehning et al. (2020) gilt als Beleg für die Effektivität der Corona-Maßnahmen in Deutschland im März 2020. Wir glauben, dass der Artikel gravierende Fehler enthält und daher nichts darüber aussagt, ob insbesondere das Kontaktverbot vom 23.03.2020, irgendeinen Effekt hatte. Unsere Kritik haben wir bei Science eingereicht und sie ist hier zu finden: https://science.sciencemag.org/content/369/6500/eabb9789/tab-e-letters Im folgenden übersetze ich unseren Beitrag und gehe anschließend auf die Frage ein, wie Wissenschaft unter COVID-19-Bedingungen funktioniert und was daran bedenklich ist. Eine Kritik an ‘Inferring change points in the spread of COVID-19 reveals the effectiveness of interventions’ Wir haben den Artikel ‘Inferring change points in the spread of COVID-19 reveals the effectiveness of interventions’ analysiert und dabei gravierende Unstimmigkeiten im Design der Studie festgestellt: Anstatt das Datum der Wendepunkte (wann sich die COVID-19-Entwicklung i

Der Nutzerismus: Eine Ideologie mit totalitärem Potential

Ich glaube, dass wir derzeit den Aufstieg einer Ideologie erleben, die ich Nutzerismus nennen möchte. Hannah Arendt hat darauf hingewiesen, dass jede Ideologie zu einem totalitaristischen Regime führen kann und es gibt ernste Anzeichen, dass dies auch für den Nutzerismus gilt.  Was ist der Nutzerismus? Wie bei jeder Ideologie ist der Kerngedanke sehr einfach: Im Prinzip gibt es für alle gesellschaftlichen Probleme eine technische Lösung. Leider wenden die Menschen die richtigen Technologien nicht an. Sie nehmen ihre Rolle als Nutzer nicht wahr. Es geht dem Nutzerismus also um das Zusammenspiel von Mensch und Technik, allerdings immer wieder aus der gleichen Perspektive. Die Technik kommt vor als potentielle Lösung eines gesellschaftlichen Problems. Eventuell fehlt die perfekte Lösung noch, aber das ist dann als Auftrag an die Wissenschaft und die Ingenieure zu verstehen. Dieser Technikglaube hat etwas sehr Naives. Er abstrahiert zum Beispiel von allen Interessen, für die Technologien

Was man an der COVID-Politik über Faschismus lernen kann

Kritiker der Corona-Politik führen immer häufiger den Begriff Faschismus im Munde, um die politischen Maßnahmen zu beschreiben. Einerseits ist damit natürlich eine polemische Ablehnung verbunden: Wer will schon für Faschismus sein? Generell ist der moralische Vorwurf, etwas sei faschistisch oder faschistoid in der demokratischen Auseinandersetzung durchaus geläufig. Dabei wird jedoch meist auf etwas verwiesen, was zum demokratischen Staat dazu gehört und gerade keinen Faschismus begründet: Die Polizei, die das Gewaltmonopol durchsetzt, ist keine faschistische Organisation, ein Parlament, welches Bürgerrechte einschränkt, ist kein Beleg für die faschistische Aufhebung des Rechtsstaats und ein Medienartikel, der dazu aufruft, Bürger sollen Straftäter anzeigen, ist keine faschistische Propaganda, usw. All dies sind Beispiele für das Leben in demokratischen Gemeinwesen. Anstatt die Demokratie also immer gleich auf dem Weg in den Faschismus zu wähnen, wäre es angebracht, sich zu fragen, war