In diesem Blogpost
zeige ich, welche Daten die FDP im Wahlkampf verwendet und wie
Microtargeting bei der Bundestagswahl bereits eingesetzt wird. Ich
zeige auch, dass die verwendeten Methoden vermutlich zu einer
falschen Einschätzung der Wähler führt.
„Microtargeting
ist in Deutschland nicht möglich.“, ist eine weitverbreitete
Auffassung. Der Datenschutz lässt es nicht zu, die Daten sind gar
nicht vorhanden, die Parteien haben nicht die entsprechenden
Kompetenzen und finanziellen Möglichkeiten, sind die üblichen
Argumente. Wir haben an anderer Stelle bereits gezeigt, dass sich
allein mit Facebook-Daten ein ordentliches Microtargeting betreiben
lässt:
Haustürwahlkampf: Microtargeting in netter
Keine Partei wird
derzeit offen sagen, dass sie Microtargeting betreibt. Sehr offensiv
wird allerdings der Haustürwahlkampf beworben. Was so schön analog
klingt, ist in Wirklichkeit digitales Microtargeting: Die Parteien
versuchen durch Datenanalyse den Wohnort von potentiellen Wählern zu
ermitteln.
#FDPleaks
Was kaum jemand
weiß, ist, welche Daten die Parteien bereits für Microtargeting
nutzen. Die FDP war so freundlich, das Datenportal, das sie benutzt,
online zugänglich zu machen. Dieses Angebot richtet sich an alle
Wahlkampfhelfer, die Zugangsdaten waren aber bis vor kurzem
öffentlich, wenn man bei Google nach „daten.fdp.de“ gesucht hat, da die FDP Niedersachsen eine erweiterte Version des "Kampagnenkatalogs" der FDP ins Netz stellt.
Wer richtig googelt, bekam die Zugangsdaten |
Daten auf
Haushaltsebene
Was man auf dem
Portal findet, sieht ziemlich verstörend aus. In einer Karte kann
man sich (in den großen Städten) so weit reinzoomen, dass man für
einzelne Häuser angezeigt bekommt, ob hier mit einer
Wahrscheinlichkeit von 60% oder 80% FDP-Wähler sind.
FDPMaps - Übersicht |
FDPMaps - Zoom 1 |
FDPMaps - Zoom 2 |
Zusätzlich lassen
sich eine Vielzahl von soziodemografische Daten und Wahlergebnissen
auf der Ebene von Wahlkreisen anzeigen und als csv-Datei
herunterladen.
Beispiel 1: Sozioökonomische Daten |
Beispiel 2 |
Am spannendsten sind
die Daten auf Haushaltsebene. Aus der Dokumentation erfahren wir,
dass immer sechs Haushalte zu einer Einheit zusammengefasst wurden.
„Die Methode steht mit dem Bundesdatenschutzgesetz in Einklang. So
werden immer mindestens sechs Gebäude gebündelt, um eine eindeutige
Personenzuordnung zu vermeiden.“ (FAQ https://daten.fdp.de/)
Aber was hat die FDP
da eigentlich berechnet? Die Dokumentation gibt ein paar Antworten:
„Eine neue Funktion in „FDPMaps 2.0“ ist die Visualisierung von
FDP-Wahlwahrscheinlichkeiten größer 60 Prozent und größer 80
Prozent. Diese basieren auf den Affinitäten des Instituts dimap und
zeigen Ihnen gebäudegenau an, auf wie viele und welche Gebäude die
ausgewählte Wahlwahrscheinlichkeit zutrifft und wo FDP-Wähler
vermutet werden können. In der Methode werden neben historischen
Wahldaten auch sozio-demografische Variablen und Variablen zum
Wohnumfeld berücksichtigt. … Die Wahlwahrscheinlichkeiten werden
mit Regressionsanalysen auf Gebäudeebene von dimap berechnet. Die
Ergebnisse zeigen, welche Gebäude und somit welche Haushalte
aufgrund ihrer Struktur ein besonderes Interesse an einer Stimmabgabe
für die Freien Demokraten haben könnten. Dafür werden in einem
ersten Schritt soziodemografische Strukturdaten und vergangene
Wahlergebnisse eines Stimmbezirks ermittelt, die besonders stark mit
dem FDP-Ergebnis korrelieren. Im zweiten Schritt werden die Häuser
eines Stimmbezirks identifiziert, die diese Strukturmerkmale
weitestgehend aufweisen, denen dann eine individuelle
„Partei-Affinität“ zugewiesen wird.“ (FAQ
https://daten.fdp.de/)
Plausibilitätstest München
Was bedeutet eine
Wahlwahrscheinlichkeit von 60 und 80 Prozent? Nehmen wir das Beispiel
München. Die FDP Die FDP hatte 2009 ein sehr gutes Ergebnis mit
bundesweit 14.6%. 2013 dann ein sehr schlechtes mit 4.8%. Im
Durchschnitt also 9.7%. München hat 832.810 Haushalte. Zu je sechs
zusammengefasst ergibt 138.801 Einheiten. Die FDP hat Geodaten von
25.487 Haushaltseinheiten in München, von denen sie meint, dass 60%
die FDP wählen und noch einmal 2.749 Haushalte, von denen 80% die
FDP wählen sollen, laut der Annahme des Modells. Wir können also
rechnen: 25.487*0.6 + 2.749*0.8=17.491. Das sind bereits 13% aller
Haushaltseinheiten. Das bedeutet, wenn die Annahmen stimmen würden,
würde die FDP in München auf 13% kommen, ohne das irgendeiner der
nichterfassten Haushalte FDP wählt. Die Wahrscheinlichkeit der
anderen Haushaltseinheiten wird aber realistischer Weise nicht bei
Null liegen. Das Modell liefert demnach sehr unrealistische
Einschätzungen und übersteht keinen Plausibilitätstest.
FDP Maps: München, Max-Vorstadt |
Vorhersagen des
Wahlverhaltens aus Wahldaten und soziodemografischen Faktoren
Das Problem ist,
dass die FDP (bzw. das Institut dimap, das diese Daten für die FDP
aufbereitet hat) aus historischen Daten und wenigen demographischen
Merkmalen auf das Wahlverhalten schließen. Für jeden Wahlbezirk
gibt es Wahlergebnisse (z. B. von den Bundestagswahlen 2009 und
2013). Offenbar wurden diese Daten mit demographischen Daten von den
regionalen Statistikämtern kombiniert, um dann mit einer
Regressionsanalysen herauszufinden, bei welchen Faktoren es eine
Korrelation mit dem Wahlerfolg gibt. Dabei gibt es aber zwei
Probleme:
1. Es liegen (hoffe
ich zumindest!) keine Daten auf der Haushaltsebene vor, die auf das
Wahlverhalten schließen lassen. Daher muss von einer höheren Ebene
(Wahlbezirke) auf die Haushalte geschlossen werden. Ein Faktor, der
für das Wahlergebnis auf Bezirksebene relevant ist, muss aber nicht
auf Haushaltsebene relevant sein. Ein Beispiel: Wenn es eine
Korrelation zwischen hohem Durchschnittseinkommen und FDP-Erfolg
gibt, heißt das nicht automatisch, dass mit steigendem
Haushaltseinkommen auch die Wahlwahrscheinlichkeit der FDP zunimmt.
Vielleicht wählen Haushalte mit einem Jahreseinkommen über 80.000
Euro eher die FDP, aber Haushalte mit einem Einkommen über 150.000
eher die CDU. Da es keine Daten über das individuelle Wahlverhalten
gibt, kann dies mit statistischen Mitteln eigentlich nicht überprüft
werden und die Vorhersagen des Modells lassen sich nicht mehr
überpüfen.
2. Die Wahldaten
sind vier Jahre alt. Wer sagt, dass heute noch die gleichen
Korrelationen bestehen und dass die demographische Struktur sich
nicht verändert hat. Hierzu eine Bebilderung:
Für die einzelnen
Bundesländer kann man durchaus eine Vorhersage der FDP-Ergebnisse
auf Wahlbezirksebene durchführen. Die Daten, die die FDP nutzt,
geben das her.
Lineare Regression 2009/2013 |
Die Graphik zeigt
die Ergebnisse eine linearen Regression und zwar die echten Werte
(observed) gegen die vorhergesagten Werte (predicted). Zunächst ist
nur die blauen Wolke von Interesse. Das sind die Ergebnisse für die
FDP 2009. Wären alle Vorhersagen richtig, lägen alle Punkte auf der
schwarzen Linie. Das ist zwar nicht der Fall, das Modell fängt aber
eindeutig starke Korrelationen zwischen den soziodemografischen Daten
und dem Wahlerfolg ein. Im Prinzip ist ein solcher Ansatz also
tatsächlich möglich.
Aber: Wenn das
Modell, dass auf den Daten von 2009 trainiert wurde, für 2013
verwendet wird, dann ist das Ergebnis ziemlich katastrophal. Das
sieht man an der roten Wolke. Nicht nur wurde jeder Wahlbezirk zu
hoch eingeschätzt. Die FDP war 2013 halt viel schlechter als 2009.
Problematischer ist, dass sich die Bereiche, in denen das Modell gut
funktioniert, deutlich verschieben. Dies zeigen die farbigen Linien:
2009 wurden starke Bezirke eher zu schwach eingeschätzt (die orange
Linie hat eine Steigung kleiner 1). 2013 werden aber umgekehrt
schwache Bezirke zu stark und starke Bezirke zu schwach eingeschätzt.
Die soziodemografischen Faktoren, die vor vier Jahren gegolten haben,
gelten offenbar so nicht mehr.
Fazit
Das Beispiel der FDP
zeigt, dass Microtargeting im US-amerikanischen Stil bei uns NOCH an
eine Grenze stößt. Die Parteien setzen zwar auf Datenanalysen,
diese liefern ihnen aber gar nicht die Objektivität, die sie sich
davon erhoffen. Gleichzeitig wird aber auch deutlich, dass die
einzige Grenze nur die Qualität der Daten und der Modelle ist. Lägen
z. B. Daten vor, aus denen man auf die aktuelle Sympathie in den
Haushalten schließen könnte (wie in den USA durch die Registrierung
bei den Vorwahlen, in Deutschland aber z. B. über Social Media
Analysen oder über die Auswertung von Apps wie Connect17 von der CDU
durchaus auch möglich), dann würden die Daten auf Haushaltsebene
vermutlich sehr gut für Microtargeting funktionieren.
Perceived Voter Model
Aus den USA wissen
wir, dass Parteien zum Teil Modelle verwenden, die auf objektiv
falschen Annahmen beruhen. Sie machen dann einen Wahlkampf für einen
Wähler, den sie in den Daten wahrnehmen, der aber gar nicht
existiert. Das heißt nicht notwendig, dass die Strategie nicht
erfolgreich erscheint: Wenn die FDP jetzt an den Türen vermehrt
klingelt, die sie identifiziert haben, kann sich allein durch diese
Aktivität natürlich ein positiver Effekt einstellen und wir haben
eine self-fulfilling-prophecy. Aber: Richtig effektiv ist das nicht.
Wenn die Annahme stimmt, dass es Sinn ergibt, potentielle FDP-Wähler
an der Haustür anzusprechen, dann wäre ein evidenzbasiertes Modell
viel besser… und dieses dimap-Modell ist nicht sehr überzeugend.
Man erfährt
übrigens noch einiges darüber, wie die FDP selbst ihre Wähler
einschätzt: Die Hauptzielgruppe sind „Haushalte mit
überdurchschnittliches Einkommen (Nettohaushaltseinkommen ab 3.800
Euro aufwärts), ab 55 Jahren, überdurchschnittlich oft
Selbständige/Freiberufler, hohes Bildungsniveau, lesen häufiger als
der Bevölkerungsschnitt Magazine und Zeitungen aus dem Bereich
Wirtschaft (Handelsblatt, Wirtschaftswoche) und Nachrichtenmagazine,
Interesse an Anlageprodukten (Aktien, Fonds usw.), machen gerne
Sporturlaub und Wellnessurlaub, Sportliche Aktivitäten:
überdurchschnittlich häufig Golf und Segeln, Interesse an
Delikatessen, Wein, Kunst, Antiquitäten, haben ein starkes
Markenbewusstsein“ (Ergänzung im Kampagnenkatalog der FDP Niedersachsen).
Simon Hegelich, August 2017
Ich glaube, Ihr interpretiert die 60, bzw. 80% falsch. Logischer wäre es, wenn sie aussagen würden, dass sich mit 60% Wahrscheinlichkeit mindestens ein FDP Wähler in der Haushaltseinheit befindet.
AntwortenLöschenDie Wahrscheinlichkeit, dass einer von 6 Haushalten FDP wählt wäre bei einer Durchschnittswahrscheinlichkeit von 10% schon 53%. Dann müssten etwa 50% der Haushalte identifiziert werden. Aber es ist nicht ganz eindeutig, was dimap da gemacht hat. Vielleicht erklären sie es ja...
AntwortenLöschen"Richtig effektiv" ist so ein kompletter Wahlkampf nicht. Was der Autor wüsste, wenn er jemals einen geplant und durchgeführt hätte.
AntwortenLöschenGenau dazu dient so eine Karte - die ja auch nix Neues ist. Ich bin seit 17 Jahren Mitglied der FDP und genau so lange höre ich immer wieder die Empfehlung, den Wahlkampf dort zu konzentrieren, wo bei den letzten Wahlen die besten Ergebnisse vorlagen. Schlicht und ergreifend, weil es dort mit einer guten Wahrscheinlichkeit auch dieses Mal wieder die besten Ergebnisse geben wird.
Warum macht man das? Weil man eben nur sehr begrenzte Ressourcen hat. Wir machen zum Beispiel in meiner sehr ausgedehnten Kleinstadt mit so ca. 5 aktiven Leuten Wahlkampf. Es ist völlig ausgeschlossen, dass wir fünf es auch nur ansatzweise schaffen, jeden einzelnen Briefkasten in der 34.000-Einwohner-Stadt und den 13 Dörfern, die ihr angegliedert und die somit ebenfalls Teil des Ortsverbandes sind, mit einem Flyer beglücken werden. Wenn wir wirklich gut sind, alle ordentlich viel Zeit haben und uns keine sinnvolleren Aktionen einfallen, schaffen wir vielleicht so 5% aller Haushalte. Also gucken wir, in welchen Ortsteilen wir in der Vergangenheit überdurchschnittlich gut waren und konzentrieren uns darauf.
Nun war 2013 ein Ausnahmejahr für die FDP, die Daten von dort sind sowieso nur sehr begrenzt verwertbar. Tendenziell kann ich aber zum Beispiel in meinem Wohnort, der nur einen einzigen Wahlbezirk besitzt, feststellen, dass wir hier eben sehr wohl bei jeder Wahl über dem Durchschnitt liegen.
Die Karte versucht diesen Eindruck einfach nur eine Stufe wissenschaftlicher aufzubereiten - mehr nicht. Uns ist allen klar, dass das im Großen und Ganzen die übliche Kaffeesatzleserei ist, an der auch normale Wahlumfragen immer wieder kranken. Es ist eine kleine Hilfe und sonst gar nichts. Und es ist eigentlich auch jedem klar, weswegen ich diesen etwas reißerischen Hashtag #fdpleaks auch nicht so wirklich nachvollziehen kann. Solche Methoden sind nicht wirklich jemals ein Geheimnis gewesen und an sich ja auch völlig harmlos.
Wenn man richtig Manpower hat, macht man es wie die CDU. Die klingelt an mindestens hunderttausenden Türen in ganz Deutschland und notiert in ihrer App, hinter welcher Tür welche Meinung zur CDU angetroffen wird, wie alt die Leute ungefähr sind und welches Geschlecht sie haben. Dort geht die Analyse also sehr viel mehr ins Detail und dort bekommt man dann nach ein paar Jahren (das Ganze wird nicht nur bei Bundestagswahlen genutzt) eine wirklich bis in jeden Haushalt hinein aufgelöste Karte. So etwas wird für kleinere Parteien wohl nur in sehr, sehr engagierten Ortsverbänden möglich sein.
Zum Thema “Plausibilitätstest München“
AntwortenLöschenIch verstehe nicht ganz, warum zum Abgleich der Plausibilität der Durschnitt der bundesweiten Ergebnisse von 2009 und 2013 genommen werden, statt dem Durchschnitt der Wahlergebnisse auf Ebene der Stadt München. Dort hatte die FDP 2009 17,6 und 2013 7,7 Prozent. Das macht im Schnitt 12,7 Prozent, womit die FDP in München deutlich über dem Bundesergebnis lag (die Reichen Münchens lassen grüßen). Somit würde der Plausibilitätstest, der 13 Prozent Wahlwahrscheinlichkeit angibt, aber erfolgreich.
Können Sie mir erklären, warum Sie den Bundesdurchschnitt zum Abgleich verwenden?
Das Argument ist, dass die FDP nach der Berechnung alleine mit den markierten Haushalten auf 13% käme, also die Wahrscheinlichkeit bei allen nichtmarkierten Haushalten 0% wäre und das (nicht die 13%) ist nicht plausibel.
AntwortenLöschen