Heute wird @Peter_Schaar im @MCIRMuenchen darüber reden, wie objektiv und neutral Big-Data-Anwendungen sind. Danach gibt es eine
Podiumsdiskussion, an der auch ich teilnehmen darf.
Hier schon mal ein paar Gedanken dazu:
Algorithmen sind keine Blackbox, sondern mathematisch definiert und häufig ziemlich simpel.
Immer wieder heißt es, ein Algorithmus wäre ein Ding, das
sich der genauen Betrachtung entzieht und nicht verständlich ist. Aber nur weil
etwas mit Mathematik im Zusammenhang steht, heißt das noch lange nicht, dass
man (wer eigentlich genau?) das nicht verstehen kann. Viele Algorithmen sind
nicht nur mathematisch definiert, sondern auch in ihrer Funktionsweise sehr
intuitiv.
Liebe deinen nächsten Nachbarn!
Zum Beispiel ist der k-nearest neighbor (k-NN) Algorithmus sehr beliebt in Big-Data-Anwendungen und wirklich nicht kompliziert: Ich will
Prognosen über eine bestimmte Variable machen (z. B. die Kreditwürdigkeit eines
Kunden). Ich habe einen Datensatz, der unterschiedliche Werte (z. B. das
Einkommen, Geschlecht, Alter, Schuhgröße…) und einen Wert zur Kreditwürdigkeit
enthält. Jetzt kommt ein neuer Kunde, von dem ich zwar die anderen Werte
erfassen kann, aber die Kreditwürdigkeit nicht kenne. Also schaue ich einfach
in meinen Daten, welche Altkunden dem neuen am ähnlichsten sind. Das k ist
dabei die Anzahl der „Nachbarn“, die ich
in Betracht ziehe, also zum Beispiel k = 3, oder k = 10. Dann nehme ich als
Kreditwürdigkeit einfach den Mittelwert dieser k-Nachbarn an und fertig ist das
Ganze.
Jetzt könnte ich mir noch Gedanken dazu machen, wie denn die
Ähnlichkeit berechnet wird (in der Regel einfach mit dem klassischen Distanzmaß
(Euklidische Distanz), auch wenn das oft nicht die beste Idee ist…), aber das
Prinzip sollte klar sein.
Immanente Probleme des Algorithmus (und des Prinzips machine
learning)
Je kleiner ich das k setze, umso größer ist die Gefahr, neue
Daten falsch – nämlich basierend auf Zufällen – zu bewerten. Viele Schätzungen
werden sehr genau sein, aber viele auch ziemlich falsch.
Je größer ich das k setze, umso gröber wird aber das Raster:
Sprich: Alle Prognosen sind mittelmäßig genau, aber keine liegt so ganz
daneben.
Hier zeigt sich (an dem simplen Parameter k) das generelle
Dilemma des machine learning zwischen Genauigkeit (accuracy) und Robustheit
(robustness). Die Lösung, die eine Auflösung des Konflikts verspricht, ist
ziemlich einfach: MEHR!
Je mehr Daten ich habe, umso höher kann ich das k setzen und
bekomme dennoch sehr genaue Einschätzungen, die jetzt auch noch auf viele neue
Fälle zutreffen werden. Wenn wir davon ausgehen, dass die Menschen einfach unsystematisch
unterschiedlich sind, dann werden die Prognosen von den echten Werten zwar
abweichen, wir können aber die zu erwartenden Abweichungen relativ verlässlich
berechnen (zentraler Grenzwertsatz und so…).
Unterstellen wir mal, dass diese Annahme stimmt.
Selbst dann ergeben sich zwei Probleme in Bezug auf Diskriminierung:
- Leute, die irgendwie anders sind, werden falsch eingeschätzt. Durch die Ausweitung der Daten nimmt diese Gefahr zwar relativ ab. Das heißt, ein immer geringerer Prozentsatz von Leuten wird falsch bewertet und die Bewertungen werden in der Summe immer besser. Aber wenn wir von Big-Data sprechen, dann reden wir vielleicht über 10 Millionen Bewertungen im Monat (nur als Beispiel). Bei einer Trefferquote von 99% werden immer noch 100.000 Leute falsch eingeschätzt.
- Je größer der Trainingsdatensatz, umso konservativer wird das Modell. D.h., Leute werden diskriminiert werden, weil sie Merkmale bestehender Diskriminierung aufweisen. Wenn es – warum auch immer – eine Korrelation zwischen Hautfarbe und Kreditwürdigkeit gibt, wird diese im Modell fortgeschrieben. Dadurch werden aber bestehende Ungleichheiten nicht nur fortgeschrieben, sondern eventuell auch verstärkt: Wer seinen Kredit WEGEN der Prognose zu schlechteren Bedingungen bekommt, kann ihn auch schlechter zurückzahlen und wird den diskriminierenden Effekt für Leute, die ihm ähneln, verstärken.
Aber: Diese Art der Diskriminierung erfolgt ohne Intention!
Versucht mal, als Schwarzer in Süd-Texas einen Kredit zu bekommen, das ist auch
nicht sehr lustig.
Kommentare
Kommentar veröffentlichen