An Universitäten
möchte man – auch wegen der öffentlichen Debatten in Bezug auf
Plagiatsfälle – gegen Plagiate von Studierenden schon während des
Studiums vorgehen. Das ist mit viel Arbeit verbunden und wäre
insofern ein ideales Einsatzfeld für automatische Systeme:
Plagiarism Detection Software (PDS – nicht zu verwechseln mit
Political Data Science ;-) ). Im folgenden möchte ich zeigen, dass
man das besser lassen sollte.
Es gibt nicht
besonders viele Studien, die sich empirisch mit PDS beschäftigen.
Einen sehr guten Überblick bietet dieser Artikel von NormanMeuschke und Bela Gipp.
Viele der folgenden
Textstellen sind von diesem Artikel inspiriert = plagiiert.
Wie plagiierst du so?
Plagiat ist nicht
gleich Plagiat. Die einfachste Form ist Copy & Paste. Dabei
werden ganze Sätze oder Abschnitte aus anderen Werken einfach in die
eigene Arbeit eingefügt. Shaking & Paste meint, dass die
kopierten Textstellen leicht verändert werden, z. B. hinsichtlich
der Wortreihenfolge. Paraphrasing nimmt den Gedanken von jemand
anders und formuliert ihn um. Cross-language plagiarism meint, dass
man Texte aus einer anderen Sprache übersetzt. Schließlich gibt es
noch technical disguise: Hier wird gezielt versucht, die
Schwachstellen von PDS auszunutzen, z. B. durch die Ersetzung von
Buchstaben durch Zeichen aus anderen Sprachen oder durch das Einfügen
von nicht sichtbaren Texten. Diese große Bandbreite wird in der
Kategorisierung Plagiat/Original nicht erfasst und macht eine binäre
Klassifikation sehr schwierig.
Wie funktioniert PDS?
Meuschke und Gibb
unterscheiden zwischen unterschiedlichen Systemen:
Fingerprinting
Dabei wird ein Text
in einzelne Textbausteine zerlegt von denen dann einige ausgewählt
werden, die den „Fingerabdruck“ des Textes bilden. Diese Abdrücke
werden dann mit Abdrücken in der Datenbank oder dem Netz verglichen.
Hintergrund ist, dass ein Wort-zu-Wort-Vergleich vom Rechenaufwand zu
groß wäre und dass sich in Texten viele redundante Informationen
befinden, so dass durch dieses Downsampling nicht
viel verloren geht – in der Theorie. In
der Praxis gibt es riesige Unterschiede, wie diese Fingerprints
erstellt werden. Man kann Ketten von Buchstaben oder Ketten von
Worten (n-grams) analysieren, ganze Sätze vergleichen oder auch die
Texte in einen Vektorraum transferieren und dann die entsprechenden
Vektoren vergleichen.
Citation-based plagiarism detection
Eine
andere Gruppe von Software untersucht die Quellen, die ein Text
zitiert und sucht nach übereinstimmenden Mustern mit anderen Texten.
Stylometry
Diese
Ansätze suchen nach Mustern, die einen vorliegenden Text möglichst
gut von anderen differenzieren, um so den Stil des Autors zu
erkennen. Dafür wird zum Beispiel auf die Verteilung von häufigen
Worten wie „und“, „mit“, „der“, „die“, „das“ etc.
geschaut. Worte, die beim Fingerprinting häufig bewusst aus der
Analyse herausgefiltert werden. Wenn es dann Dokumente oder Passagen
gibt, die sich im Stil sehr ähneln, oder sich der Stil eines Autors
in einem Text plötzlich ändert, sind das Hinweise auf Plagiate.
In
der Praxis sind Fingerprinting-Ansätze am stärksten verbreitet.
Wie gut funktionieren PDS?
Leider gibt es keine
standardisierten Testverfahren. Die Anbieter von PDS hüllen sich in
Schweigen, was die Genauigkeit ihrer Verfahren anbelangt. Experten
wie Debora Weber-Wulff, die an der Hochschule für Technik und
Wirtschaft Berlin die Plagiate von Ex-Verteidigungsminister zu
Guttenberg analysiert hat, hat eine klare Meinung zum Nutzen von
Plagiat-Software: "Man traut der Software
alles zu, und das ist Quatsch! Im regulären Hochschulbetrieb ist sie
unbrauchbar. […] Ich
habe die Arbeit mit fünf verschiedenen Systemen überprüft […].
Eines gab an, nur fünf Prozent seien
plagiiert. Und die anderen lieferten ähnliche Werte"
Im Endeffekt kam sie
auf 63 Prozent zu beanstandender Stellen.
Meuschke und Gibb
fassen in ihrer Arbeit andere Studien zusammen und kommen zu dem
Ergebnis, dass man von Recall-Werten von 23% und Precision-Werten von
46% ausgehen kann, wenn unterschiedliche Arten des Plagiats
gleichzeitig untersucht werden. Precision sagt, wievielt Prozent der
Texte, die PDS als Plagiat erkennt, tatsächlich Plagiate sind.
Recall zeigt das Verhältnis aller erkannten Plagiate zur Gesamtheit
aller Plagiate.
Bei längeren Texten
steigen diese Werte an: Man kann wohl auf einen Recall von ca. 45%
und Precision von ca. 80% kommen, wenn man Texte mit mehr als 35.000
Worten untersucht (Stein/Lipka/Prettenhofer 2010)
und mit richtigem machine learning, das Metadaten einbezieht sind
wohl auch noch bessere Ergebnisse möglich. Selbst wenn man also von
einem Recall von 50% und Precision von 90% ausgehen würde – wobei
die Performance solcher Systeme basierend auf echten Daten mit
Garantie schlechter läuft, als auf Testdaten – würde immer noch
die Hälfte der Plagiate nicht erkannt und ein erschreckend hoher
Anteil der „Plagiatsfälle“ wäre falscher Alarm (falsch-positive
Klassifizierung). Basierend auf meinen Erfahrungen im Bereich Text-Mining und den sehr unterschiedlichen Texten und Plagiatsmethoden würde ich keinem System vertrauen, dass nicht auf offenen und überprüfbaren Daten und Algorithmen basiert. Die Gefahr von over-fitting ist einfach viel zu groß.
Hinzu kommt, dass
die PDS (soweit mir bekannt) alle mit einem recht undurchsichtigen
Scoring-System arbeiten, wobei es schwer einzuschätzen ist, was der
Wert denn tatsächlich heißt und wie groß die Unsicherheit der
Prognose ist.
Ein weiteres Problem
ist die fortschreitende Digitalisierung selbst. Wenn immer mehr Daten
zur Verfügung stehen, dann wird die Wahrscheinlichkeit, dass zwei
Menschen sehr ähnliche Texte schreiben, ohne voneinander Kenntnis zu
haben, absolut sehr groß. Hier gilt das Big Data Prinzip: Egal wie
unwahrscheinlich etwas ist, wenn ich nur genügend Daten habe, wird
der Fall absolut recht häufig auftreten.
Praxistest
Ein kleiner
Praxistest bestätigt dieses Bild. Mit PlagScan habe ich drei Texte
überprüft: Meinen letzten Blogbeitrag, einen Essay von meiner Kollegin Lisa Herzog
und einen Artikel von meinem Kollegen Tim Büthe. Es handelt sich also um drei sehr unterschiedliche Texte, sowohl inhaltlich als auch vom Stil und Format. Danach war mein kostenloser
Probezugang leider abgelaufen, so dass ich keine weiteren Texte prüfen konnte…
Nur 13% Plagiat, obwohl das Programm 100% finden müsste. |
Angeblich ist mein
Text zu 13% plagiiert. Diese Zahl ist besonders erschreckend, weil
die Software die ursprüngliche Quelle (meinen Blog) durchaus
gefunden hat. Hier hätte also 100% plagiiert herauskommen müssen. Das Fingerprinting in Kombination mit Prozentangaben führt also völlig in die Irre.
Der Essay von Lisa
Herzog ist angeblich zu 61,8% ein Plagiat und das, nachdem die echte
Quelle aus der Analyse herausgefiltert wurde.
Ähnlichkeiten aufgrund der Essaystruktur erscheinen als Plagiat |
Und auch der Artikel
von Tim Büthe, der wesentlich länger ist als die anderen Texte, ist zu 11,1% als Plagiat gekennzeichnet (wenn die
Ursprungsquelle ausgeklammert wird).
Textbausteine, die das Thema definieren, erscheinen als Plagiat |
Ethische
Kollateralschäden
Was passiert
eigentlich mit den Daten, die man in eine PDS eingibt? Im
harmlosesten Fall werden damit die Datenbanken gefüllt, mit denen
dann neue Texte abgeglichen werden. Die Analyse, die man kauft, bezahlt man also im Prinzip mit den Trainingsdaten, die dafür benötigt werden (und mit teuren Lizenzgebühren). Im Extremfall ließen
sich solche Daten auch für personalisierte Werbung etc. verwenden.
Welchen Schaden
richtet man mit falsch-positiven Klassifikationen an? Wie viel
Plagiatoren muss man aufspüren, damit sich die falsche Beschuldigung
von einem Studierenden dadurch rechtfertigt? Je einfacher die
Software zu handhaben ist, um so mehr Arbeiten werden damit überprüft
werden. Und um so mehr falsche Entscheidungen werden getroffen
werden.
Und überhaupt: Was
ist das eigentlich für ein Bild von Studierenden?
Wieso sollen wir
alle unter Generalverdacht stellen? Studierende, die lernen, warum
wissenschaftliches Arbeiten wichtig ist und wie es geht werden nicht
plagiieren. Gehen wir davon aus, dass diese Aussage auf unsere
Studierende nicht zu trifft, dann haben wir ein Problem in der
Ausbildung und/oder im Auswahlprozess. Umgekehrt, warum sollten
Studierende Lehrenden vertrauen, die ihnen mit kollektivem Misstrauen
begegnen?
Man kann jetzt natürlich einwenden, dass die PDS ja nur als Entscheidungshilfe gedacht sind. Das ändert aber nichts, da es sich um eine sehr ungenaue und irreführende Entscheidungshilfe handelt. Umgekehrt glaube ich nicht, dass einem die Software bei konkreten Verdachtsfällen mehr liefern würde, als eine geschickte Google-Suche auch offenbaren könnte.
Nicht jede automatisierte Lösung, die angeboten wird, sollte auch genutzt werden. Und ohne belastbare Zahlen zu Fehlklassifikation verbietet sich jeder - auch der rein unterstützende - Einsatz solcher Systeme.
Kommentare
Kommentar veröffentlichen