Bitte keine Plagiatssoftware verwenden

An Universitäten möchte man – auch wegen der öffentlichen Debatten in Bezug auf Plagiatsfälle – gegen Plagiate von Studierenden schon während des Studiums vorgehen. Das ist mit viel Arbeit verbunden und wäre insofern ein ideales Einsatzfeld für automatische Systeme: Plagiarism Detection Software (PDS – nicht zu verwechseln mit Political Data Science ;-) ). Im folgenden möchte ich zeigen, dass man das besser lassen sollte.

Es gibt nicht besonders viele Studien, die sich empirisch mit PDS beschäftigen. Einen sehr guten Überblick bietet dieser Artikel von NormanMeuschke und Bela Gipp.

Viele der folgenden Textstellen sind von diesem Artikel inspiriert = plagiiert.

Wie plagiierst du so?

Plagiat ist nicht gleich Plagiat. Die einfachste Form ist Copy & Paste. Dabei werden ganze Sätze oder Abschnitte aus anderen Werken einfach in die eigene Arbeit eingefügt. Shaking & Paste meint, dass die kopierten Textstellen leicht verändert werden, z. B. hinsichtlich der Wortreihenfolge. Paraphrasing nimmt den Gedanken von jemand anders und formuliert ihn um. Cross-language plagiarism meint, dass man Texte aus einer anderen Sprache übersetzt. Schließlich gibt es noch technical disguise: Hier wird gezielt versucht, die Schwachstellen von PDS auszunutzen, z. B. durch die Ersetzung von Buchstaben durch Zeichen aus anderen Sprachen oder durch das Einfügen von nicht sichtbaren Texten. Diese große Bandbreite wird in der Kategorisierung Plagiat/Original nicht erfasst und macht eine binäre Klassifikation sehr schwierig.

Wie funktioniert PDS?

Meuschke und Gibb unterscheiden zwischen unterschiedlichen Systemen:

Fingerprinting

Dabei wird ein Text in einzelne Textbausteine zerlegt von denen dann einige ausgewählt werden, die den „Fingerabdruck“ des Textes bilden. Diese Abdrücke werden dann mit Abdrücken in der Datenbank oder dem Netz verglichen. Hintergrund ist, dass ein Wort-zu-Wort-Vergleich vom Rechenaufwand zu groß wäre und dass sich in Texten viele redundante Informationen befinden, so dass durch dieses Downsampling nicht viel verloren geht – in der Theorie. In der Praxis gibt es riesige Unterschiede, wie diese Fingerprints erstellt werden. Man kann Ketten von Buchstaben oder Ketten von Worten (n-grams) analysieren, ganze Sätze vergleichen oder auch die Texte in einen Vektorraum transferieren und dann die entsprechenden Vektoren vergleichen.

Citation-based plagiarism detection

Eine andere Gruppe von Software untersucht die Quellen, die ein Text zitiert und sucht nach übereinstimmenden Mustern mit anderen Texten.

Stylometry

Diese Ansätze suchen nach Mustern, die einen vorliegenden Text möglichst gut von anderen differenzieren, um so den Stil des Autors zu erkennen. Dafür wird zum Beispiel auf die Verteilung von häufigen Worten wie „und“, „mit“, „der“, „die“, „das“ etc. geschaut. Worte, die beim Fingerprinting häufig bewusst aus der Analyse herausgefiltert werden. Wenn es dann Dokumente oder Passagen gibt, die sich im Stil sehr ähneln, oder sich der Stil eines Autors in einem Text plötzlich ändert, sind das Hinweise auf Plagiate.

In der Praxis sind Fingerprinting-Ansätze am stärksten verbreitet.

Wie gut funktionieren PDS?

Leider gibt es keine standardisierten Testverfahren. Die Anbieter von PDS hüllen sich in Schweigen, was die Genauigkeit ihrer Verfahren anbelangt. Experten wie Debora Weber-Wulff, die an der Hochschule für Technik und Wirtschaft Berlin die Plagiate von Ex-Verteidigungsminister zu Guttenberg analysiert hat, hat eine klare Meinung zum Nutzen von Plagiat-Software: "Man traut der Software alles zu, und das ist Quatsch! Im regulären Hochschulbetrieb ist sie unbrauchbar. […] Ich habe die Arbeit mit fünf verschiedenen Systemen überprüft […]. Eines gab an, nur fünf Prozent seien plagiiert. Und die anderen lieferten ähnliche Werte"

(zitiert nach Spiegel-online).

Im Endeffekt kam sie auf 63 Prozent zu beanstandender Stellen.

Meuschke und Gibb fassen in ihrer Arbeit andere Studien zusammen und kommen zu dem Ergebnis, dass man von Recall-Werten von 23% und Precision-Werten von 46% ausgehen kann, wenn unterschiedliche Arten des Plagiats gleichzeitig untersucht werden. Precision sagt, wievielt Prozent der Texte, die PDS als Plagiat erkennt, tatsächlich Plagiate sind. Recall zeigt das Verhältnis aller erkannten Plagiate zur Gesamtheit aller Plagiate.

Bei längeren Texten steigen diese Werte an: Man kann wohl auf einen Recall von ca. 45% und Precision von ca. 80% kommen, wenn man Texte mit mehr als 35.000 Worten untersucht (Stein/Lipka/Prettenhofer 2010) und mit richtigem machine learning, das Metadaten einbezieht sind wohl auch noch bessere Ergebnisse möglich. Selbst wenn man also von einem Recall von 50% und Precision von 90% ausgehen würde – wobei die Performance solcher Systeme basierend auf echten Daten mit Garantie schlechter läuft, als auf Testdaten – würde immer noch die Hälfte der Plagiate nicht erkannt und ein erschreckend hoher Anteil der „Plagiatsfälle“ wäre falscher Alarm (falsch-positive Klassifizierung). Basierend auf meinen Erfahrungen im Bereich Text-Mining und den sehr unterschiedlichen Texten und Plagiatsmethoden würde ich keinem System vertrauen, dass nicht auf offenen und überprüfbaren Daten und Algorithmen basiert. Die Gefahr von over-fitting ist einfach viel zu groß.

Hinzu kommt, dass die PDS (soweit mir bekannt) alle mit einem recht undurchsichtigen Scoring-System arbeiten, wobei es schwer einzuschätzen ist, was der Wert denn tatsächlich heißt und wie groß die Unsicherheit der Prognose ist.

Ein weiteres Problem ist die fortschreitende Digitalisierung selbst. Wenn immer mehr Daten zur Verfügung stehen, dann wird die Wahrscheinlichkeit, dass zwei Menschen sehr ähnliche Texte schreiben, ohne voneinander Kenntnis zu haben, absolut sehr groß. Hier gilt das Big Data Prinzip: Egal wie unwahrscheinlich etwas ist, wenn ich nur genügend Daten habe, wird der Fall absolut recht häufig auftreten.

Praxistest

Ein kleiner Praxistest bestätigt dieses Bild. Mit PlagScan habe ich drei Texte überprüft: Meinen letzten Blogbeitrag, einen Essay von meiner Kollegin Lisa Herzog und einen Artikel von meinem Kollegen Tim Büthe. Es handelt sich also um drei sehr unterschiedliche Texte, sowohl inhaltlich als auch vom Stil und Format. Danach war mein kostenloser Probezugang leider abgelaufen, so dass ich keine weiteren Texte prüfen konnte…

Nur 13% Plagiat, obwohl das Programm 100% finden müsste.

Angeblich ist mein Text zu 13% plagiiert. Diese Zahl ist besonders erschreckend, weil die Software die ursprüngliche Quelle (meinen Blog) durchaus gefunden hat. Hier hätte also 100% plagiiert herauskommen müssen. Das Fingerprinting in Kombination mit Prozentangaben führt also völlig in die Irre.

Der Essay von Lisa Herzog ist angeblich zu 61,8% ein Plagiat und das, nachdem die echte Quelle aus der Analyse herausgefiltert wurde.

Ähnlichkeiten aufgrund der Essaystruktur erscheinen als Plagiat

Und auch der Artikel von Tim Büthe, der wesentlich länger ist als die anderen Texte, ist zu 11,1% als Plagiat gekennzeichnet (wenn die Ursprungsquelle ausgeklammert wird).

Textbausteine, die das Thema definieren, erscheinen als Plagiat

Ethische Kollateralschäden

Was passiert eigentlich mit den Daten, die man in eine PDS eingibt? Im harmlosesten Fall werden damit die Datenbanken gefüllt, mit denen dann neue Texte abgeglichen werden. Die Analyse, die man kauft, bezahlt man also im Prinzip mit den Trainingsdaten, die dafür benötigt werden (und mit teuren Lizenzgebühren). Im Extremfall ließen sich solche Daten auch für personalisierte Werbung etc. verwenden.

Welchen Schaden richtet man mit falsch-positiven Klassifikationen an? Wie viel Plagiatoren muss man aufspüren, damit sich die falsche Beschuldigung von einem Studierenden dadurch rechtfertigt? Je einfacher die Software zu handhaben ist, um so mehr Arbeiten werden damit überprüft werden. Und um so mehr falsche Entscheidungen werden getroffen werden.

Und überhaupt: Was ist das eigentlich für ein Bild von Studierenden?

Wieso sollen wir alle unter Generalverdacht stellen? Studierende, die lernen, warum wissenschaftliches Arbeiten wichtig ist und wie es geht werden nicht plagiieren. Gehen wir davon aus, dass diese Aussage auf unsere Studierende nicht zu trifft, dann haben wir ein Problem in der Ausbildung und/oder im Auswahlprozess. Umgekehrt, warum sollten Studierende Lehrenden vertrauen, die ihnen mit kollektivem Misstrauen begegnen?

Man kann jetzt natürlich einwenden, dass die PDS ja nur als Entscheidungshilfe gedacht sind. Das ändert aber nichts, da es sich um eine sehr ungenaue und irreführende Entscheidungshilfe handelt. Umgekehrt glaube ich nicht, dass einem die Software bei konkreten Verdachtsfällen mehr liefern würde, als eine geschickte Google-Suche auch offenbaren könnte.

Nicht jede automatisierte Lösung, die angeboten wird, sollte auch genutzt werden. Und ohne belastbare Zahlen zu Fehlklassifikation verbietet sich jeder - auch der rein unterstützende - Einsatz solcher Systeme.

Deep-Dive Impfeffektivität: Eine kritische Datenanalyse der RKI-Berechnungen / Teil 1: Die Methode

Die Einschätzung, wie effektiv die COVID-Impfung ist, ist eine der politisch relevantesten Kennzahlen derzeit. Insbesondere für die Einschätzungen der Angemessenheit einr Impfpflicht ist diese Zahl extrem wichtig. In der Vergangenheit hat sich immer wieder gezeigt, dass die Berechnungen des RKI nicht in jeder Hinsicht eindeutig sind, sondern auf vielen Annahmen beruhen, die man auch kritisch hinterfragen kann und muss. Für die politische Datenwissenschaft ist es daher essenziell, diese Berechnungen nachvollziehbar zu machen. In diesem Beitrag wird das methodische Vorgehen des RKI zur Berechnung der Impfeffektivität analysiert. Die Informationen dazu entstammen den RKI-Wochenberichten . In einem zweiten Teil habe ich die konkreten Berechnungen des RKI so weit wie möglich rekonstruiert und kann daher zeigen, wie stark die Ergebnisse schwanken, wenn Annahmen leicht verändert werden. Meine Erkenntnisse aus der folgenden Analyse: Das RKI verwendet zur Berechnung der Impfeffektivität di...

Political Data Science

Dieses Blog durchsuchen