Direkt zum Hauptbereich

Bitte keine Plagiatssoftware verwenden


An Universitäten möchte man – auch wegen der öffentlichen Debatten in Bezug auf Plagiatsfälle – gegen Plagiate von Studierenden schon während des Studiums vorgehen. Das ist mit viel Arbeit verbunden und wäre insofern ein ideales Einsatzfeld für automatische Systeme: Plagiarism Detection Software (PDS – nicht zu verwechseln mit Political Data Science ;-) ). Im folgenden möchte ich zeigen, dass man das besser lassen sollte.
Es gibt nicht besonders viele Studien, die sich empirisch mit PDS beschäftigen. Einen sehr guten Überblick bietet dieser Artikel von NormanMeuschke und Bela Gipp.
Viele der folgenden Textstellen sind von diesem Artikel inspiriert = plagiiert.

Wie plagiierst du so?

Plagiat ist nicht gleich Plagiat. Die einfachste Form ist Copy & Paste. Dabei werden ganze Sätze oder Abschnitte aus anderen Werken einfach in die eigene Arbeit eingefügt. Shaking & Paste meint, dass die kopierten Textstellen leicht verändert werden, z. B. hinsichtlich der Wortreihenfolge. Paraphrasing nimmt den Gedanken von jemand anders und formuliert ihn um. Cross-language plagiarism meint, dass man Texte aus einer anderen Sprache übersetzt. Schließlich gibt es noch technical disguise: Hier wird gezielt versucht, die Schwachstellen von PDS auszunutzen, z. B. durch die Ersetzung von Buchstaben durch Zeichen aus anderen Sprachen oder durch das Einfügen von nicht sichtbaren Texten. Diese große Bandbreite wird in der Kategorisierung Plagiat/Original nicht erfasst und macht eine binäre Klassifikation sehr schwierig.

Wie funktioniert PDS?

Meuschke und Gibb unterscheiden zwischen unterschiedlichen Systemen:

Fingerprinting

Dabei wird ein Text in einzelne Textbausteine zerlegt von denen dann einige ausgewählt werden, die den „Fingerabdruck“ des Textes bilden. Diese Abdrücke werden dann mit Abdrücken in der Datenbank oder dem Netz verglichen. Hintergrund ist, dass ein Wort-zu-Wort-Vergleich vom Rechenaufwand zu groß wäre und dass sich in Texten viele redundante Informationen befinden, so dass durch dieses Downsampling nicht viel verloren geht – in der Theorie. In der Praxis gibt es riesige Unterschiede, wie diese Fingerprints erstellt werden. Man kann Ketten von Buchstaben oder Ketten von Worten (n-grams) analysieren, ganze Sätze vergleichen oder auch die Texte in einen Vektorraum transferieren und dann die entsprechenden Vektoren vergleichen.

Citation-based plagiarism detection

Eine andere Gruppe von Software untersucht die Quellen, die ein Text zitiert und sucht nach übereinstimmenden Mustern mit anderen Texten.

Stylometry

Diese Ansätze suchen nach Mustern, die einen vorliegenden Text möglichst gut von anderen differenzieren, um so den Stil des Autors zu erkennen. Dafür wird zum Beispiel auf die Verteilung von häufigen Worten wie „und“, „mit“, „der“, „die“, „das“ etc. geschaut. Worte, die beim Fingerprinting häufig bewusst aus der Analyse herausgefiltert werden. Wenn es dann Dokumente oder Passagen gibt, die sich im Stil sehr ähneln, oder sich der Stil eines Autors in einem Text plötzlich ändert, sind das Hinweise auf Plagiate.
In der Praxis sind Fingerprinting-Ansätze am stärksten verbreitet.

Wie gut funktionieren PDS?

Leider gibt es keine standardisierten Testverfahren. Die Anbieter von PDS hüllen sich in Schweigen, was die Genauigkeit ihrer Verfahren anbelangt. Experten wie Debora Weber-Wulff, die an der Hochschule für Technik und Wirtschaft Berlin die Plagiate von Ex-Verteidigungsminister zu Guttenberg analysiert hat, hat eine klare Meinung zum Nutzen von Plagiat-Software: "Man traut der Software alles zu, und das ist Quatsch! Im regulären Hochschulbetrieb ist sie unbrauchbar. […] Ich habe die Arbeit mit fünf verschiedenen Systemen überprüft […]. Eines gab an, nur fünf Prozent seien plagiiert. Und die anderen lieferten ähnliche Werte"
Im Endeffekt kam sie auf 63 Prozent zu beanstandender Stellen.
Meuschke und Gibb fassen in ihrer Arbeit andere Studien zusammen und kommen zu dem Ergebnis, dass man von Recall-Werten von 23% und Precision-Werten von 46% ausgehen kann, wenn unterschiedliche Arten des Plagiats gleichzeitig untersucht werden. Precision sagt, wievielt Prozent der Texte, die PDS als Plagiat erkennt, tatsächlich Plagiate sind. Recall zeigt das Verhältnis aller erkannten Plagiate zur Gesamtheit aller Plagiate.
Bei längeren Texten steigen diese Werte an: Man kann wohl auf einen Recall von ca. 45% und Precision von ca. 80% kommen, wenn man Texte mit mehr als 35.000 Worten untersucht (Stein/Lipka/Prettenhofer 2010) und mit richtigem machine learning, das Metadaten einbezieht sind wohl auch noch bessere Ergebnisse möglich. Selbst wenn man also von einem Recall von 50% und Precision von 90% ausgehen würde – wobei die Performance solcher Systeme basierend auf echten Daten mit Garantie schlechter läuft, als auf Testdaten – würde immer noch die Hälfte der Plagiate nicht erkannt und ein erschreckend hoher Anteil der „Plagiatsfälle“ wäre falscher Alarm (falsch-positive Klassifizierung). Basierend auf meinen Erfahrungen im Bereich Text-Mining und den sehr unterschiedlichen Texten und Plagiatsmethoden würde ich keinem System vertrauen, dass nicht auf offenen und überprüfbaren Daten und Algorithmen basiert. Die Gefahr von over-fitting ist einfach viel zu groß.
Hinzu kommt, dass die PDS (soweit mir bekannt) alle mit einem recht undurchsichtigen Scoring-System arbeiten, wobei es schwer einzuschätzen ist, was der Wert denn tatsächlich heißt und wie groß die Unsicherheit der Prognose ist.
Ein weiteres Problem ist die fortschreitende Digitalisierung selbst. Wenn immer mehr Daten zur Verfügung stehen, dann wird die Wahrscheinlichkeit, dass zwei Menschen sehr ähnliche Texte schreiben, ohne voneinander Kenntnis zu haben, absolut sehr groß. Hier gilt das Big Data Prinzip: Egal wie unwahrscheinlich etwas ist, wenn ich nur genügend Daten habe, wird der Fall absolut recht häufig auftreten.

Praxistest

Ein kleiner Praxistest bestätigt dieses Bild. Mit PlagScan habe ich drei Texte überprüft: Meinen letzten Blogbeitrag, einen Essay von meiner Kollegin Lisa Herzog und einen Artikel von meinem Kollegen Tim Büthe. Es handelt sich also um drei sehr unterschiedliche Texte, sowohl inhaltlich als auch vom Stil und Format. Danach war mein kostenloser Probezugang leider abgelaufen, so dass ich keine weiteren Texte prüfen konnte… 
Nur 13% Plagiat, obwohl das Programm 100% finden müsste.

Angeblich ist mein Text zu 13% plagiiert. Diese Zahl ist besonders erschreckend, weil die Software die ursprüngliche Quelle (meinen Blog) durchaus gefunden hat. Hier hätte also 100% plagiiert herauskommen müssen. Das Fingerprinting in Kombination mit Prozentangaben führt also völlig in die Irre.
Der Essay von Lisa Herzog ist angeblich zu 61,8% ein Plagiat und das, nachdem die echte Quelle aus der Analyse herausgefiltert wurde. 
Ähnlichkeiten aufgrund der Essaystruktur erscheinen als Plagiat

Und auch der Artikel von Tim Büthe, der wesentlich länger ist als die anderen Texte, ist zu 11,1% als Plagiat gekennzeichnet (wenn die Ursprungsquelle ausgeklammert wird).
Textbausteine, die das Thema definieren, erscheinen als Plagiat


Ethische Kollateralschäden

Was passiert eigentlich mit den Daten, die man in eine PDS eingibt? Im harmlosesten Fall werden damit die Datenbanken gefüllt, mit denen dann neue Texte abgeglichen werden. Die Analyse, die man kauft, bezahlt man also im Prinzip mit den Trainingsdaten, die dafür benötigt werden (und mit teuren Lizenzgebühren). Im Extremfall ließen sich solche Daten auch für personalisierte Werbung etc. verwenden.
Welchen Schaden richtet man mit falsch-positiven Klassifikationen an? Wie viel Plagiatoren muss man aufspüren, damit sich die falsche Beschuldigung von einem Studierenden dadurch rechtfertigt? Je einfacher die Software zu handhaben ist, um so mehr Arbeiten werden damit überprüft werden. Und um so mehr falsche Entscheidungen werden getroffen werden.
Und überhaupt: Was ist das eigentlich für ein Bild von Studierenden?
Wieso sollen wir alle unter Generalverdacht stellen? Studierende, die lernen, warum wissenschaftliches Arbeiten wichtig ist und wie es geht werden nicht plagiieren. Gehen wir davon aus, dass diese Aussage auf unsere Studierende nicht zu trifft, dann haben wir ein Problem in der Ausbildung und/oder im Auswahlprozess. Umgekehrt, warum sollten Studierende Lehrenden vertrauen, die ihnen mit kollektivem Misstrauen begegnen?
Man kann jetzt natürlich einwenden, dass die PDS ja nur als Entscheidungshilfe gedacht sind. Das ändert aber nichts, da es sich um eine sehr ungenaue und irreführende Entscheidungshilfe handelt. Umgekehrt glaube ich nicht, dass einem die Software bei konkreten Verdachtsfällen mehr liefern würde, als eine geschickte Google-Suche auch offenbaren könnte.
Nicht jede automatisierte Lösung, die angeboten wird, sollte auch genutzt werden. Und ohne belastbare Zahlen zu Fehlklassifikation verbietet sich jeder - auch der rein unterstützende - Einsatz solcher Systeme.
 


Kommentare

Beliebte Posts aus diesem Blog

Kritik an dem Science-Artikel der Priesemann-Gruppe „Inferring change points in the spread of COVID-19 reveals the effectiveness of interventions“

Der Science-Artikel von Dehning et al. (2020) gilt als Beleg für die Effektivität der Corona-Maßnahmen in Deutschland im März 2020. Wir glauben, dass der Artikel gravierende Fehler enthält und daher nichts darüber aussagt, ob insbesondere das Kontaktverbot vom 23.03.2020, irgendeinen Effekt hatte. Unsere Kritik haben wir bei Science eingereicht und sie ist hier zu finden: https://science.sciencemag.org/content/369/6500/eabb9789/tab-e-letters Im folgenden übersetze ich unseren Beitrag und gehe anschließend auf die Frage ein, wie Wissenschaft unter COVID-19-Bedingungen funktioniert und was daran bedenklich ist. Eine Kritik an ‘Inferring change points in the spread of COVID-19 reveals the effectiveness of interventions’ Wir haben den Artikel ‘Inferring change points in the spread of COVID-19 reveals the effectiveness of interventions’ analysiert und dabei gravierende Unstimmigkeiten im Design der Studie festgestellt: Anstatt das Datum der Wendepunkte (wann sich die COVID-19-Entwicklung i

Der Nutzerismus: Eine Ideologie mit totalitärem Potential

Ich glaube, dass wir derzeit den Aufstieg einer Ideologie erleben, die ich Nutzerismus nennen möchte. Hannah Arendt hat darauf hingewiesen, dass jede Ideologie zu einem totalitaristischen Regime führen kann und es gibt ernste Anzeichen, dass dies auch für den Nutzerismus gilt.  Was ist der Nutzerismus? Wie bei jeder Ideologie ist der Kerngedanke sehr einfach: Im Prinzip gibt es für alle gesellschaftlichen Probleme eine technische Lösung. Leider wenden die Menschen die richtigen Technologien nicht an. Sie nehmen ihre Rolle als Nutzer nicht wahr. Es geht dem Nutzerismus also um das Zusammenspiel von Mensch und Technik, allerdings immer wieder aus der gleichen Perspektive. Die Technik kommt vor als potentielle Lösung eines gesellschaftlichen Problems. Eventuell fehlt die perfekte Lösung noch, aber das ist dann als Auftrag an die Wissenschaft und die Ingenieure zu verstehen. Dieser Technikglaube hat etwas sehr Naives. Er abstrahiert zum Beispiel von allen Interessen, für die Technologien

Was man an der COVID-Politik über Faschismus lernen kann

Kritiker der Corona-Politik führen immer häufiger den Begriff Faschismus im Munde, um die politischen Maßnahmen zu beschreiben. Einerseits ist damit natürlich eine polemische Ablehnung verbunden: Wer will schon für Faschismus sein? Generell ist der moralische Vorwurf, etwas sei faschistisch oder faschistoid in der demokratischen Auseinandersetzung durchaus geläufig. Dabei wird jedoch meist auf etwas verwiesen, was zum demokratischen Staat dazu gehört und gerade keinen Faschismus begründet: Die Polizei, die das Gewaltmonopol durchsetzt, ist keine faschistische Organisation, ein Parlament, welches Bürgerrechte einschränkt, ist kein Beleg für die faschistische Aufhebung des Rechtsstaats und ein Medienartikel, der dazu aufruft, Bürger sollen Straftäter anzeigen, ist keine faschistische Propaganda, usw. All dies sind Beispiele für das Leben in demokratischen Gemeinwesen. Anstatt die Demokratie also immer gleich auf dem Weg in den Faschismus zu wähnen, wäre es angebracht, sich zu fragen, war