Siegert2Debora Weber-Wulff veröffentlichte im Sommer 2023 zusammen mit einem achtköpfigen internationalen Forscherteam die aktuell größte wissenschaftliche Vergleichsstudie zum Nutzen von Erkennungstool für KI generierten Text. (Weber-Wulff, D., Anohina-Naumeca, A., Bjelobaba, S. et al. Testing of detection tools for AI-generated text. Int J Educ Integr 19, 26 (2023). https://doi.org/10.1007/s40979-023-00146-z. Zuletzt aufgerufen am 01.03.2.2024).

In einem aufwendigen Forschungsdesign verglichen sie die Erkennungsraten von 12 frei verfügbaren und zwei kommerziellen Erkennungstool.

Genutzt wurden folgende Tools:
Check For AI (https://checkforai.com)
Compilatio (https://ai-detector.compilatio.net/)
Content at Scale (https://contentatscale.ai/ai-content-detector/)
Crossplag (https://crossplag.com/ai-content-detector/)
DetectGPT (https://detectgpt.ai/)https://detectgpt.ai/)
Go Winston (https://gowinston.ai)
GPT Zero (https://gptzero.me/)
GPT-2 Output Detector Demo (https://openai-openai-detector.hf.space/)
OpenAI Text Classifier (https://community.openai.com/t/openai-ai-text-classifier/307552)
PlagiarismCheck (https://plagiarismcheck.org/) *
Turnitin (https://demo-ai-writing-10.turnitin.com/home/) *
Writeful GPT Detector (https://x.writefull.com/gpt-detector)
Writer (https://writer.com/ai-content-detector/)
ZeroGPT (https://www.zerogpt.com/)

*kostenpflichtig

Jede*r der neun Forschenden erstellte ein Testset aus je zwei neuen, selbst verfassten Texten (01-Hum, 02-MT mit Übersetzungstoolnutzung) und vier von Chat GPT erstellten Versionen (03/04-AI), wovon ein Text händisch und ein Text mittels des KI-Tools Quillbots paraphrasiert wurden (05-ManEd, 06-Para). Daraus resultierte ein Datensatz von 54 Testfällen, der mit jeder der 14 Programme getestet wurden (in Summe 756 Testungen). Die Prüfungen fanden zwischen dem 7. März bis zum 8. Mai 2023 statt.

Ergebnisse

Die Forscher klassifizierten alle Ergebnisse auf zwei Skalen mit je fünf Abstufungen: falsch negativ/positiv, teilweise falsch n/p, unklar, teilweise richtig n/p, richtig n/p. Für jedes Tool und insgesamt wurden dann die Prozentsätze für richtige Entscheidungen in Abhängigkeit des eingereichten Dokumententyps berechnet (Siehe Abb.1).

OA WW2023

Abb. 1: Genauigkeit nach Dokumententyp

Kein Programm konnte die Forscher insgesamt überzeugen, obwohl große Unterschiede in der Güte der Erkennung auftraten.

Menschlich verfasste Texte werden in den allermeisten Fällen von den Programmen zutreffend erkannt ( 01-Hum ca. 95%,), die Genauigkeit sinkt jedoch um 20%, wenn menschlich verfasste Texte mit Hilfe von Übersetzungstools maschinell übersetzt wurden (02-MT ca. 75%). Die Erkennungsraten für KI-generierte Texte sind grundsätzlich niedriger. Texte, die komplett von ChatGPT erstellt wurden, werden durchschnittlich mit ca. 74% Wahrscheinlichkeit richtig erkannt, bei der Nutzung von Paraphrasierungen sinken die Erkennungsraten auf ca. 42% bei händischen Veränderungen (05-ManEd) und auf nur ca. 26 % bei der Nutzung von Quillbots (06-Para).

Alle Produkte haben die Tendenz, Texte eher einem menschlichen Ursprung zu zuschreiben.

In einer Fehleranalyse wurden zudem zwei Fehler noch gesondert betrachtet: a) Die Wahrscheinlichkeit, mit der ein menschlicher Text als KI generiert deklariert wird, d.h. Studierende zur Unrecht eines Fehlverhaltens beschuldigt werden. Diese kann bei den allermeisten Tools mit einem durchschnittlichem Wert von 2% weitgehend ausgeschlossen werden, obgleich die Rate bei der Nutzung von Übersetzungstools auf 11% ansteigt.

b) In der zweiten Analyse wird betrachtet, in wie vielen Fällen KI generierte Texte nicht erkannt werden, d.h. Studierenden, die betrügen, nicht entdeckt werden. Dieser Fehler trat bei einfachen KI Texten zu ca. 20 % auf, nach der manuellen Überarbeitung zu 52% und nach der Paraphrasierung mit Quillbot sogar in 71% der Fällen. Es ist also wahrscheinlich, dass KI generierte Texte auch beim Einsatz von Erkennungssoftware nicht entdeckt werden.

Schlussfolgerungen

Entgegen der Angaben der Hersteller können alle untersuchten Werkzeuge KI generierte Text nicht mit einer zufriedenstellenden Genauigkeit ausweisen. Die Unzuverlässigkeit wächst, wenn Verschleierungstechniken wie das Nutzen von Übersetzungstools und Paraphrasierungen eingesetzt werden. Obwohl manche Systeme durch die Angaben von mehreren Nachkommastellen scheinbare Genauigkeit vortäuschen, sollten die Ergebnisse mit hoher Vorsicht interpretiert und nicht als alleiniger Beleg genutzt werden.

Die Autoren enden daher mit dem Appell an alle Lehrenden mehr Augenmerk auf die Prävention und auf die Vermittlung eines ethisch korrekten, transparenten Umgangs mit generativer KI zu legen. Sie empfehlen eine Überarbeitung der Prüfungsformate weg von einer summativen Betrachtung fertiger Textabgaben hin zu einer Prozessbegleitung der Studierenden bei der Produktion.

Nachbemerkung: Das Tool GLTR (http://gltr.io), das keine Klassifizierung vornimmt und daher von der Studie ausgeschlossen wurde, wird von den Forschenden als nützlich empfohlen. Das Tool markiert farblich, wie wahrscheinlich einzelne Worte im Textzusammenhang sind. Es wird also gezeigt, wie neu und unerwartet Ausführungen sind, was als ein Indikator für die Qualität eines Textes gesehen werden kann. Die Autoren von GLTR verweisen zudem auf ihre neue Entwicklung https://radar-app.vizhub.ai/, ein Tool, das nach Ihren Aussagen eine verbesserte Erkennung KI generierter Texte ermöglicht durch die Kombination einer eigenen Paraphrasierungs- und einer Erkennungskomponente. Online unter: https://arxiv.org/abs/2307.03838. Zuletzt aufgerufen am 22.02.2024).

Verfasserin:
Dipl-Psych. Maria Siegert
ZekoLL, E-Learning