BILDUNGSFORSCHUNG

Wer hat's geschrieben? Mensch oder Maschine?

Mit ChatGPT ist künstliche Intelligenz endgültig im Alltag angelangt. Eine Studie hat nun getestet, wie KI-generierte Aufsätze im Vergleich mit Texten von Lernenden abschneiden. Die Resultate werfen zentrale Fragen auf, schreibt Beat Schwendimann, Leiter Pädagogik LCH.

Eine Studie hat verglichen, wie Lehrpersonen KI-generierte Aufsätze identifizieren und bewerten. Foto: iStock/Ugur Karakoc

Können Lehrpersonen von ChatGPT-verfasste Texte noch erkennen? ChatGPT stellt Lehrerinnen und Lehrer vor eine Herausforderung. Die beeindruckende Fähigkeit des Chatbots und ähnlicher Technologien, binnen Sekunden komplexe Texte zu produzieren, hat unter Lehrpersonen für angeregte Diskussionen gesorgt. Ein Grossteil der Schülerinnen und Schüler setzt ChatGPT bereits regelmässig für Hausaufgaben ein.

Gute Noten für ChatGPT

Die meisten Studien fokussierten sich bisher auf die kostenfreie Ausführung von ChatGPT-3.5, wohingegen die fortschrittlichere, kostenpflichtige Variante ChatGPT-4.0 deutlich ausgefeiltere Ergebnisse liefert. In einer Studie von Steffen Herbold (2023) an der Universität Passau wurde erforscht, ob Lehrpersonen Aufsätze unterschiedlich bewerten, wenn sie von ChatGPT erstellt oder von Schülerinnen und Schüler geschrieben wurden. Dazu wurden rund 100 erfahrene Lehrpersonen ausgewählt, um jeweils sechs Aufsätze – entweder von Schülerinnen und Schülern, von ChatGPT-3.5 oder von ChatGPT-4.0  – zu beurteilen. Den Teilnehmenden wurden je sechs zufällig ausgewählte Aufsätze vorgelegt. Diese wussten jeweils nicht, von wem der Aufsatz stammte. Jeder Aufsatz wurde von mehreren Lehrpersonen nach einem Raster bewertet. Die Bewertungen der Lehrpersonen zeigten eine hohe Übereinstimmung.

Die Lehrpersonen stuften die von ChatGPT verfassten Aufsätze durchschnittlich um mindestens eine Note besser ein als die von Schülerinnen oder Schülern verfassten. Die Texte von ChatGPT-4.0 wurden als signifikant überlegener und nuancierter angesehen als jene von ChatGPT-3.5.

Im Bezug auf das Erkennen maschinell generierter Texte verweisen die Autorinnen und Autoren auf eine separate Studie. Demnach erkennen Personen, die mit ChatGPT vertraut sind, KI-Texte in 80 Prozent der Fälle. Die anderen hingegen erkennen in 50 Prozent der Fälle nicht, wenn ein Text mit ChatGPT generiert wurde.

Was nun wichtig ist

Diese Befunde werfen zentrale Fragen auf: Wie sollen Schulen mit durch KI erstellten Aufsätzen umgehen, insbesondere wenn diese von höherer Qualität sind als Schülertexte? Wie wird Eigenleistung definiert, und was gilt als Plagiat?

  • Die Bewertung basierend auf dem Endprodukt allein reicht nicht aus. Dies unterstreicht die Wichtigkeit einer prozessorientierten Begleitung und alternativer Prüfungsformate, wie zum Beispiel mündliche Prüfungen.
  • Die überlegene Qualität der Aufsätze von ChatGPT-4.0 birgt zudem Fragen der Chancengerechtigkeit. Schülerinnen und Schüler, die Zugang zu leistungsfähigeren, kostenpflichtigen Versionen haben, könnten bevorzugt sein. Ein gleichberechtigter Zugang zu modernen KI-Diensten für alle Schulen wird daher immer wichtiger.
  • Lehrpersonen stehen vor der Aufgabe, ihren Schülerinnen und Schüler einen verantwortungsvollen Umgang mit KI zu vermitteln. Sowohl Schülerinnen und Schüler als auch Lehrpersonen müssen den kompetenten Einsatz von KI-Systemen erlernen und die erzeugten Inhalte kritisch hinterfragen, validieren und gegebenenfalls verbessern.

Der LCH erarbeitet momentan in seiner Arbeitsgruppe Digitale Transformation in der Schule ein Positionspapier zu Künstliche Intelligenz in der Schule', welches konkrete Lösungsansätze vorstellt. Die Veröffentlichung dieses Dokuments ist für den Verlauf dieses Jahres geplant.

Studie

Herbold, S., Hautli-Janisz, A., Heuer, U., Kikteva, Z., & Trautsch, A. (2023). A large-scale comparison of human-written versus ChatGPT-generated essays. Scientific Reports, 13(1), 18617. nature.com/articles/s41598-023-45644-9 

Datum

10.02.2024

Autor
Beat Schwendimann, Leiter Pädagogik LCH

Themen