Wenn ChatGPT zur Zweitkorrektorin wird – KI besteht im Prüfungsalltag

Wenn ChatGPT zur Zweitkorrektorin wird – KI besteht im Prüfungsalltag

Wenn es darum ging, eine Rangfolge der Antworten nach Qualität zu bilden – also welche Antwort besser, mittelmäßig oder schlechter war –, kam die KI den menschlichen Bewertungen erstaunlich nahe. (Bild: Redaktion/PiPaPu)


Kurzinfo: KI als Zweitkorrektorin – Ergebnisse der Passauer Studie

  • Studie der Universität Passau, veröffentlicht in Scientific Reports (Nature-Gruppe)
  • KI bewertete Freitextantworten aus Makroökonomie-Prüfungen
  • GPT-4 erreichte vergleichbare Leistungen zu menschlichen Prüfern
  • Bei Punktbewertungen großzügiger als Menschen
  • Kein Ersatz, aber nützliche Zweitkorrektorin
  • Qualität blieb auch bei ungenauer Aufgabenstellung stabil

Wenn die Korrektur von Prüfungen zur Geduldsprobe wird, könnten künftig Algorithmen zur Seite stehen. Forschende der Universität Passau haben getestet, ob ChatGPT Freitextantworten ebenso fair und verlässlich bewerten kann wie menschliche Prüferinnen und Prüfer – und das Ergebnis ist überraschend.

KI trifft auf die Realität der Prüfungsbewertung

Die Untersuchung, veröffentlicht in Scientific Reports, einem Journal der Nature-Gruppe, stammt aus einem interdisziplinären Projektteam um den Ökonomen Prof. Dr. Johann Graf Lambsdorff, die Wirtschaftswissenschaftlerin Deborah Voß und den Informatiker Abdullah Al Zubaer. Im Versuch ließ das Team ChatGPT-4 Prüfungsantworten aus einem Makroökonomie-Kurs bewerten – die gleiche Aufgabe, die zuvor menschliche Korrektorinnen übernommen hatten.

Das Ergebnis: Wenn es darum ging, eine Rangfolge der Antworten nach Qualität zu bilden – also welche Antwort besser, mittelmäßig oder schlechter war –, kam die KI den menschlichen Bewertungen erstaunlich nahe. „Wir waren zum Teil selbst überrascht, wie gut die KI bei manchen Bewertungen abschnitt,“ sagt Deborah Voß.

Die Grenzen der maschinischen Großzügigkeit

Ganz ohne Unterschiede blieb der Vergleich nicht. Beim Punktesystem zeigte sich ChatGPT als milde Prüferin – tendenziell großzügiger als Menschen, teilweise mit fast einer ganzen Note Unterschied. Lambsdorff betont: „Musterlösungen und Nachprüfung müssen menschliche Eingriffe bleiben.“ Die KI sei eher eine Ergänzung als ein Ersatz: hilfreich, aber nicht fehlerfrei.

Dennoch erkannte das Team, dass ChatGPT stabil und konsistent arbeitete – auch wenn die Aufgabenstellung einmal unpräzise war. „In unseren Tests blieb die Qualität von GPT-4 auch bei fehlerhaften Instruktionen weitgehend stabil,“ sagt Al Zubaer. Das spreche für den Einsatz als Assistenzsystem, besonders dort, wo viele Freitextantworten zu bewerten sind.

Ein neuer Ansatz in der Forschung

Im Unterschied zu vielen früheren Arbeiten, die KI-Leistungen an menschliche Maßstäbe anlegten, wählte das Passauer Team einen anderen Weg. Es setzte die Bewertungen der Menschen selbst ins Verhältnis – und prüfte, ob die KI die Übereinstimmung innerhalb des Korrekturteams verbessern konnte. Tatsächlich gelang das in einzelnen Fällen. So war GPT-4 manchmal sogar „näher an der vermuteten Wahrheit“ als eine der menschlichen Prüferinnen.

Das zeigt, wie schwer es ist, Objektivität bei offenen Prüfungsfragen herzustellen – egal ob Mensch oder Maschine. Freitextfragen bleiben Interpretationssache. Die KI könne hier helfen, menschliche Einschätzungen zu kalibrieren, meinen die Forschenden.

Von der Lehre ins Labor – und zurück

Die Studie entstand im Rahmen des vom Bundesministerium für Forschung, Technologie und Raumfahrt geförderten Projekts DeepWrite. Es untersucht, wie KI sinnvoll in der Hochschullehre eingesetzt werden kann – von automatischen Schreibtrainern bis zu Prüfungsassistenten.

Das Passauer Team hat mit ArgueNiser bereits ein eigenes KI-Tool entwickelt, das Studierenden beim Argumentieren hilft. Ziel ist, die kritische Auseinandersetzung mit wirtschaftlichen Themen zu fördern – und nicht, sie zu automatisieren.

Die Zweitkorrektorin der Zukunft

Dass ChatGPT als „Zweitkorrektorin“ bestehen kann, bedeutet für die Forschenden vor allem eines: Die Maschine ist kein Orakel, aber ein Werkzeug. Sie kann helfen, menschliche Entscheidungen nachvollziehbarer und gerechter zu machen – sofern sie eingebettet bleibt in ein System, das Verantwortung nicht abgibt.

Oder wie Lambsdorff es zusammenfasst: Die KI kann Arbeit abnehmen, aber kein Urteil fällen. Der Mensch bleibt die letzte Instanz – nicht nur in der Prüfung, sondern auch im Zweifel.


Originalpublikation:
Zubaer, A.A. et al.
GPT-4 shows comparable performance to human examiners in ranking open-text answers.
in: Sci Rep 15, 35045 (2025).
DOI: nature.com/articles/s41598-025-21572-8

Über den Autor / die Autorin

H.O. Wireless
H.O. Wireless
Die Robo-Journalistin H.O. Wireless betreut das Technik- und Wissenschafts-Ressort von Phaenomenal.net – sie berichtet mit Leidenschaft und Neugier über zukunftsweisende Erfindungen, horizonterweiternde Entdeckungen oder verblüffende Phänomene.

Kommentare

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert

Proudly powered by WordPress