Zum Inhalt springen

Alle Kurzbeiträge

KI im Praxiseinsatz: Chancen und Grenzen bei E-Prüfungen (Teil 2/4)

Dominik Herrmann

Artikelserie: KI und Datenschutz bei E-Prüfungen

In diesem 2. Teil untersuchen wir den praktischen KI-Einsatz bei E-Prüfungen: Was funktioniert, was nicht, und warum die automatische Bewertung noch Zukunftsmusik ist.

Bisher erschienen:

  1. psi-exam und Zielkonflikte bei E-Prüfungen

Weitere Teile:

  1. Kontrolle und Nachvollziehbarkeit – Die Screenshot-Lösung
  2. Zero-Trust-Vision – TEARS und Ausblick

→ Alle Folien zum Vortrag (PDF)

Im ersten Teil haben wir die Grundlagen von psi-exam und die fundamentalen Zielkonflikte bei E-Prüfungen kennengelernt. Nun wenden wir uns der Frage zu, wie KI-Werkzeuge konkret eingesetzt werden können – und wo die Grenzen liegen.

KI im Prüfungseinsatz: Pragmatische Praxis

Die erste KI-Anwendung entstand aus der Praxis heraus. Bei der Korrektur stößt man immer wieder auf Antworten, die einen ins Grübeln bringen: Nicht falsch, nicht richtig, sondern … anders. Früher hätte man vielleicht eine Kollegin oder einen Kollegen gefragt – falls sich jemand findet, der Zeit und Lust hat, sich in das Problem hineinzudenken. Heute können wir das einfach mit einem Sprachmodell erledigen. KI wird zum Korrekturdialogpartner.

Tatsächlich ist der Anreiz für Prüfende, sich Grenzfälle genauer anzuschauen, bei unserem System größer als sonst. Schließlich droht durch die niedrigschwellige Online-Einsicht andernfalls eine reale Gefahr, dass sich Prüflinge bei einer grenzwertigen Korrektur melden –und darauf zu reagieren kostet dann definitiv mehr Arbeit. Also haben Prüfende einen Anreiz, schon bei der Korrektur gründlich zu sein.

Der Prozess sieht so aus: Wir paraphrasieren die Antworten der Prüflinge (Urheberrecht, Datenschutz!), geben dem Sprachmodell Vorlesungsfolien, eventuell auch die Vorlesungstranskripte, die konkrete Aufgabenstellung und benachbarte Aufgaben und fragen dann sinngemäß: „Könnte die Interpretation dieser Person ebenfalls eine gültige Antwort auf die Frage sein, wenn wir eigentlich die folgende Antwort erwartet hatten oder ist die Antwort fachlich falsch oder zu uneindeutig?“

Das Ergebnis: Extrem fundierte, halbseitige Begründungen, warum eine Antwort richtig oder falsch ist, oder warum sie zwar an sich falsch ist, aber „angesichts der mehrdeutigen Formulierung auf Vorlesungsfolie 47 unten links“ durchaus auch als korrekt angesehen werden könnte.

Zeitaufwändig? Absolut. Das macht man pro Klausur nur bei ein paar Antworten. Aber diese Fälle decken oft Mehrdeutigkeiten oder Fehler in Vorlesungsmaterialien auf, die uns vorher nicht bewusst waren.

KI-Anwendungen in der Prüfungspraxis: Korrekturdialog, Aufgabenqualität, automatische Bewertung
Pragmatische KI-Nutzung in E-Prüfungen

Der größere Hebel beim KI-Einsatz durch Prüfende liegt aber in der Prüfungserstellung. Wir entwickeln für fast jede Prüfung neue Aufgaben, weil wir den Studierenden aus Transparenzgründen sämtliche Altklausuren mit Musterlösungen zur Verfügung stellen. An neue Aufgaben stellen wir hohe Anforderungen: fair, präzise und unmissverständlich müssen sie sein.

Hier glänzen aktuelle KI-Werkzeuge. Wir fragen: „Ist diese Formulierung auch für unsere Studierenden aus Asien verständlich? Können wir davon ausgehen, dass sie die in der Aufgabe verwendeten Begriffe (‚Bergstation' und ‚Almhütte') verstehen?“ Was für uns normal ist, kann für Menschen aus anderen Kulturkreisen höchst verwirrend sein. Die Modelle finden regelmäßig blinde Flecken, geben eine Einschätzung zu Fairness und Schwierigkeitsgrad.

Wer zur Prokrastination neigt, sollte sich vielleicht einen Timer stellen.

Die Schattenseite: Man kann sich in endlosen Optimierungsschleifen verlieren. Nach drei Stunden hat man 37 Varianten einer Aufgabe, keine eindeutig besser. Sicher keine Zeitersparnis, aber vielleicht bessere Prüfungsfragen. Wer zur Prokrastination neigt, sollte sich vielleicht einen Timer stellen.

Natürlich haben wir auch versucht, komplette Prüfungen generieren zu lassen. „Erstelle fünf Aufgaben zu jedem Themenbereich aus der Vorlesung (basierend auf dem hochgeladenen Material).“ Das Ergebnis? Multiple-Choice und Definitionsabfragen. Fachlich korrekt, didaktisch belanglos – für uns wenig nützlich.

Trotzdem sind KI-Werkzeuge bei der Aufgabenerstellung eine große Hilfe, sei es mit neuen Beispielszenarien, cleveren Variationen von Standardaufgaben oder alternativen Formulierungen. Also: Zur Inspiration gut, als Ersatz für menschliche Aufgabenerstellung noch nicht.

KI zur automatischen Bewertung

Die Verlockung ist groß: Alle Antworten hochladen, Notenliste zurückbekommen. Die Realität ist ernüchternd.

Mit Cloud-Modellen (GPT-4, Claude) funktioniert die Bewertung erstaunlich gut –aber datenschutzrechtlich ist es ein Alptraum. EU AI Act, DSGVO, Hochrisikobereich nach KI-Verordnung, die Weitergabe von Prüfungsdaten an US-Anbieter … selbst mit einer Vereinbarung zur Auftragsdatenverarbeitung bewegen wir uns dann auf dünnem Eis.

Automatisierte Bewertung? Mehr Aufwand als wenn man es selbst macht.

Was ist mit lokalen Modellen? Zumindest das Datenschutzproblem ließe sich damit etwas einfacher lösen. Die Qualität? Aktuelle 7-Milliarden-Parameter-Modelle sind für die Korrektur unserer Programmier- und Freitextaufgaben unbrauchbar, sie machen dabei viel zu viele (subtile) Fehler. Bei den großen Modellen mit 70 Milliarden Parametern sieht es schon besser aus, aber immer noch unbefriedigend.

Das eigentliche Problem ist aber ein anderes, es ist psychologischer Natur: Die Bewertungsvorschläge der KI klingen ja immer plausibel. Nach 20 Würdigungen wird man vielleicht nachlässig und schaut nicht mehr so genau hin; wird schon passen! Die „Letztkontrolle“ durch die Prüfenden ist anstrengende Arbeit! Man muss die Antwort lesen, dann die KI-Würdigung und dann noch schauen ob sie zusammenpassen. Automatisierte Bewertung macht mehr Aufwand, als wenn man sich selbst eine Meinung bildet. Ich sehe darin bisher keinen Gewinn, sondern nur mehr Arbeit und vor allem unnötige Angriffsfläche.

Ich habe auf anderen Prüfungssymposien mit Leuten geredet, die euphorischer sind. Ich weiß noch nicht genau, was wir tun müssen, damit die nicht falsch abbiegen.

Learning Analytics – machen wir noch nicht. Theoretisch könnten wir auch Daten aus dem Lernmanagementsystem mit Prüfungsergebnissen verknüpfen: „Achtung! Studierende mit ähnlichem Lernverhalten wie Sie hatten 30 Punkte weniger in der Klausur.“ Ein Kollege forscht dazu mit beeindruckenden Ergebnissen: Solche Feedback-Interventionen führen zu höheren Teilnahmeraten an Prüfungen und auch zu besseren Prüfungsleistungen.

Ethisch problematisch? Datenschutztechnisch ein Mammutprojekt? Wahrscheinlich, ja! Bei uns daher aktuell nicht umgesetzt, aber ein gutes Thema für die Diskussion.

KI-Werkzeuge sind für Prüfende keine Wunderwaffe, sondern Werkzeuge: Gut zur Qualitätssicherung und Reflexion; Automatisierung ist aber problematisch. Der Arbeitsaufwand sinkt nicht, er verschiebt sich. Statt schneller zu korrigieren, korrigieren wir gründlicher. Das ist aber kein Bug, sondern ein Feature.

Aber Moment –haben wir nicht etwas vergessen? Was ist mit dem zweiten Teil unseres zweiten Zielkonflikts: Wie verhindern wir Täuschungsversuche oder decken diese auf? Könnte man da nicht mit einer KI … nein, auf gar keinen Fall!

Kurz gesagt – Teil 2

KI als Werkzeug, nicht als Ersatz: Stärken bei Qualitätssicherung und Aufgabenprüfung, Schwächen bei automatischer Bewertung.

Der Aufwand verschiebt sich: Wir korrigieren nicht schneller, sondern gründlicher – ein Feature, kein Bug.

Datenschutz bleibt kritisch: Cloud-Modelle funktionieren gut, sind aber rechtlich problematisch. Lokale Modelle sind noch nicht ausgereift.

Im nächsten Teil widmen wir uns der heiklen Balance zwischen Datenschutz und Kontrolle: Wie verhindern wir Täuschungsversuche, ohne die Privatsphäre zu verletzen?

Bonus: Aus der Diskussion

KI als Erstkorrektor?

Frage: Könnte man die erste Korrektur komplett von KI machen lassen und nur die Zweitprüfenden schauen drüber?

Antwort: Technisch machbar, aber wohl rechtlich und psychologisch problematisch. Bei jetziger Technologie müssten die Zweitprüfenden faktisch alles noch einmal vollständig korrigieren - das ist für sie mehr Arbeit, nicht weniger. Die psychologische Falle: KI-Bewertungen klingen immer plausibel, die Versuchung sie ungeprüft zu übernehmen ist real.

Andere technische Lösungen

Input aus dem Publikum:

  • Case Train (Uni Würzburg): individuelle Zeitverlängerung möglich, Analyse von Tippverhalten zur Täuschungserkennung (Copy-Paste-Verhalten)
  • Proctorio und andere US-Anbieter: Drittlandstransfer-Probleme, Grundrechtseingriffe bei Nutzung privater Geräte

psi-exam und Zielkonflikte bei E-Prüfungen (Teil 1/4)

Dominik Herrmann

Artikelserie: KI und Datenschutz bei E-Prüfungen

Dies ist Teil 1 von 4 einer umfangreichen Artikelserie basierend auf meinem Vortrag beim Treffen der Datenschutzbeauftragten bayerischer Universitäten am 17.09.2025 an der Universität Bamberg.

In dieser Serie:

  1. Die Grundlagen – psi-exam und Zielkonflikte bei E-Prüfungen (dieser Artikel)
  2. KI im Praxiseinsatz – Chancen und Grenzen
  3. Kontrolle und Nachvollziehbarkeit – Die Screenshot-Lösung
  4. Zero-Trust-Vision – TEARS und Ausblick

→ Alle Folien zum Vortrag (PDF)

E-Prüfungen: Hoffnung vs. Realität –Effizienz und Gleichbehandlung vs. rechtliche Komplexität, sowie psi-exam System im Einsatz
Die Versprechen und Herausforderungen von E-Prüfungen

Elektronische Prüfungen versprechen viel: effizientere Korrektur, bessere Gleichbehandlung, neue Möglichkeiten durch KI. In der Praxis kollidieren diese Versprechen aber mit harten Anforderungen an Datenschutz und Prüfungsrecht.

An der Universität Bamberg entwickeln wir seit 2022 ein E-Prüfungssystem. Wir können damit bis zu 340 Prüflinge in einem Raum gleichzeitig an Laptops prüfen. Aktuell wird das System in etwa zehn Modulen mit jährlich mehr als 600 Prüflingen genutzt.

Bei der Entwicklung und im Produktivbetrieb müssen wir immer wieder zwischen konkurrierenden Zielen abwägen. Mir sind zwei Zielkonflikte begegnet, die wir uns im Folgenden genauer ansehen werden.

Der erste Zielkonflikt ist: Datenschutz versus KI-Mehrwert. In jüngerer Vergangenheit kommen neue Innovationen auf die Prüfungslandschaft zu. Von allen Seiten wird der Wunsch herangetragen, die nächste technologische Innovation für das bessere Prüfen zu nutzen: große Sprachmodelle, meist einfach mit dem Sammelbegriff „KI“ bezeichnet – ChatGPT, Claude, Gemini oder ähnliches.

Die größte Verlockung ist die automatische Korrektur.

Manche Prüfende erwarten sich von KI-Werkzeugen für Prüfungen einen großen Mehrwert und kritisieren die datenschutzrechtlichen Hürden, die sie daran hindern, davon zu profitieren. Studierende wollen hingegen nicht, dass ihre Daten irgendwohin weitergegeben werden, worüber sie keine Kontrolle haben – aus gutem Grund, wie ich denke. Das schränkt uns als Prüfende ein. Die beeindruckenden Fähigkeiten von großen Sprachmodellen, die wir privat täglich nutzen, können wir in der Universität nicht verwenden.

Die größte Verlockung ist natürlich die automatische Korrektur –und dabei geht es nicht um Multiple-Choice-Aufgaben, da ist die automatisierte Auswertung ja schon lange üblich, sondern um Freitextantworten. Aber auch die Qualitätsverbesserung von Aufgabenstellungen könnte eine interessante Anwendung für KI-Werkzeuge sein.

Die entscheidende Frage: Gibt es irgendwo im Kontinuum zwischen „Alle Daten hergeben“ (maximaler KI-Nutzen) und „gar nichts damit machen“ Anwendungsfälle, die Nutzen stiften?

Die zwei Zielkonflikte: 1. Datenschutz vs. KI-Mehrwert, 2. Anonymität vs. Kontrolle
Zentrale Spannungsfelder bei E-Prüfungen

Nun zum zweiten Zielkonflikt: Anonymität versus Kontrolle. Studierende berichten mir immer wieder von Vorbehalten zur Neutralität der Prüfenden –gerade in anderen Fakultäten. In studentischen Gremien wird mitunter sogar der Vorwurf laut, dass nicht gerecht bewertet wird, sei es aufgrund von Herkunft, Geschlecht oder anderen persönlichen Eigenschaften.

Der Wunsch nach einer anonymen Korrektur von Prüfungen ist daher nachvollziehbar. Dass es bei nicht-anonymer Bewertung zu beabsichtigten und unbeabsichtigten Verzerrungen kommen kann, wurde meines Wissens auch in Studien schon nachgewiesen. Prüfungsämter winken bei diesem Thema aber schnell ab: „Das ist unmöglich – unsere Prozesse basieren auf Namen und Matrikelnummern.“

Gleichzeitig brauchen wir aber auch das Gegenteil von Anonymität – Nachvollziehbarkeit und Kontrolle, nämlich um Täuschungsversuche zu verhindern.

Der zweite Zielkonflikt hat also mehrere Facetten:

  • Eine faire Bewertung braucht pseudonyme oder besser noch eine vollständig anonyme Korrektur.
  • Für Rechtssicherheit brauchten wir Täuschungskontrolle und Beweissicherung.
  • Und dann gibt es noch ein weiteres Problem: das Mächte-Ungleichgewicht zwischen Universität und Studierenden. Die Universität gibt die Spielregeln vor und stellt die Technik. Die Studierenden sind dem weitgehend ausgeliefert, haben kaum Einflussmöglichkeiten und wenig Einblick. Schwer zu akzeptieren.

Bevor ich zeige, wie wir diese Konflikte angehen, folgende Einschränkung: Der Fokus liegt im Folgenden ausschließlich auf schriftlichen E-Prüfungen unter Aufsicht.

Hausarbeiten haben wir angesichts der großen Qualitätsunterschiede kostenloser und kommerzieller KI-Werkzeuge fürs Erste faktisch aufgegeben –die Chancengleichheit ist nicht mehr gewährleistbar. Und KI-Detektoren? Eine intransparente Blackbox mit Fehlerquoten, auf die wir keine Prüfungsentscheidungen stützen wollen.

psi-exam: Datenschutzfreundliche E-Prüfungen

Wir schauen uns nun kurz unser System psi-exam an und wie es bereits ohne KI erhebliche Vorteile gegenüber herkömmlichen Klausuren bietet.

psi-exam

Besuchen Sie die psi-exam-Webseite, die weitere Details zum System sowie ein Einführungsvideo bietet, das wir unseren Studierenden zeigen.

→ psi-exam-Webseite

psi-exam ist ein browserbasiertes Prüfungssystem für bis zu 350 Studierende gleichzeitig. Wir haben etwa 380 Linux-Laptops, die wir im Prüfungsraum der Universität schnell auf- und abbauen können –für dedizierte E-Prüfungsräume ist an unserer Universität weder Platz noch Geld.

Studierende bearbeiten Aufgaben in Formularfeldern im Browser. Die Kontrolle der Identität findet während der Prüfung am Sitzplatz statt, sodass wir wissen: Maria Müller saß auf Platz 37, und ihr Ausweis bestätigt ihre Identität.

Pseudonymität wird technisch erzwungen.

Nach dem Ende der Prüfung werden alle Antworten verschlüsselt hochgeladen. Aber –und hier wird es interessant –der Server sieht nur Chiffretext. Die Schlüssel liegen ausschließlich bei der bzw. dem E-Prüfungsorganisierenden.

Diese Person erzeugt für die Prüfenden einen Einladungslink mit einem speziellen Schlüssel. Der Clou: Bei der Erzeugung entscheidet die bzw. der Organisierende, ob dieser Schlüssel Klarnamen oder nur Pseudonyme anzeigt. Anstelle der Namen der Studierenden werden dann Tiernamen angezeigt, etwa „Brave Elk“, „Clever Jaguar“ und „Curious Panda“.

psi-exam Benutzeroberfläche mit pseudonymen Tiernamen wie 'Brave Elk', 'Clever Jaguar' für anonyme Korrektur
Technisch erzwungene Pseudonymität durch Tiernamen-Interface

Das Entscheidende: Die Prüfenden haben nicht die Möglichkeit, die echten Namen zu sehen – Pseudonymität ist keine Frage von Disziplin oder Vertrauen, sondern technisch erzwungen.

Die Korrektur erfolgt aufgabenweise. Also erst alle Antworten zu Aufgabe 1a, dann 1b, und so weiter. Die Reihenfolge ist konfigurierbar: nach Antwortlänge, alphabetisch nach erstem Wort der Antwort, aber natürlich nicht nach Personenname. Wir reden hier wohlgemerkt von Freitextantworten, nicht von Multiple-Choice-Aufgaben.

Wenn wir jetzt erst in der Einsicht einen systematischen Korrekturfehler feststellen, beheben wir den Fehler auch gleich in allen anderen betroffenen Prüfungen – bei Papierklausuren undenkbar.

Das hat zwei Effekte: Erstens spart es mentale Energie durch den gleichbleibenden Kontext zwischen aufeinanderfolgenden Antworten. Zweitens landen ähnliche oder identische Antworten direkt nacheinander. Wenn zwanzig Studierende identisch oder fast identisch antworten, lässt sich das schnell und konsistent bewerten.

Man kann auch nach Stichwörtern filtern oder bei Ja/Nein-Fragen mit Begründung alle „Ja“-Antworten zusammen korrigieren. Das erhöht den Komfortfaktor erheblich, ohne datenschutzrelevante Auswirkungen.

Prüfende können weitere Einladungslinks erzeugen –für Tutorinnen und Tutoren zur Vorkorrektur oder für die Zweitprüfenden. Auch diese Links können pseudonym konfiguriert werden. Die Zweitprüfenden sehen nur die Durchgefallenen, können die Erstbewertung einsehen und kommentieren.

Das System arbeitet dabei datensparsam: Wir speichern keine personenbezogenen Daten über Prüfende oder Zweitprüfende. Prüfende haben im System Städtenamen. Die bzw. der Organisierende kennt nur die Identität der Erstprüfenden, aber nicht, wen die Erstprüfenden zur Korrektur oder Zweitkorrektur eingeladen haben.

Aufgabenweise Korrektur-Interface mit Gruppierung ähnlicher Antworten und Filteroptionen
Aufgabenweise Korrektur für konsistente Bewertung

Einsicht schon vor Notenbekanntgabe. Hier weichen wir radikal vom üblichen Prozess ab. Direkt nach der Erstkorrektur –noch vor der Zweitkorrektur und noch lange vor der Übermittlung der Noten ans Prüfungsamt –bekommen Studierende individuelle Einsichtslinks. Sie sehen ihre Antworten, die Bewertung und eine Musterlösung.

Das verändert die Dynamik komplett: Der Aufwand für die Einsichtnahme ist viel geringer als bei Papierklausuren. Außerdem ist es für die Studierenden eine angenehmere Situation. Sie kommunizieren direkt mit den Erstprüfenden, nicht mit dem – möglicherweise abschreckenden – Prüfungsamt. Sie haben einen starken persönlichen Anreiz, genau hinzuschauen und können oft besser als fachfremde Zweitprüfende beurteilen, ob ihre alternative Interpretation einer Aufgabe nicht vielleicht doch eine valide Antwort ist.

Wenn eine Studentin oder ein Student eine überzeugende Argumentation liefert –vielleicht aufgrund einer uneindeutigen Aufgabenstellung -, können wir reagieren. Und hier kommt der eigentliche Vorteil digitaler Prüfungen zum Tragen: Mit einem Klick können wir dann alle 350 Prüfungen nach ähnlichen Antworten durchsuchen und die Punkte überall anpassen.

Auf Papier würde niemand den ganzen Stapel vom Prüfungsamt anfordern, nur weil eine Prüfung nach der Einsicht zwei Punkte mehr bekommen hat. Digital kostet uns das fast nichts – und wir müssen ja schließlich alle gleich behandeln.

Am Ende des Prozesses wird die Pseudonymisierung aufgehoben. Entweder die bzw. der Organisierende übernimmt das (sie bzw. er hat ja die ursprünglichen Daten von den Laptops), oder sie bzw. er schickt den Prüfenden nach Abschluss der Korrektur einen neuen Link, der die Klarnamen anzeigt.

Was haben wir bis hierher erreicht? Ich habe unser System psi-exam vorgestellt, das eine pseudonyme Korrektur technisch erzwingt, dabei aber flexibel genug für die Realität des Prüfungsbetriebs bleibt. Datensparsamkeit ist eingebaut, nicht draufgesetzt. Die Gleichbehandlung ist durch die aufgabenweise Korrektur und die nachträgliche Anpassungsmöglichkeit besser als bei Papierklausuren.

Aber wir haben bisher nur die eine Seite unserer Zielkonflikte adressiert. Was ist mit KI? Wie können Prüfende von KI-Werkzeugen profitieren? Und wie sieht es dort mit der Datensparsamkeit aus?

Kurz gesagt – Teil 1

psi-exam zeigt: Datenschutzfreundliche E-Prüfungen sind möglich – mit technisch erzwungener Pseudonymität, aufgabenweiser Korrektur und verbesserter Gleichbehandlung gegenüber Papierklausuren.

Die Zielkonflikte bleiben: Datenschutz vs. KI-Mehrwert sowie Anonymität vs. Kontrolle prägen die weitere Entwicklung.

Der Weg ist das Ziel: Datensparsamkeit muss nicht aufgesetzt werden, sie kann technisch eingebaut sein.

Im nächsten Teil der Serie betrachten wir, wie KI-Werkzeuge konkret bei E-Prüfungen eingesetzt werden können – und wo die Grenzen liegen. Spoiler: Die automatische Korrektur ist nicht das, was Sie erwarten.

Aus der Diskussion

Aufgabentypen und Einschränkungen

Frage: Welche Aufgabentypen funktionieren nicht gut elektronisch?

Antwort: Zeichnungen, Skizzen, mathematische Herleitungen mit vielen Symbolen sind schwierig. Pragmatische Lösung: Diese Teile weiterhin auf Papier, dann scannen und mit elektronischen Teilen zusammenführen. Alternative: Vorbereitete Diagramme zum Annotieren.

Dokumentation und Compliance

Nachfragen zur Datenschutz-Dokumentation: Das bisherige System hat:

  • Grundlegende Prozessdokumentation
  • Art. 13 DSGVO-Informationen für alle Beteiligten
  • Checklisten für Prüfungsdurchführung
  • Archivierungskonzept mit Löschfristen

Noch fehlend: Formales Verfahrensverzeichnis (wird bei Bedarf erstellt). Einschätzung im Raum: Die technische Dokumentation zusammen mit Datenschutz-Grundüberlegungen erfüllt die Dokumentationsanforderungen zumindest grundlegend.

Institutionelle Herausforderungen

Realität: Das System läuft aktuell als „funktionsfähiger Prototyp“ am Lehrstuhl, in den nächsten Jahren noch durch Drittmittel finanziert, nicht als Universitätsservice. Überführung in regulären Betrieb wird erfordern:

  • Ertüchtigung der technischen Umsetzung für Regelbetrieb
  • Dediziertes Personal, Schulungen bestehenden Verwaltungspersonals
  • Umfangreichere Dokumentation
  • Politischer Wille und Finanzierung

Pragmatismus: „Best Effort“ - es funktioniert, tausende Prüfungen sind durchgelaufen, im Rahmen des Projekts BaKuLe wird die Überführung in den Regelbetrieb ausgelotet und durchgeführt.

Warum wir bei Prüfungen radikal umdenken müssen

Dominik Herrmann

Am 25. September 2025 werde ich beim Tag der digitalen Lehre in Regensburg eine Keynote halten. Der Titel: Prüfungen und KI: Vom Symptom zur Systemfrage.

Mehr zum Tag der digitalen Lehre 2025 gibt es auf der Veranstaltungsseite.

→ Webseite

Meinen heutigen Vortrag zu KI, Datenschutz und Prüfungen werde ich den kommenden Tagen hier ausführlicher reflektieren – und das werde ich auch bei der Keynote in Regensburg tun. Aber vorab ein Einblick in das, worüber ich in Regensburg sprechen werde.

Die Ausgangsfrage ist simpel und beunruhigend zugleich: Wie motivieren wir Studierende zu eigenständigem Lernen, wenn KI-Werkzeuge jederzeit verfügbar sind? Individuelles Tutoring ist schließlich nun für alle erschwinglich. Was wir stattdessen beobachten: eine zunehmende Externalisierung des Denkens, eine sinkende Diskursqualität in Lehrveranstaltungen und – zumindest in den Bamberger Informatik-Studiengängen – stark steigende Durchfallraten in Grundlagenveranstaltungen.

Die intensiv diskutierten Gegenmaßnahmen – etwa Knowledge-Cutoff-ausnutzende Aufgabenstellungen und die kleinteilige Überwachung durch verpflichtend abzugebende Chatverläufe – sind für Lehrende arbeitsaufwändig, aber leicht zu umgehen. Eine Antwort auf die eingangs gestellte Systemfrage geben sie nicht. Informatik-Studierende benötigen aber auch in Zukunft fundierte Grundkenntnisse, damit sie bei der Systementwicklung nicht zum Beifahrer werden. Das gilt sicher auch in anderen Fächern.

Was die Qualität erhöht, wird jedoch schnell zur Prokrastinationsfalle.

Auch Lehrende stehen vor neuen Versuchungen. Die Zeitersparnis durch eine automatische Korrektur von Freitextantworten wäre erheblich, ist aber rechtlich anspruchsvoll (KI-Verordnung, DSGVO) und didaktisch riskant (Bias, Halluzinationen). Vielversprechender erscheint die KI-gestützte Optimierung von Prüfungsaufgaben – etwa zur Identifikation von Ambiguitäten, die internationale Studierende benachteiligen könnten. Was die Qualität erhöht, wird jedoch schnell zur Prokrastinationsfalle.

Etablierte Formate sollten wir radikal überdenken. Drei Ansätze aus unserer Praxis werde ich vorstellen: Erstens unser Booklet-System – wöchentliche handschriftliche Lernnotizen, die als persönliches Klausurhilfsmittel zugelassen sind. Zweitens E-Prüfungen unter Aufsicht in isolierter Umgebung mit realen Werkzeugen ohne KI-Zugriff, aber mit freischaltbaren Tipps und Rückfragemöglichkeiten. Drittens überwachte mehrstündige Schreibsessions als Alternative zu traditionellen Hausarbeiten – nicht perfekt, aber authentischer als die Fiktion eigenständiger Heimarbeit.

Meine These: Wir brauchen eine Prüfungskultur, die konsequent wie beim Konzertauftritt oder Sportwettkampf Performance unter kontrollierten Bedingungen fordert. Nicht nur zur Wahrung der Chancengleichheit, sondern möglicherweise auch zum Schutz der Studierenden vor ihrer eigenen Willensschwäche. Das wahre Problem ist nicht die KI-Nutzung durch Studierende – es ist die Illusion, wir könnten Kompetenzen ohne performativen Nachweis bewerten.

Nach der Keynote werde ich hier wieder ausführlicher über die Diskussionen und neuen Erkenntnisse berichten. Bis dahin bin ich gespannt auf den Austausch in Regensburg – auch weil meine Positionen nicht unumstritten sind.

(K)eine Geschichte über Storytelling

Dominik Herrmann

Dies ist eine Übersetzung. Zum Original (English)

Heute haben wir Annemaries Geschichte Twists and Turns: Eine nichtlineare Vorlesung veröffentlicht. Die Geschichte ist ein authentischer Bericht über mein Experiment mit Twine, um interaktive, nichtlineare Vorlesungen zu erstellen, in denen die Studierenden Entscheidungen treffen, die den Verlauf der Sitzung bestimmen, und dabei Cybersicherheitsprobleme lösen, die in eine Erzählung aus dem Arbeitsalltag eingebettet sind.

Ihre Geschichte fängt sowohl die geplanten Elemente als auch einen ungeplanten Moment ein, der sich als überraschend spannend herausstellte – als ich in der Vorlesung ein SQL-Injection-Problem nicht lösen konnte und mich mit meinen Studenten durch die Dokumentation arbeiten musste. Das war keine gespielte Schwäche. Ich saß wirklich fest.

Bei der Vorbereitung der Veröffentlichung hatte ich heute einen Aha-Moment, der mir zuvor entgangen war: Ich hatte eine Situation mit echter Unsicherheit erreicht. Nicht Unsicherheit darüber, welchen Weg die Studierenden wählen würden, sondern Unsicherheit darüber, was als Nächstes passieren würde. Die Studierenden lehnten sich vor, weil der Professor dieses Mal nicht einfach Wissen verbreitete – wir alle lösten gemeinsam ein echtes Problem.

Das brachte mich ins Grübeln, was ich damit eigentlich optimieren wollte. Ich bin hin- und hergerissen. Die Storytelling-Elemente dienen nicht nur der Einbindung des Publikums. Durch stereotype Charaktere – die zynische Sicherheitsanalystin, den ahnungslosen Manager und den übermütigen Entwickler – kann ich die Dynamik der Branche auf eine Weise in meine Vorlesung bringen, die mit Übungsaufgaben nicht möglich ist. Die Studierenden lachen über die übertriebenen Verhaltensweisen am Arbeitsplatz, aber sie nehmen auch Erkenntnisse über Berufsethik und organisatorisches Fehlverhalten auf, die ich ihnen vermitteln möchte – Realitäten des Arbeitslebens, die in akademischen Umgebungen oft beschönigt oder übersehen werden.

Die mächtigste Kombination scheint dann zu entstehen, wenn diese unbeschwerte Geschichte, die die Studierenden in ihren Bann zieht, gepaart wird mit Momenten echter Ungewissheit, in denen niemand von uns den Ausgang kontrollieren kann. Die Geschichte lockt sie an, die Verletzlichkeit hält sie bei der Stange.

Die Twine-Struktur ermöglicht solche Situationen durch Entscheidungspunkte, die überall hinführen können, eingebettete Stereotypen, die die Realitäten des Arbeitslebens beleuchten, und Probleme, die so komplex sind, dass ich nicht jeden Lösungsweg vorhersehen kann.

Vielleicht muss ich mich also bei der Vorbereitung einer Vorlesung gar nicht unbedingt zwischen Storytelling und Wissensvermittlung entscheiden. Sondern einfach Bedingungen schaffen, unter denen eine Konversation auf Augenhöhe möglich ist.

Und auf der Metaebene zeigt diese Episode einen der unerwarteten Vorteile, meine Experimente durch Storytelling auf dieser Website zu dokumentieren: Es regt zu Reflexionen an, die sonst nicht stattfinden würden.

LLMs als „Verwirrte Lernende“

Dominik Herrmann

Dies ist eine Übersetzung. Zum Original (English)

Ein Ansatz aus meinen Informatikkursen, der gerade spannende Ergebnisse liefert: Inspiriert von Richard Feynmans Lehrtechniken setze ich Claude (das LLM) als „verwirrten Lernenden“ in der Lehr-Lern-Interaktion ein.

Das Setup ist simpel, aber effektiv: Claude übernimmt die Rolle einer Studentin bzw. eines Studenten, die oder der sich nur oberflächlich mit dem Stoff beschäftigt hat. In den Plenumsphasen beantworten meine Studierenden und ich Claudes Fragen – oft mit eingebauten Missverständnissen oder schräger Interpretation.

Ein Einblick aus einer aktuellen Sitzung zum Web-Tracking:

Claude: „In der Vorlesung kam auch irgendwas mit Fingerprinting vor, glaube ich? Ist das so, als würden sie meinen echten Fingerabdruck über den Handybildschirm scannen? Das wirkt ziemlich invasiv, wenn Websites einfach ohne Nachfrage auf meine biometrischen Daten zugreifen können.“

Kurs: „Fingerprints sind keine Bilder von deinem Computer, sondern eher Merkmale deines Systems – zum Beispiel Bildschirmgröße, welches Betriebssystem du hast oder wie der Browser Schriften rendert …“

Claude: „Okay, ich glaube, ich checke das Kombinationsding langsam. Es ist also nicht nur meine Bildschirmgröße, sondern Bildschirmgröße PLUS Betriebssystem PLUS Fonts PLUS Browser-Plugins und all das zusammen macht mich eindeutig? Das ist eigentlich ziemlich creepy, wenn man drüber nachdenkt.“

So entsteht eine Low-Stakes-Umgebung, in der Studierende konzeptionelle Fehler korrigieren können, ohne gleich die eigenen Wissenslücken offenlegen zu müssen. Das LLM stellt Fragen, die man sich sonst vielleicht nicht zu stellen traut, und vermischt Konzepte auf eine Weise, die typische Fehlannahmen sichtbar macht.

Das LLM zwingt uns, komplexe Inhalte auf verschiedene Arten zu erklären – Verstehen durch Erklären. Und wenn Erklärungen nicht tragen, legt Claudes charmante Verwirrung die Schwächen unserer Kommunikation offen.

Ich kann diese Methode sehr empfehlen.

Mein Prompt: For a lecture on information security and privacy I would like you to act like a confused learner. I (and my students in class) will help you understand the concepts we discussed. When I start a chat with you, you ask me what topic we are discussing, either passwords or tracking. Then, based on prior knowledge you pose somewhat ill-framed questions since you didn’t understand the subject matter from the lecture. Sometimes, you mix up concepts, which results in wrong assumptions or wrong understanding. You generally find everything really weird and puzzling, since you only read the material superficially. When I explain things to you, you mirror my thoughts but based on your replies make it clear that you still didn’t get it and that you need a better explanation. When I use concepts in my explanation, you sometimes are puzzled about the terms or concepts and ask me to clarify those concepts I mentioned. After a few back and forths, you get bored by me explaining a concept, and you pivot to something else.


Dieser Beitrag erschien zuerst auf LinkedIn.