top of page

Leistung trotz KI: Vom Produkt zur Verantwortung – ein Bauplan für Schulen

KI-Bild mit ChatGPT erstellt
KI-Bild mit ChatGPT erstellt

Wie wir KI nutzen, um den Leistungsbegriff grundlegend zu erneuern, anstatt sie nur als pädagogisches Feigenblatt zu verwenden.


Die Debatte um Künstliche Intelligenz und Leistung, kraftvoll angestoßen durch Diskurse wie die Blogparade #kAIneEntwertung, trifft einen Nerv. KI entwertet menschliche Leistung jedoch nicht pauschal – sie entlarvt lediglich schonungslos, wie eng wir Leistung in der Schule über Jahrzehnte definiert haben: als standardisierten, messbaren Output unter Prüfungsbedingungen.


In diesem schonungslosen Spiegel liegt aber meines Erachtens zugleich die große Chance: Leistung endlich neu zu fassen – prozess-, kompetenz- und verantwortungsorientiert –, statt verzweifelt die alte Produktlogik zu verteidigen.

Die kritische Reihe #KIBedenken markiert diese Bruchstelle. Nele Hirsch fordert meines Erachtens zu Recht eine Veränderung der Lernkultur – beginnend bei einer grundlegend veränderten Fortbildungskultur, die nicht nur Tool-Anwendung schule, sondern mutig einen Blick auf die Komplexität des gesamten Leistungsbegriffs richten müsse. Auch Dr. Isabella Buck beklagt eine Toolifizierung, wenn in Schule und Fortbildung über KI gesprochen werde. Diese Fixierung und Reduzierung der neuen KI-Realität auf Werkzeuge diene als Scheinsicherheit, die uns helfe, die eigentlich notwendige, tiefgreifende Transformation von Lernen und Prüfen zu vermeiden. Und allzu oft höre auch ich als Totschlagargument, warum in der Schule keine KI etwas verloren habe: aber die Prüfungsordnung! Aber das Abitur! Spätestens in der Kursstufe dürfe man daher auch keine KI als Teil einer Prüfung zulassen... .


Dieser Artikel soll ein konstruktiver Lösungsbeitrag sein. KI legt eine offensichtliche Fehlkalibrierung und einseitige Fokussierung unseres Leistungsbegriffs schmerzhaft offen. Er analysiert diese Fehlkalibrierung, die der KI-Spiegel uns so schonungslos zeigt, und skizziert einen konkreten Bauplan für einen zukunftsfähigen, fairen, neu gedachten Leistungsbegriff.


1. Fehlkalibrierte Anreize: „Shortcut-Logik“ statt nachhaltiges Lernen


Wenn Lernende sagen: „Aber ChatGPT hat das doch auch so!“, ist das oft kein moralisches Versagen, sondern eine rationale Handlung. In einem System, in dem Noten als extrinsische Anreize dominieren, ist der KI-Shortcut ökonomisch sinnvoll, um dem Druck zu entkommen.


Die Forschung benennt diesen Mechanismus präzise:


  • Costa & Murphy (2025) warnen vor der Tyrannei der Freiheit: Demzufolge stelle KI eine verführerische Entlastung von jeglicher kognitiver Mühe dar, die aber genau die Fähigkeiten erodiere, die sie vorgebe zu unterstützen.


  • Fan et al. (2025) diagnostizieren metakognitive Faulheit – eine sinkende Lernmotivation und eine nachweislich flachere kognitive Verarbeitung durch ständige KI-Nutzung.


  • Zhang & Xu (2025) beschreiben das Self-Efficacy-Paradoxon: Lernende fühlten sich durch KI-Tools kompetenter (Schein-Wirksamkeit), entwickelten aber faktisch eine tiefere technologische Abhängigkeit. Das Zutrauen in die eigene Kognition schwinde.


Parallel dazu entsteht (oder besteht) eine Abwehrhaltung auf Lehrendenseite. Sie ist getrieben von Kontrollverlust und der Tatsache, dass KI-Detektoren nachweislich unzuverlässig sind. Diese Unsicherheit befeuert die notwendige Verschiebung hin zu mündlichen Formaten.


Die zentrale Diagnose ist daher: Nicht KI macht faul. Unser Anreizsystem ist es, was den KI-Shortcut so attraktiv macht. Wir sägen gemeinsam am Ast, auf dem wir so bequem zu sitzen meinen.


2. Die Bewertungswende: Vom Produkt zum Prozess – mit klaren Leitplanken


Die Konsequenz ist radikal: „Closed-Book“-Klausuren und Hausarbeiten, die reines Faktenwissen reproduzieren lassen, sind obsolet. Sie messen nur noch, wer die KI am geschicktesten täuschend einsetzt.

Institutionelle Antworten und praxistaugliche Lösungen entstehen aber bereits:


  1. Das VIVA (Verteidigungsgespräch): Verständnis, Transferleistung und Prozesskompetenz werden mündlich validiert. In einem 10-minütigen Gespräch über den Arbeitsprozess zeigt sich schnell, ob der Lernende den KI-Output intellektuell besitzt oder nur kopiert hat. Dieses Format ist robust gegen schwache Detektionssoftware.


  2. Portfolio + „nicht generierbare Anteile“: Ein E-Portfolio allein ist nicht KI-sicher. Die FernUni Hagen (2025) empfiehlt die entscheidende Kopplung: Das Portfolio wird erst dann robust, wenn die Reflexion an Live-Ereignisse geknüpft wird – also an Anteile, die die KI nicht erleben kann (z. B. die Reflexion einer Laborbeobachtung, die Analyse einer Theaterprobe, die Durchführung eines Interviews).


  3. KI-Kompetenz prüfen: Hier geht es nicht um „Prompt-Tricks“. Die PrEval Studie (2/2025) empfiehlt dilemma- und szenariobasierte Prüfungen: Lernende müssen Bias in Trainingsdaten, ethische Verantwortung oder die Profitinteressen hinter den Modellen bewerten.


  4. Praxis-Leitplanken: Leitfäden wie der von Falck & Flick (2025) helfen Lehrenden, Aufgaben pragmatisch zu strukturieren (kein / punktueller / integraler KI-Einsatz).


Trotz dieser Lösungen müssen wir die Risiken ehrlich benennen: Eine reine Prozessbewertung kann subjektiv und extrem aufwändig (nicht skalierbar) werden. Ein übereilter Abschied von Faktenwissen und Fehleranalyse wäre zudem ein Bärendienst. Ich möchte daher an dieser Stelle dezidiert hervorheben, dass ich meine Gedanken keinesfalls als Plädoyer für die Aufgabe von (Grundlagen)Wissen und Allgemeinbildung verstanden wissen möchte. Denn eine Schule ohne Allgemeinbildung oder Faktenwissensvermittlung würde Lernende komplett ohne Routine und realistische (Selbst)Einschätzung zurücklassen und könnte Prüfungsangst womöglich sogar verstärken, da sie sie letztlich im Vagen/Ungewissen alleine lassen würde. In einer Zeit zunehmender Falschinformation, geboostet durch KI, wäre dies ein fataler Fehlschluss.

Die Antwort liegt daher in hybriden Formaten: Eine Kombination aus (KI-gestütztem) Produkt, (Live-)Reflexionsanteil und (mündlichem) VIVA vereint Fairness, Skalierbarkeit und kognitive Tiefe.


3. Menschliche Leistung neu kalibrieren: Metakognition, Kuration, Beziehung


Sofern wir annehmen, dass der Lernende die KI nutzt, um die unteren Stufen der Bloomschen Taxonomie (Erinnern, Verstehen, Anwenden) zuverlässig zu bewältigen, und sofern wir der KI zugestehen, dass sie auf diese Weise gewinnbringend genutzt werden kann, wird die eigentliche, zutiefst menschliche Lernleistung erst darüber wertvoll und sichtbar: in der kritischen Analyse, der ethischen Bewertung und der kreativen Neugestaltung, die eben nicht delegierbar sind:


  • Metakognition & Kritisches Prüfen: Die Qualität von KI-Output bewerten (Bias-Erkennung, Halluzinationen entlarven, Quellen validieren). Diese Beurteilung ist oft anspruchsvoller als die Produktion selbst.




Hier zeigt sich das zentrale Paradox: Das alte System erzeugt durch seine Anreize metakognitive Atrophie, während die Zukunft genau diese Metakognition und den kritischen Diskurs zwingend verlangt. Wir müssen schneller umlernen, als die „Tyrannei der Freiheit“ uns verlernen lässt.


4. Der soziale Kipppunkt: Von „Entwertung“ zur Umverteilung von Wert


Übertragen wir dies auf die Gesellschaftsebene, sehen wir keinen „Digital Divide“ des Zugangs mehr. Wir sehen ein Kompetenzgefälle: die Kluft zwischen Gestaltern (diejenigen, die KI aktiv kritisch kuratieren und verantworten) und Gemanagten (diejenigen, die KI lediglich passiv konsumieren).

Wir müssen hier klar differenzieren – und vielleicht ist es genau diese fehlende Differenzierung, die viele Lehrkräfte beunruhigt: Der 'Plus-Zugang' zu ChatGPT, den Lernende vielleicht besitzen, ist noch lange keine KI-Kompetenz. Die Fähigkeit, schnell Ergebnisse zu generieren, verdeckt oft, dass das Verständnis für die Prozesse, die ethischen Implikationen oder die systemischen Verzerrungen (Bias) dahinter völlig fehlt.

Genau diese Einschätzung bestätigen die Datenerhebung des D21 Digital Index 2024/25. Sie belegen klare Differenzen bei der KI-Nutzung nach Alter und Bildung und bestätigen die sich ändernden Anforderungen an Qualifikation.


Die PrEval-Studie definiert „Critical AI Literacy“ (Kritische KI-Mündigkeit) daher zu Recht systemisch und betont, dass es darum gehe, Biases im Kontext von Ungleichheit sowie Macht- und Profitinteressen zu verstehen. Diese Definition sei ökonomisch zwingend, denn parallel verlagere sich der gesellschaftliche Wert weg von standarisiertem „kognitivem Stückgut“ hin zur „nichttrivialen Maschine“ Mensch – also zu menschlicher Urteilsfähigkeit, Verantwortung, Problemdefinition und Kuration. Der alarmierende Befund der Studie ist jedoch, dass genau diese Dimensionen (Empathie, Ambiguitätstoleranz, Sozio-Struktur) in den Curricula noch weitgehend fehlen.


5. Aus dem Spiegel heraustreten: Vom Feigenblatt zur neuen Architektur


Wenn wir jetzt nur VIVAs und Portfolios einführen würden, ohne die Lernkultur an sich zu ändern, nutzen wir nur pädagogische Feigenblätter. Es würde meines Erachtens genau die Toolifizierung verfestigen, vor der Isabella Buck warnt, bzw. wäre lediglich eine verzweifelte Reaktion darauf.

Wir brauchen jedoch einen echten Architekturwechsel. Schule muss viel stärker zu einem sicheren Experimentier-, Forschungs- und Erprobungsfeld werden – zu einer „Innovationsspielwiese“, in der auch Scheitern erlaubt ist ("safe spaces to fail").


Stellen wir uns doch mal ein (noch utopisches) Langzeitprojekt vor: „Wir trainieren unsere eigene Schul-KI.“ Ein fächer- und jahrgangsübergreifendes Vorhaben. Die Lernenden müssen die Daten selbst sammeln, kuratieren und annotieren. Sie müssen das Feintuning des Modells vornehmen. Plötzlich wird Ethik praktisch: Wessen Daten nutzen wir? Welchen Bias bauen wir gerade (versehentlich) ein? Das wird zur gelebten, tiefgreifenden Verantwortungsschulung.

Das klingt nach einem radikal neuen Ansatz. Führen wir ihn weiter: Was wäre, wenn statt starren Fächern zu Beginn eines Schuljahres eine Projektbörse stattfände? Angeboten werden problemorientierte (Forschungs-)Projekte, vielleicht in Kooperation mit Universitäten, zu gesellschaftlichen Zukunftsfragen, Nachhaltigkeit, Demokratiebildung oder naturwissenschaftlichen Rätseln.


Die Lernenden wählen nach Interesse und merken in ihren Teams schnell: „Oh, für mein Projekt über Stadtplanung der Zukunft benötige ich Statistik-Grundlagen aus Mathe und muss besser argumentieren lernen.“ Sie justieren selbstreguliert nach. Die Schule stellt dafür exzellente (KI-gestützte) Lernbots zur Vermittlung von Grundwissen bereit, aber vor allem menschliche Lernbegleiter und Coaches.

Das Ziel ist ein intrinsisch motivierter Lernprozess. Eingewoben in die Projektgruppe, muss jeder Verantwortung für das Gelingen des Ganzen übernehmen – ohne die lähmende Angst vor der nächsten Note. Schule wird so vom Ort der Leistungsabfrage zum Verantwortungsraum.

Das klingt utopisch? Vielleicht. Aber wir könnten damit in höheren Klassen beginnen. Oder an einem festen Projekttag pro Woche. Die Ansätze existieren.

Um diesen Wandel jetzt einzuleiten und fair zu gestalten, brauchen wir ein konkretes 5-Punkte-Paket für die unmittelbare Praxis, der zugleich einen konkreten Weg dahin beschreibt:


  1. Transparente Aufgabenarchitektur (nach Falck & Flick): Jede Aufgabe wird einer von drei KI-Stufen zugeordnet (keine KI / punktuell / integral). Die Erwartungen an die KI-Nutzung sind für alle klar.


  2. Hybrid-Prüfung „3×R“ (Result – Reasoning – Reflection):

    • Result: Das (KI-gestützte) Produkt wird offengelegt und vielleicht sogar demonstriert.

    • Reasoning (VIVA): Eine 10-minütige mündliche Verteidigung des Prozesses, der Strategie und der Stolpersteine (auch: des Scheiterns).

    • Reflection: Eine Kurzreflexion im Rahmen eines nicht generierbaren Live-Ereignisses (Experiment, Interview, Hospitation).


  3. 4K-Rubriken + Metakognition: Eine einheitliche, transparente Bewertungsmatrix zu Kritik, Kreativität (Kuration), Kommunikation, Kollaboration, ergänzt um Leitfragen zur Metakognition (Bias-Check, Quellen-Validierung).


  4. Micro-Credentials (Teil-Zertifikate): Statt nur auf Endnoten zu starren, weisen Lernende modulare Teilkompetenzen nach (z.B. „Bias-Audit Basics“, „Reflexionslogik“, „Prompt-Ethik 101“, aber auch "Mathe-Grundlagen", "Grammatik-Anwendung", "Stil- und Logik" usw.). Das macht Progression sichtbar.


  5. Critical AI Literacy spiralcurricular verankern (z. B. nach PrEval): KI-Mündigkeit wird in jedem Jahrgang mit steigender Komplexität geschult: Der Lernweg führt von der reinen Tool-Anwendung (enggeführt bis eigenverantwortlich), über die Auseinandersetzung mit Bias und Fairness sowie Macht, Profit und Regulatorik bis hin zur Debatte um gesellschaftliche Folgen und Verantwortung.


Fazit: Es geht nicht darum, ob wir Leistung neu denken – sondern wie mutig wir sie neu denken.


Wir stehen als Bildungssystem zwischen zwei Pfaden:


  1. Das pragmatische Feigenblatt: Wir ersetzen die alte Performanz (Aufsatz, Produktbenotung) durch eine neue (Portfolio mit Reflexionsbox). Das System bleibt, die Toolifizierung siegt, und die soziale Ungleichheit der KI-Nutzung wächst.


  2. Die transformative Architektur: Wir nutzen die Krise, um den Leistungsbegriff neu zu kalibrieren. Wir rücken Beziehungsarbeit, ethisches Urteilen und Metakognition in den Mittelpunkt – mit klaren, fairen Leitplanken und der Vision einer projektorientierten Schule.


KI ist nicht die Ursache für die Krise. Sie ist der Spiegel, der uns eine längst auffällige Schieflage schonungslos offenlegt. Der Wert menschlicher Leistung steigt jedoch genau dort, wo wir Absicht, Urteil, Verantwortung und Beziehung als Leistungsmaß zusammendenken. Und das kann Schule – wenn sie den Mut dazu aufbringt.



Weiterführende Diskussionsfragen für die Blogparade


Ich möchte meinen Artikel als Beitrag zur Blogparade mit ein paar weiterführenden Denkanstößen abrunden. Meine oben ausgeführten Gedanken stellen kein Pauschalrezept dar, sie möchten lediglich dazu ermutigen, dass ein Umdenken (auch bereits im Kleinen, im Jetzt) möglich ist.


  1. Was ist in deinem Fach der kleinste „nicht generierbare Anteil“, der menschliche Kompetenz sichtbar macht (z. B. die Reflexion einer Laborbeobachtung, die Kuration eines Konzertprogramms, die Analyse eines Live-Interviews)?


  2. Wie sähe eine faire VIVA-Checkliste aus, die Subjektivität in der Prozessbewertung begrenzt, aber dennoch Tiefe zulässt?


  3. Welche drei Micro-Credentials (Badges) würdest du in deiner Schule sofort einführen, um prozessuale KI-Kompetenzen sichtbar zu machen?


  4. Welche Projektidee (wie die „Projektbörse“ oder die „eigene KI trainieren“) hältst du für am dringendsten, aber auch für überhaupt umsetzbar, um Schule zu einem echten Verantwortungsraum umzugestalten?


  5. Und was, wenn wir weiterdenken: Was würde passieren, wenn Noten zugunsten von Kompetenz-Rubriken (Micro-Credentials) abgeschafft würden? Wenn wir die Stofffülle drastisch reduzierten zugunsten von Basiskompetenzen und darauf aufbauendem Projektlernen? Könnte KI dann der Katalysator sein, den wir dafür bräuchten?


Kommentare


bottom of page