Nicht alles glauben, was KI sagt
Das PRÜFE-Framework für kritische KI-Bewertung
„Die Zahlen sind falsch, Barbara.“
Als Rita meine KI-generierten Präsentationsfolien sah, brauchte sie nur wenige Sekunden. Ich hatte der KI vertraut – die Formulierungen waren elegant, die Struktur logisch. Nur die Daten stimmten nicht. Seitdem beschäftigt mich diese Situation: Wie können wir Ausgaben für KI methodisch bewerten, besonders in jenen Bereichen, in denen unsere eigene Expertise begrenzt ist?
Kritisches Denken zwischen Fachwissen und Methode
„Kritisches Denken entwickelt sich in der Methode, nicht im Wissenskorpus.“ Dieser Kommentar zu einem meiner LinkedIn-Beiträge über Fachwissen und KI hat mich zum Nachdenken gebracht. Nicht, weil er meine Grundüberzeugung widerlegte – Fachwissen bleibt für fundiertes kritisches Denken unverzichtbar. Sondern weil er eine wichtige Ergänzung aufzeigte: Was geschieht in jenen Momenten, in denen unsere Expertise an Grenzen stößt?
Der Verweis auf den sokratischen Dialog als „Methode, die scheinbar ohne Wissen auskommt”, war aufschlussreich. Sokrates stellte systematisch Fragen, deckte Widersprüche auf und führte seine Gesprächspartner zu Erkenntnissen, ohne selbst die Antworten zu kennen. Diese methodische Herangehensweise könnte auch für die Bewertung von KI-Ausgaben hilfreich sein.
Die Frage gewann an Bedeutung, als mir bewusst wurde, wie oft in Diskussionen über AI-Literacy kritisches Denken als zentrale Kompetenz gefordert wird, ohne dass konkrete methodische Anleitungen folgen. Lehrende sollen es vermitteln, Lernende sollen es anwenden. Doch wie lässt sich das praktisch umsetzen?
Die Entwicklung des PRÜFE-Frameworks
Aus diesen Überlegungen heraus habe ich das PRÜFE-Framework entwickelt – einen Versuch, kritisches Denken bei KI-Ausgaben methodisch zu strukturieren. PRÜFE steht für die folgenden fünf Schritte: Plausibilität, Recherche, Überzeugungen hinterfragen, Falsifizieren und Entscheiden.
Wichtig dabei ist: Es handelt sich nicht um ein starres Protokoll. Im Alltag nutzen wir je nach Situation einen oder mehrere dieser Schritte. Die vollständige Durchführung empfiehlt sich insbesondere bei kritischen Entscheidungen oder in strukturierten Workshop-Settings. Entscheidend ist das Bewusstsein, dass diese methodischen Werkzeuge existieren und situativ eingesetzt werden können.
P – Plausibilität: Die systematisierte erste Einschätzung
Der erste Schritt knüpft an unsere natürliche Bewertungsfähigkeit an. Rita hat genau das getan: Sie hat die Präsentation auf sich wirken lassen und dabei Unstimmigkeiten bemerkt. Diese intuitive Plausibilitätsprüfung lässt sich systematisieren, indem wir bewusst auf drei Aspekte achten. Was irritiert beim ersten Lesen? Wo fallen Widersprüche auf? Was erscheint im Verhältnis zur bisherigen Erfahrung unplausibel?
In Workshop-Settings hat sich folgende Vorgehensweise bewährt: Die Teilnehmenden sammeln zunächst stillschweigend ihre Reaktionen auf eine KI-Ausgabe. Anschließend werden diese Eindrücke in Kleingruppen geteilt und kategorisiert: inhaltliche Zweifel, sprachliche Auffälligkeiten und logische Brüche. Diese kollektive Intuition erweist sich oft als erstaunlich präzise.
R – Recherche: Systematischer Quellen- und Systemvergleich
Dieser Schritt nutzt die Möglichkeiten des digitalen Zeitalters: Ich stelle dieselbe Frage routinemäßig verschiedenen KI-Systemen wie ChatGPT, Claude und Gemini. Dabei sind die Abweichungen zwischen den Antworten oft aufschlussreicher als die Gemeinsamkeiten. Parallel dazu überprüfe ich Fakten durch unabhängige Quellen und suche nach wissenschaftlichen oder journalistischen Belegen.
In Workshop-Settings lässt sich das arbeitsteilig umsetzen: Ein Team befragt verschiedene KI-Tools, ein anderes durchsucht klassische Quellen und ein drittes spezialisiert sich auf wissenschaftliche Datenbanken. Durch diese Vorgehensweise werden Diskrepanzen aufgedeckt, die bei individueller Recherche möglicherweise übersehen würden.
Ü – Überzeugungen: Sokratisches Hinterfragen von Annahmen
Dieser Schritt ist methodisch anspruchsvoll und knüpft direkt an die sokratische Tradition an. Ziel ist es, verborgene Annahmen sowohl in der KI-Ausgabe als auch in der eigenen Bewertung aufzudecken. In der Forschung werden drei Arten von Verzerrungen unterschieden: kognitive Verzerrungen in der Informationsverarbeitung (wie der Bestätigungsfehler), Präferenzverzerrungen durch unbewusste Vorurteile und strukturelle Verzerrungen, die systematisch bestimmte Perspektiven ausblenden.
Sokratische Fragen wie „Auf welchen Prämissen basiert diese Aussage?” oder „Welche Perspektiven fehlen systematisch?” helfen dabei. In Workshop-Settings arbeiten die Teilnehmenden in strukturierten Rollen: Eine Gruppe identifiziert fehlende Perspektiven, eine andere sucht nach verborgenen Annahmen und eine dritte entwickelt Fragen, die Prämissen offenlegen. Anschließend werden gemeinsam Qualitätskriterien erarbeitet.
F – Falsifizieren: Die bewusste Suche nach Gegenbeweisen
Mit diesem Schritt wenden wir das Popper’sche Prinzip der Falsifikation an. Anstatt Bestätigungen zu sammeln, suchen wir aktiv nach Widerlegungen. Das ist eine Vorgehensweise, die gegen unsere natürliche Tendenz zum Bestätigungsfehler arbeitet. Dies kann durch Variation der Prompts, durch die explizite Bitte um Gegenargumente oder durch das bewusste Einnehmen gegensätzlicher Perspektiven geschehen.
In Workshop-Settings hat sich die Aufteilung in Pro- und Contra-Teams mit anschließendem Rollentausch bewährt. Diese strukturierte Kontroverse macht argumentative Schwachstellen sichtbar.
E – Entscheiden: Die dokumentierte Bewertung
Der finale Schritt wird in der Praxis oft übersehen: die bewusste und dokumentierte Entscheidung. Nach den vorherigen Prüfschritten erfolgt eine explizite Festlegung. Übernehme ich die KI-Ausgabe vollständig? Passe ich sie an? Oder lehne ich sie ab? Durch die Verschriftlichung wird man zur Klarheit über die eigene Begründung gezwungen.
Bei wichtigen Entscheidungen empfiehlt es sich, eine zweite Person hinzuzuziehen. Ritas kurzer Blick auf meine Präsentation veranschaulicht dies: Oft erkennen andere Unstimmigkeiten, die uns selbst entgangen sind.
In Workshop-Settings trifft zunächst jede Person individuell ihre Entscheidung, erst danach erfolgt der Vergleich im Team. Diese Vorgehensweise verhindert eine vorschnelle Konsensbildung und zeigt die Bandbreite möglicher Einschätzungen auf.
Reflexion zu Grenzen und Anwendung
Das PRÜFE-Framework ist kein Ersatz für Fachwissen. In Bereichen mit hoher fachlicher Komplexität bleibt tiefgreifende Expertise unverzichtbar. Das Framework schafft jedoch eine methodische Brücke für Situationen, in denen wir KI-Ausgaben zu Themen bewerten müssen, bei denen wir keine Fachleute sind.
Im Alltag werden die fünf Schritte selten vollständig durchlaufen. Rita hatte beispielsweise intuitiv die Plausibilitätsprüfung und das Hinterfragen von Annahmen kombiniert. Die vollständige Anwendung empfiehlt sich vor allem bei kritischen Entscheidungen oder in Workshop-Settings, in denen das Framework seine didaktische Funktion entfalten kann.
Methodisches Denken als Ergänzung zum Fachwissen
Jener LinkedIn-Kommentar zum sokratischen Dialog wies auf eine wichtige Ergänzung hin: Kritisches Denken entwickelt sich auch in der Methode, nicht nur im Wissenskorpus. Das PRÜFE-Framework ist mein Versuch, diese Erkenntnis praktisch umzusetzen – sowohl für die eigene Arbeit mit KI-Tools als auch für die Vermittlung in Seminaren und Workshops.
Die fünf Schritte bieten eine Struktur, die sich lernen und üben lässt, aber flexibel an den jeweiligen Kontext angepasst werden kann. Sie ersetzen nicht das tiefe Nachdenken, sondern leiten es systematisch an. In einer Zeit allgegenwärtiger KI-generierter Inhalte benötigen wir nicht weniger, sondern methodisch angeleitetes kritisches Denken – auch dort, wo unsere Expertise endet.
Rita würde dem vermutlich zustimmen. Sie hat schließlich immer recht.
Meine LinkedIn Beiträge
Die folgenden LinkedIn-Beiträge habe ich seit dem letzten Newsletter veröffentlicht und sind auch ohne LinkedIn-Mitgliedschaft frei zugänglich:
Wird fachliches Wissen durch KI überflüssig? Gabi Reinmann stellt diese weit verbreitete Annahme in ihrem Beitrag radikal infrage. Ihre überzeugende Argumentation zeigt, warum wir im KI-Zeitalter nicht weniger, sondern mehr Fachwissen benötigen. In ihrer Analyse deckt sie außerdem problematische Denkfehler in der aktuellen Bildungsdebatte auf.
Warum Sprachmodelle halluzinieren
Warum „erfindet” ChatGPT plausible, aber falsche Fakten? Eine aktuelle Studie von Kalai et al. (2025) in Zusammenarbeit mit OpenAI erklärt dieses Phänomen: KI-Systeme verhalten sich wie Prüflinge, die lieber eine wahrscheinlich klingende Antwort raten, als “keine Ahnung” zu sagen.
KI und Qualitativen Inhaltsanalyse
Verändert KI die qualitative Inhaltsanalyse grundlegend? Das ist eine entscheidende Frage für die Forschung und für die Methodik unzähliger Abschlussarbeiten, die auf Interviews basieren. Eine systematische Antwort, wie wir KI methodisch fundiert einsetzen können, liefert ein aktueller Artikel von Fischer (2025).
Stanford-Studie: KI verdrängt Berufseinsteiger
Verdrängt KI bereits junge Fachkräfte vom Arbeitsmarkt? Eine neue Stanford-Studie, die Millionen von Gehaltsabrechnungsdaten auswertet, liefert alarmierende Antworten, die unser Bildungssystem zum Handeln zwingen.



Tolle Hinweise, gut systematisiert. Ich werde im November auf den Wissensmanagement-Tagen in Stuttgart dazu halten. Da würde ich diesen Ansatz gerne vorstellen.
Danke für den Beitrag. Kritisches Denken kommt nie aus der Mode :-)