Zeig mir das!
Was KI wirklich kann – in vier Screencasts
„Kannst du mir das zeigen?”
Julia sitzt in ihrem Homeoffice, ich in meinem in Mattersburg. Zwischen uns liegt ein Teams-Fenster, das immer wieder ins Stocken gerät. Julias Gesicht friert ein. Julia arbeitet an einer anderen Hochschule im E-Learning-Bereich. Über meinen Substack-Beitrag zu KI-Agenten hatte sie mir Folgendes geschrieben: „Ich verstehe es theoretisch. Aber ich will es sehen.”
Sehen. Nicht lesen. Nicht erklärt bekommen. Sehen.
Marshall McLuhan schrieb 1964, das Medium sei die Botschaft. Damit meinte er, dass nicht nur der Inhalt zählt, sondern auch, wie wir ihn erfahren. Einen Text über KI-Agenten zu lesen, ist die eine Sache. Zuzuschauen, wie ein Agent einen Online-Kurs absolviert, ist etwas ganz anderes. Das eine informiert. Das andere verändert.
Ich nenne es den Demonstrations-Schock. Der Moment, in dem eine abstrakte Möglichkeit zur konkreten Realität wird. Der Moment, in dem du nicht mehr sagen kannst: „Das betrifft mich nicht.” Das ist Zukunft. Das übertreiben die Nerds mal wieder.
Also zeige ich es Julia. Sie teilt ihren Bildschirm, öffnet ChatGPT und aktiviert den Agentenmodus. „Gib ihm jetzt die URL der Lernplattform“, sage ich.
Julia tippt. Wir warten.
Nichts passiert. Der Agent lädt, bricht ab und lädt erneut. Das WLAN spinnt. „Moment, ich wechsle das WLAN“, sage ich. Ihr Bild verschwindet und erscheint wieder, allerdings pixelig. Wir fluchen beide.
Zweiter Versuch, andere Plattform. Wieder nichts. Der Agent findet den Login-Button nicht und klickt irgendwo hin, wo er nicht hingehört. „Das ist ja, als würde man einem betrunkenen Praktikanten zuschauen“, sagt Julia. Ich muss lachen, aber mir ist nicht danach.
Dritter Versuch. Moodle. Und plötzlich funktioniert es.
Der Agent loggt sich ein, navigiert zum Kurs, öffnet das erste Modul, scrollt durch den Text und klickt auf „Weiter“. Wir sagen beide nichts. Wir schauen nur zu. Der Bildschirm flackert. Der Agent arbeitet. Wir atmen kaum.
Als der Agent den Test am Ende des Moduls besteht, acht von zehn Fragen richtig in unter einer Minute, sagt sie leise: „Das geht ja wirklich einfach.“
Ja. Das tut es.
In meinen Texten erkläre ich, was KI kann. Ich beschreibe Funktionen, analysiere Implikationen und ordne sie ein. Aber erst, als Julia es selbst gesehen hat, mit allen Pannen, allem Fluchen und allem Staunen, hat sie es wirklich verstanden. Lesen ist nicht Sehen. Beschreiben ist nicht Zeigen. Der „Demonstrations-Schock” lässt sich nicht in Worte fassen.
Also habe ich Screencasts erstellt. Nicht als Ersatz für meine Texte, sondern als Ergänzung. Was ich in meinen Beiträgen zu KI-Agenten und Ko-KI-Kreation beschrieben habe, zeige ich jetzt. Plus etwas Neues: Programmieren ohne Programmierkenntnisse.
Dieser Beitrag ist anders aufgebaut als meine üblichen Beiträge. Es gibt vier Screencasts, vier Geschichten und vier Werkzeuge zum Ausprobieren. Am Ende versuche ich, einzuordnen, was es bedeutet, dass all diese Dinge jetzt gleichzeitig möglich sind.
KI-Agenten: „Wie kann ich ihn stoppen?”
Bevor ich Julia zeigte, wie KI-Agenten funktionieren, hatte ich meinen eigenen Schock-Moment bei einer Demonstration erlebt. Das war wenige Wochen zuvor in meinem Büro an der Hochschule Burgenland.
Lena, eine Kollegin, hatte sich bereit erklärt, zu testen, ob der ChatGPT-Agentenmodus Aufgaben in Moodle erledigen kann. In einem meiner eigenen Kurse. Sie war als Lehrende eingeloggt, mit allen Rechten, die das mit sich bringt.
Wir waren online verbunden. Meine Teetasse stand unberührt auf dem Schreibtisch und war längst kalt. Sie aktivierte den Agentenmodus, gab die Moodle-URL ein und tippte: „Erledige den Test in diesem Kurs.”
Der Agent begann sofort zu arbeiten. Er navigierte durch die Kursseite, fand eine Arbeit eines Studierenden, die dieser abgegeben hatte, und öffnete sie. Dann begann er, sie zu beurteilen. Er schrieb Feedback. Er wählte eine Note aus. Er erledigte die Aufgabe nicht. Er beurteilte sie!
„Wie kann ich ihn stoppen?” Lenas Stimme klang schrill.
Ich wusste es nicht. Aber Lena fand schließlich die Stopptaste. Der Agent hielt an, bevor er die Beurteilung abschicken konnte. Lena lehnte sich zurück, ihre Hände zitterten leicht. „Das hätte schiefgehen können.“
Ja, das hätte es. Und dieser Moment! Lenas Panik! Meine Hilflosigkeit! Und der Agent, der einfach weitermachte! Dieser Moment hat für mich mehr verändert als hundert Seiten Fachliteratur über KI-Risiken.
Was sind KI-Agenten überhaupt? Im Unterschied zu normalen Chatbots führen sie mehrere Schritte automatisch hintereinander aus, ohne dass du nach jedem Schritt eingreifen musst. Du gibst ein Ziel vor und der Agent arbeitet selbstständig darauf hin. Er kann sich auf einer Lernplattform anmelden, durch Module navigieren, Texte lesen oder das Lesen simulieren, Quizfragen beantworten, zur nächsten Lektion wechseln und am Ende ein Zertifikat herunterladen. Alles automatisch. Du schaust zu. Oder du schläfst. Oder du bist gar nicht am Computer.
Der Agentenmodus ist in ChatGPT Plus für 20 Euro pro Monat verfügbar. Du aktivierst ihn über das Plus-Symbol, dann „Mehr” und schließlich „Agentenmodus”. Der Screencast zeigt genau diesen Prozess.
Im Video siehst du außerdem, wie ein KI-Agent einen Moodle-Test löst. Vom Einloggen bis zum Einreichen vergehen nur wenige Minuten. „Das wird wohl kein Mensch gewesen sein”, sagte mein Kollege Christian, als er sich die Logfiles anschaute.
Diese Agenten sind noch fehleranfällig. Sie brechen ab, klicken daneben oder machen etwas Unerwartetes. So wie bei Julia, bei der es erst beim dritten Anlauf funktionierte. Aber sie funktionieren gut genug. Jeder Online-Kurs ohne Live-Komponente ist kompromittiert. Jedes automatisiert vergebene Zertifikat ist fragwürdig. Die gesamte Infrastruktur der skalierbaren Online-Bildung steht auf dem Spiel.
Das klingt düster. Aber es ist wichtiger, diese Realität zu kennen, als sich in falscher Sicherheit zu wiegen. Nur wer versteht, was technisch möglich ist, kann Lehrkonzepte entwickeln, die auch in dieser neuen Realität funktionieren.
Zum Ausprobieren: Wenn du ChatGPT Plus hast, probiere den Agentenmodus mit einer einfachen, unkritischen Aufgabe aus. Lass ihn beispielsweise eine öffentliche Website analysieren oder ein Formular auf einer Testseite ausfüllen. So entwickelst du schnell ein Gespür dafür, was funktioniert und was nicht.
NotebookLM: Vom Biologietest zum Studiengangs-Assistenten
Die Geschichte mit NotebookLM begann nicht an der Hochschule, sondern am Küchentisch. Meine zwölfjährige Tochter lernte damals für einen Biologietest. Das Thema war Pilze. Sie saß vor ihrem handgeschriebenen Heft und seufzte.
Ich hatte gerade gelesen, dass NotebookLM Podcasts in verschiedenen Sprachen erstellen kann. Da dachte ich: Kann ich das Heft fotografieren, hochladen und einen Podcast daraus machen lassen?
Ich probierte es aus. Ich fotografierte die Seiten, lud sie als PDF hoch und spielte mit den Einstellungen. Nach einigen Versuchen hatte ich einen Podcast, in dem zwei freundliche Stimmen den Stoff für eine Zwölfjährige mit einfachen Worten, Beispielen und Nachdenkfragen erklärten.
Das war mein zweiter „Demonstrations-Schock”. Nicht wegen der Technologie. Sondern weil ich sah, wie meine Tochter anders lernte. Nicht mit Karteikarten und Wiederholen, sondern nebenbei, spielerisch und in ihrer eigenen Zeit.
Was ist NotebookLM? Ein kostenloses Tool von Google, das aus deinen eigenen Dokumenten lernt. Du lädst PDFs, Websites, YouTube-Videos oder Texte hoch und NotebookLM erstellt daraus verschiedene Lernmaterialien. Der entscheidende Unterschied zu ChatGPT ist, dass NotebookLM nur über die Dokumente sprechen kann, die du ihm gibst. Es erfindet nichts dazu. Dadurch werden Halluzinationen drastisch reduziert und die Antworten werden überprüfbar.
Die Funktionen haben sich im Jahr 2025 explosionsartig erweitert. So kannst du beispielsweise Podcasts in über 50 Sprachen erstellen lassen, in denen zwei KI-Stimmen den Inhalt deiner Dokumente diskutieren. Du kannst kurze Erklärvideos generieren, Karteikarten und Quizfragen erstellen sowie Infografiken und Mindmaps anfertigen lassen. Außerdem kannst du mit deinen Dokumenten chatten. Dabei zitiert NotebookLM die Quellen mit Seitenangaben, sodass du jede Aussage nachprüfen kannst.
Für meinen Studiengang „E-Learning und Wissensmanagement” habe ich ein NotebookLM erstellt. Dort sind Unterlagen zum Studiengang hinterlegt. Interessierte können damit Fragen stellen und sich die unterschiedlichen Medienformate anschauen, die NotebookLM erstellen kann. Der Screencast zeigt genau dieses Notebook.
Für meine wissenschaftliche Arbeit lade ich PDFs von Fachartikeln hoch und chatte mit ihnen. So kann ich innerhalb von Minuten prüfen, ob ein Artikel für meine Recherche relevant ist, ohne ihn komplett lesen zu müssen. Die Antworten sind mit Seitenangaben belegt.
NotebookLM ist kostenlos, erfordert jedoch einen Google-Account. Hier ist der Link zum im Screencast gezeigten Notebook: https://notebooklm.google.com/notebook/d6d42af5-e77c-4041-b136-478267ce9a42
Zum Ausprobieren: Erstelle ein eigenes Notebook mit zwei bis drei PDFs zu einem Thema, das dich interessiert. Lass dir einen Podcast generieren und höre ihn beim Spazierengehen. Der Demonstrations-Schock kommt, wenn du merkst: Das sind wirklich meine Dokumente, die da besprochen werden.
Deep Research: Vier Tools, vier Stile
Zu Deep Research habe ich bereits einen ausführlichen Beitrag geschrieben. Da ich jedoch immer wieder gefragt werde, welches Tool ich empfehle, habe ich für diesen Beitrag einen direkten Vergleich durchgeführt.
Was ist Deep Research? Eine agentische Funktion, bei der KI-Systeme eigenständig im Internet recherchieren, Quellen sammeln, bewerten und strukturierte Berichte mit Quellenangaben erstellen. Du gibst eine Frage oder ein Thema vor, und die KI arbeitet 5 bis 45 Minuten daran. Das Ergebnis ist ein rund fünf bis 15 Seiten langer Bericht, der strukturiert ist und Quellenangaben enthält. Was früher zwei Tage Literaturrecherche bedeutete, erledigt Deep Research in einer Kaffeepause.
Die vier großen Anbieter unterscheiden sich deutlich in Stil, Tempo und Schwerpunkt. ChatGPT arbeitet vergleichsweise gründlich und strukturiert, benötigt dafür jedoch etwas mehr Zeit und liefert umfangreiche Quellenlisten. Gemini ist in vielen Fällen schneller, gut in bestehende Google-Workflows integriert, bleibt inhaltlich aber gelegentlich an der Oberfläche. Claude tendiert zu besonders ausführlichen, sauber strukturierten Recherchen und wirkt in meinen Tests bei unsicheren Aussagen am vorsichtigsten. Mistral ist preislich attraktiv und europäisch ausgerichtet, erreicht in Tiefe und Ausarbeitung aktuell jedoch nicht ganz das Niveau der anderen Anbieter.
Im Screencast habe ich allen vier Tools dieselbe Rechercheaufgabe gestellt: einen Vergleich der Deep-Research-Funktionen. Meta, ich weiß. Aber so werden die Unterschiede sichtbar. Besonders aufschlussreich sind die von jedem Tool erstellten Infografiken. ChatGPT erstellt detaillierte, datenreiche Grafiken. Gemini ist visuell ansprechender, aber oberflächlicher. Claude erstellt präzise und nüchterne Darstellungen. Mistral ist solide, aber weniger poliert.
Beruflich nutze ich Deep Research für Benchmarking, beispielsweise wenn ich meinen Studiengang mit anderen vergleichen muss, etwa für Akkreditierungen. Privat nutze ich es für Produktvergleiche. Zuletzt habe ich mir Noise-Cancelling-Kopfhörer mit technischen Daten, Vor- und Nachteilen sowie Preisen vergleichen lassen. In 45 Minuten hatte ich einen Überblick, für den ich sonst Stunden gebraucht hätte.
Die Qualität dieser Recherchen ist nicht konstant. Während einige Ergebnisse überzeugen, müssen andere nachgeschärft werden. Deshalb ist es weiterhin notwendig, die Quellen selbst zu prüfen. Gleichzeitig verschiebt sich das Leistungsniveau rasant, denn nach aktuellen Einschätzungen verdoppeln sich die Fähigkeiten dieser Modelle im Schnitt etwa alle sieben Monate. Was heute noch überrascht, wirkt ein halbes Jahr später bereits vertraut.
Zum Ausprobieren: Starte mit einer Frage, deren Ergebnis du selbst einschätzen kannst. „Vergleiche X und Y für den Anwendungsfall Z” funktioniert zum Beispiel gut. So lernst du, wie zuverlässig die Recherche für dein Fachgebiet ist.
Claude Code: Eine halbe Stunde, die alles verändert hat
Vor fast dreißig Jahren habe ich in einer Lehrveranstaltung Programmieren gelernt. Seitdem weiß ich, dass ich es nicht kann. Logik verstehe ich, Syntax jedoch nicht. Jedes Mal, wenn ich versuchte, Code zu schreiben, scheiterte ich an Klammern, Einrückungen und Semikolons. Irgendwann gab ich auf.
Deshalb habe ich mich im Jahr 2025 nicht mit „Vibe Coding” beschäftigt, diesem Trend, bei dem man in natürlicher Sprache beschreibt, was man haben will, und eine KI programmiert es dann. Ich las begeisterte Berichte darüber, dachte aber: Das ist nichts für mich.
Dann wurde Claude Code in meinem Account freigeschaltet. Es war Freitagabend, die Kinder waren im Bett und im Haus war es still. Ich saß am Laptop, dessen Bildschirm das einzige Licht im Zimmer war. Ich dachte: „Ich kann es zumindest mal probieren.”
Zunächst brainstormte ich mit Claude darüber, wie ein Lernspiel zur Bloomsche Lernzieltaxonomie aussehen könnte. Die Bloomsche Taxonomie ist ein Modell, das Lernziele in sechs Stufen einteilt: Erinnern, Verstehen, Anwenden, Analysieren, Beurteilen und Erschaffen. Ich nutze es in meiner Lehre, aber in jeder Kohorte haben Studierende Probleme damit, die einzelnen Stufen voneinander zu unterscheiden. Claude schlug vor, ein Turmspiel zu entwickeln, bei dem Verben auf die richtige Stufe gezogen werden müssen. Je höher die Stufe, desto schwieriger. Mit Zeitbonus für schnelle Antworten.
Ich bat Claude dann, die Spielidee so zu beschreiben, dass ein Programmierer sie umsetzen kann. Diese Beschreibung kopierte ich in Claude Code und schrieb dazu: „Ich brauche das als SCORM-Paket, damit ich es in Moodle einbetten kann.“
Claude Code begann zu programmieren. Im Terminal scrollte er durch HTML, CSS und JavaScript. Zeile um Zeile, zu schnell zum Lesen. Ich verstand nichts davon. Nach etwa zehn Minuten war er fertig. Ein ZIP-File erschien.
Ich lud das SCORM-Paket in einen Moodle-Testkurs hoch. Es kam eine Fehlermeldung. Irgendetwas mit einer nicht gefundenen Manifest-Datei. Ich dachte: So einfach geht es also doch nicht. Typisch.
Aber dann machte ich aus einer Laune heraus einen Screenshot der Fehlermeldung und schickte ihn an Claude Code. „Was bedeutet das?”
Claude Code antwortete: „Die Datei imsmanifest.xml liegt im falschen Ordner. Sie muss im Root-Verzeichnis der ZIP-Datei sein, nicht in einem Unterordner. Soll ich das reparieren?”
Ich schrieb: „Ja.“
Zwei Minuten später hatte ich eine neue ZIP-Datei. Ich lud es in Moodle hoch. Es funktionierte.
Ich starrte auf den Bildschirm. Das Spiel lief. Verben fielen herunter, ich klickte auf Taxonomie-Stufen und sammelte Punkte. Im ersten Level hatte ich 11 von 15 Verben richtig, eine Genauigkeit von 73 % und 120 Punkte mit Bonus.
Eine halbe Stunde. Freitagabend. Kein einziger Moment, in dem ich den Code verstanden hätte. Und trotzdem war es ein funktionierendes Lernspiel.
Das war mein heftigster Demonstrations-Schock. Nicht wegen des Spiels. Sondern weil ich dreißig Jahre lang geglaubt hatte, Programmieren sei nichts für mich. Doch jetzt saß ich da mit einem funktionierenden SCORM-Paket und diese Überzeugung löste sich auf wie Nebel in der Morgensonne.
„Vibe Coding” bedeutet, dass du in natürlicher Sprache beschreibst, was du haben willst, und die KI programmiert es. Du musst nicht verstehen, was der Code tut. Nur, ob das Ergebnis funktioniert. Wenn nicht, beschreibst du das Problem und die KI repariert es.
Die Qualität ist jedoch nicht perfekt. Ein professioneller Entwickler würde das anders machen. Aber für schnelle Prototypen, für Experimente oder wenn du einfach mal etwas ausprobieren möchtest, ist es mehr als gut genug.
Ich kann jetzt Dinge erstellen, die mir vorher nicht möglich waren. Zum Beispiel interaktive Übungen als SCORM-Pakete für Moodle. Oder kleine Lernspiele für spezifische Inhalte. Prototypen für Ideen, die ich sonst nie umgesetzt hätte. Das verändert, was möglich ist.
Zum Ausprobieren: Starte mit etwas Einfachem. „Erstelle mir eine HTML-Seite mit einem Quiz zu Thema”. Oder: „Erstelle ein Formular, das Eingaben in eine CSV-Datei speichert.“ Die Lernkurve ist überraschend flach, wenn du akzeptierst, dass du den Code nicht verstehen musst. Das war für mich der schwierigste Teil: loszulassen. Nicht alles kontrollieren wollen.
Was einmal gesehen wurde
Am Wochenende nach diesem Freitagabend saßen mein Partner und ich am Küchentisch. Die Kinder schliefen, draußen war es dunkel. Ich zeigte ihm das Lernspiel auf meinem Laptop, erzählte ihm von Claude Code, von den Agenten und so weiter.
Er schaute auf den Bildschirm, dann zu mir. „Du kannst doch gar nicht programmieren.“
„Eben.“
Stille. Die Uhr in der Küche tickte.
„What has been seen cannot be unseen“, sagte er dann.
Was einmal gesehen wurde, kann nicht mehr ungesehen gemacht werden. Das ist keine Floskel. Es ist die präziseste Beschreibung dessen, was passiert, wenn der Schock einer Demonstration eintritt.
Julia kann nicht mehr zu „KI-Agenten sind theoretisch interessant” zurück. Sie hat gesehen, wie einer den Test besteht. Ich kann nicht mehr zu „Programmieren ist nichts für mich” zurück. Ich habe ein funktionierendes Spiel erstellt. Lena kann nicht mehr zu „Unsere Moodle-Kurse sind sicher” zurück. Sie hat gesehen, wie der Agent auf den Stopp-Button wartet.
Das ist das eigentliche Thema dieses Beitrags. Nicht die Tools. Diese verändern sich ständig, werden besser und irgendwann durch neue ersetzt. Was bleibt, ist der Moment des Sehens. Der Schock der Demonstration, der eine Möglichkeit in Realität verwandelt.
Gerade passieren diese vier Entwicklungen gleichzeitig: KI-Agenten automatisieren Handlungsabläufe. NotebookLM macht persönliches Wissen in neuen Formaten zugänglich. Deep Research komprimiert die Recherchezeit von Tagen auf Minuten. Vibe Coding demokratisiert die Erstellung von Software. Jede dieser Entwicklungen für sich ist bedeutsam. Zusammen verändern sie die Grundlagen dessen, was Menschen können und was Maschinen übernehmen.
Konkret bedeutet das für die Bildung: Diese Werkzeuge existieren bereits. Sie kosten zwischen 0 und 20 Euro pro Monat. Studierende nutzen sie bereits – ob wir es wollen oder nicht. Wir können das ignorieren und hoffen, dass es an uns vorbeigeht. Oder wir lernen, damit umzugehen.
Ich habe mich für diesen Weg entschieden. Nicht nur, weil ich KI-Enthusiastin bin. Sondern auch, weil nur, wer diese Werkzeuge kennt, auch klug mit ihnen arbeiten kann. Und weil ich meinen Studierenden etwas beibringen will, das sie in ihrem Arbeitsalltag tatsächlich nutzen können.
McLuhan hatte recht: Das Medium ist die Botschaft. Es reicht also nicht, über diese Werkzeuge zu schreiben. Man muss sie zeigen. Man muss sie selbst ausprobieren. Man muss den Demonstrations-Schock erleben.
Die Screencasts in diesem Beitrag sind mein Versuch, diesen Schock zu ermöglichen. Aber Videos sind nur der Anfang. Der eigentliche Moment kommt, wenn du es selbst ausprobierst. Wenn du einem Agenten dabei zusiehst, wie er deinen Kurs bearbeitet. Wenn du hörst, wie zwei Stimmen über deine Dokumente diskutieren. Wenn du ein funktionierendes Programm vor dir siehst, das du in natürlicher Sprache beschrieben hast.
Schau dir also die Screencasts an. Und dann probiere eines der Tools aus.
Nur eines. Das reicht.
Was einmal gesehen wurde, kann nicht mehr ungesehen werden.



Ganz ganz eindrücklich geschrieben! Ich hirne nun sehr mit mir, ob und wofür ich Agenten sinnvoll einsetzen könnte 👍
Mich irritiert ein wenig die Einschätzung "Jeder Online-Kurs ohne Live-Komponente ist kompromittiert. Jedes automatisiert vergebene Zertifikat ist fragwürdig. Die gesamte Infrastruktur der skalierbaren Online-Bildung steht auf dem Spiel.", auch wenn ich nachvollziehen kann, wie dieser Schluss zustande kommt.
Meine Frage dazu wäre die nach der Orientierung, die wir in Bildungs- und Lernprozessen eigentlich voraussetzen und was die zugrundeliegenden Prämissen sind. Viel zu oft werden diese m.E. nämlich nicht expliziert.
An anderer Stelle schreibst du von einem Wandel von Lehren-Lernen zu Kooperation. Und ich denke, dass die Reise hier hingehen muss. Auch, weil damit sehr viel mehr Verantwortung zustande kommt.
Mich würde sehr interessieren, wie du die Einschätzungen von Kalaitzidis (https://doi.org/10.1007/s00146-025-02629-8) dazu diskutieren würdest. Ich denke da im Moment in Relation zu der Diskussion nach, die auf den Beitrag "ChatGPT is Bullshit" (https://doi.org/10.1007/s10676-024-09775-5) entstanden ist und danach fragt, was wir in der tertiären Bildung eigentlich für einen Begriff des Lernens/Verstehens/kritischen Denkens haben und wie dieser an die aktuellen Strukturen und Modelle von Prüfungen anschließt.