Letzten Samstag saß ich vor meinen Studierenden und tat etwas, das ich jahrelang vermieden hatte. Ich zeigte ihnen, wie sie ChatGPT, Claude und Gemini für die wissenschaftliche Recherche nutzen können. Jahrelang hatte ich genau das Gegenteil empfohlen. „Nutzt ChatGPT nicht für die wissenschaftliche Recherche“, war mein Grundsatz. Doch das stimmt nicht mehr – zumindest nicht, wenn man weiß, wie man die neuen Deep-Research-Funktionen richtig einsetzt.
Was sich grundlegend geändert hat
Für mich kam der Wendepunkt mit der Einführung der Deep-Research-Funktionen. Diese ermöglichen es KI-Systemen, nicht nur auf ihr Trainingswissen zurückzugreifen, sondern auch aktiv zu recherchieren, Quellen zu prüfen und zu belegen. Das Wichtigste dabei ist, dass die allermeisten Quellen tatsächlich auffindbar und überprüfbar sind.
Um dies zu testen, habe ich allen drei Tools dieselbe komplexe Anfrage gestellt: "Führe eine wissenschaftliche Recherche durch – ausschließlich auf Basis von peer-reviewed Artikeln mit DOI.
Ziel der Recherche: Identifiziere und analysiere wissenschaftliche Quellen, die die Self-Determination Theory (SDT) – also die psychologischen Grundbedürfnisse Autonomie, Kompetenz und soziale Eingebundenheit – mit künstlicher Intelligenz (KI) in Verbindung bringen, speziell im Kontext von KI-gestützten Lerngesprächen zur Reflexion. Damit gemeint sind z. B. Coaching-KIs, reflexive Chatbots, lernunterstützende Dialogsysteme oder KI-Co-Piloten, die Lernende beim Nachdenken über ihren Lernprozess unterstützen.
Einschränkungen: Sprache: Nur englische oder deutschsprachige wissenschaftliche Publikationen. SDT: Veröffentlichungsjahr beliebig. KI: Nur Artikel ab 2022. Nur peer-reviewed Artikel mit DOI-Zitation.
Für jede gefundene Quelle: Gib die Vollzitation im APA7-Format inkl. DOI-Link an. Füge eine Begründung hinzu, warum die Quelle für diese Fragestellung relevant ist (z. B. Fokus auf SDT, Coaching-KI, Lerngespräche, Motivation im Bildungskontext).
Danach: Erstelle eine Vergleichstabelle der Quellen mit diesen Spalten: Autor:in & Jahr, Fokus der Studie, Bezug zu SDT, Bezug zu KI, Reflexive KI-Gespräche enthalten (Ja/Nein), Relevanz für die Leitfrage (Hoch/Mittel/Gering).
Abschließend: Verfasse einen wissenschaftlichen Synthese-Text (ca. 300–500 Wörter), der die folgenden Fragen beantwortet: Wie kann die Self-Determination Theory genutzt werden, um KI-gestützte Lerngespräche zur Reflexion zu evaluieren? Warum ist eine solche Evaluierung im didaktischen Kontext sinnvoll? Bitte nutze APA7-konforme Quellenangaben im Text.
Die Grenzen bleiben bestehen – aber die Möglichkeiten erweitern sich
Bevor ich zu den Ergebnissen komme, möchte ich jedoch anmerken: Diese Tools sind kein Ersatz für die traditionelle wissenschaftliche Recherche. Bibliothekskataloge und kostenpflichtige Datenbanken sind nach wie vor unverzichtbar. KI findet oft „irgendwelche” Quellen, aber nicht immer die relevantesten. Die großen wissenschaftlichen Datenbanken mit ihren kostenpflichtigen Inhalten sind den meisten KI-Tools nicht zugänglich.
Trotzdem sind die Ergebnisse beeindruckend – und hier liegt der entscheidende Unterschied zur herkömmlichen Nutzung von LLM: Mit Deep Research lassen sich Texte, die auf Quellenangaben basieren sollten, deutlich besser und qualitativ hochwertiger generieren als mit herkömmlichen Sprachmodellen. Die Kombination aus systematischer Quellenrecherche, Vergleichsanalysen und evidenzbasierter Argumentation erreicht damit eine neue Qualitätsstufe.
Ich habe zwar kostenpflichtige Tools getestet, doch auch die kostenlose Version von ChatGPT bietet aktuell einige Deep-Research-Anfragen. Dadurch wird diese Technologie leichter zugänglich. Für den Einstieg in ein Thema oder eine erste wissenschaftliche Orientierung sind diese Tools bereits jetzt sehr wertvoll.
Was die drei Tools unterscheidet
Die Unterschiede zwischen den drei Tools waren aufschlussreich und spiegelten ihre jeweiligen Herangehensweisen wider. Die Ergebnisse von ChatGPT waren gut strukturiert, blieben aber manchmal an der Oberfläche der theoretischen Durchdringung.
Gemini erwies sich als umfassendster Datensammler. Das ist kein Wunder. Schließlich ist Gemini ein Produkt von Google. Bei der Internetrecherche lieferte Gemini in vielen Fällen die meisten Ergebnisse. Die Analysen waren hochstrukturiert und detailliert, tendierten aber zu einer sehr technischen Darstellung.
Claude hingegen zeichnete sich durch besondere Benutzerfreundlichkeit aus. Die Ergebnisse waren am verständlichsten aufbereitet und übersichtlich strukturiert. Dabei blieb Claude reflexiv und vorsichtig in seinen Bewertungen.
Die bemerkenswerte Übereinstimmung in den Ergebnissen
Am meisten faszinierte mich die inhaltliche Übereinstimmung der drei Systeme. Obwohl jedes Tool unterschiedliche wissenschaftliche Quellen identifizierte – etwa 84 % der gefundenen Artikel waren einzigartig –, zeigten die Vergleichstabellen eine bemerkenswerte Übereinstimmung in den Kernaussagen.
Alle drei Tools kamen zu denselben methodischen Empfehlungen: Die Selbstbestimmungstheorie wurde durchgängig als geeigneter Evaluationsrahmen für KI-gestützte Lernumgebungen identifiziert. In den Synthesetexten betonten alle Systeme die Überlegenheit von Mensch-KI-Hybridsystemen gegenüber rein autonomen Ansätzen. Diese inhaltliche Einigkeit bei unterschiedlichen Quellengrundlagen war überraschend und hat mich auch nachdenklich gestimmt.
Denn diese Einigkeit wirft Fragen auf: Liefern alle drei KI-Systeme ähnliche Antworten, weil die Evidenz eindeutig ist – oder weil sie alle auf ähnlichen Trainingsdaten basieren? Bewegen wir uns möglicherweise in einer „Echo-Kammer” ähnlicher Forschungsansätze?
Deep Research jenseits der Wissenschaft
Besonders erfreulich an Deep Research ist für mich, dass ich es nicht nur für wissenschaftliche Fragestellungen nutzen kann. Diese universelle Anwendbarkeit zeigt sich in den unterschiedlichsten Lebensbereichen. Kürzlich habe ich Deep Research genutzt, um die optimal passende Auflaufform für meine Heißluftfritteuse zu finden. Das System recherchierte systematisch, welche Maße passen, wie die Kundenrezensionen ausfallen, was an meinen Wohnort geliefert werden kann, verglich Kosten und Liefergebühren und gab zusätzliche Tipps.
Dieses alltägliche Beispiel verdeutlicht eine zentrale Erkenntnis: Deep Research kann unsere Informationsbeschaffung grundlegend verändern. Ob wissenschaftliche Literaturrecherche, Benchmarking, Produktvergleiche oder Marktanalysen – die Qualität und Tiefe der Ergebnisse erreichen durch diese Funktion eine neue Dimension. Dadurch werden sich traditionelle Suchmaschinen und Vergleichsseiten verändern.
Deep Research in der Lehre
Heute empfehle ich meinen Studierenden einen kombinierten Ansatz, nämlich zunächst Deep Research-Tools für die erste Orientierung sowie traditionelle Datenbanken für die vertiefende Recherche und kritische Quellenprüfung als konstante Begleitung.
Die Integration von Deep Research in meine Lehre hat mir gezeigt, dass technologische Transformation nicht bedeutet, bewährte Methoden zu verwerfen, sondern sie sinnvoll zu ergänzen. Die wichtigste Erkenntnis ist, dass wir unsere Studierenden nicht vor diesen Tools „beschützen” müssen, sondern ihnen beibringen sollten, sie reflektiert und kritisch zu nutzen.
Das erfordert von uns Lehrenden, dass wir selbst zu kompetenten Nutzenden werden. Experimentiere daher mit Deep Research – ob für wissenschaftliche Projekte oder private Recherchen. Nur so kannst du verstehen und bewerten, womit deine Studierenden arbeiten.
Den dazugehörigen Screencast, in dem ich die drei Tools live vergleiche, findest du zu Beginn dieses Beitrags. Es ist mein erster Videoversuch für diesen Blog. Ich würde mich freuen, von dir zu erfahren, ob du diese Art von Beitrag als nützlich empfindest und ob ich weitere KI-Nutzungsbeispiele in Videoform teilen soll.
Meine LinkedIn Beiträge
Die folgenden LinkedIn-Beiträge habe ich seit dem letzten Newsletter veröffentlicht und sind auch ohne LinkedIn-Mitgliedschaft frei zugänglich:
Die Auswirkungen von ChatGPT auf die Lernleistung
Wie wirkt sich ChatGPT auf Lernleistung, Motivation und Denkfähigkeit aus? Die Metastudie von Wang und Fan (2025) liefert bemerkenswerte Ergebnisse zur Wirksamkeit von KI im Bildungsbereich.
KI & Lernen: Den Hype verstehen
Wie verändert KI unser Lernen wirklich? Eine neue Studie von Bauer et al. (2025) zeigt: Der Hype um KI-Tools überschattet oft die wissenschaftlichen Fakten. Die Forschenden schlagen das ISAR-Modell vor, um zu verstehen, wie KI Lernprozesse im Vergleich zu traditionellen Methoden beeinflusst.
KI-Leitfaden – Prüfen & Bewerten
Wie können wir Prüfungen in Zeiten von KI fair, kompetent und zukunftsorientiert gestalten? Der neue KI-Leitfaden von Joscha Falck und Manuel Flick zum Thema "Prüfen & Bewerten" liefert Lehrenden dazu praxisnahe Ansätze.
Share this post