„Sag mir, was du weißt“ – Zur Validität von LLMs in der Wissenschaft

Die vorliegende Arbeit untersucht, inwiefern aktuelle Large Language Models (LLMs) in der Lage sind, kommunikationswissenschaftliche Forschungsstände valide zusammenzufassen. Hintergrund ist die zunehmende Integration generativer KI in wissenschaftliche Arbeitsprozesse, insbesondere bei der Erstellung von Textzusammenfassungen sowie in informellen Kontexten, etwa durch Studierende oder im Vorfeld wissenschaftlicher Arbeiten. Anhand von zwei thematisch verwandten, aber unterschiedlich etablierten Forschungsfeldern (Desinformation/Fake News und Deepfakes sowie deren Einfluss auf Medienvertrauen) wird überprüft, ob und in welchem Umfang LLMs relevante Inhalte korrekt, vollständig und kohärent wiedergeben.

Methodisch wurden qualitative, leitfadengestützte Experteninterviews mit fünf LLMs (ChatGPT und das von SiderAI erstellte GPT Scholar, Gemini, DeepSeek und Grok) geführt. Erhoben wurden jeweils Zero-Shot-Zusammenfassungen auf Basis der internen Trainingsdaten sowie Antworten auf gezielte Nachfragen. Diese wurden mit einem zuvor manuell literarisch erarbeiteten Forschungsstand verglichen. Bewertet wurden u. a. Richtigkeit, Relevanz, Kohärenz, argumentative Logik sowie die Integration und Qualität der angegebenen Quellen.

Die Ergebnisse zeigen deutliche Leistungsunterschiede zwischen den Modellen: Während einzelne Passagen inhaltlich präzise und stilistisch überzeugend waren, traten bei allen untersuchten LLMs wiederholt Schwächen wie Halluzinationen, begrenzte Kontexttiefe, Auslassungen relevanter Aspekte, fehlerhafte Quellenangaben und stilistische Mängel auf. Die Modelle unterschieden sich insbesondere in der Gewichtung einzelner Themen, im Umfang der abgedeckten Aspekte, in der Stringenz der Argumentationsführung sowie in der Art und Konsistenz der Quellennutzung. Trotz bestehender Leistungsunterschiede zwischen den Modellen und in den verschiedenen Kategorien sind in der Gesamtbetrachtung alle Modelle deutlich hinter wissenschaftlichen Anforderungen und Standards zurückgeblieben. Auffällig ist zudem, dass etablierte Forschungsfelder (Desinformation/Fake News) tendenziell vollständiger und kohärenter dargestellt wurden als junge Forschungsfelder (Deepfakes), was auf den Einfluss der verfügbaren Trainingsdaten hinweist.

Die Untersuchung verdeutlicht, dass LLMs Potenzial als Assistenzwerkzeuge in der kommunikationswissenschaftlichen Forschung besitzen, aktuell jedoch nicht ohne kritische Nachkontrolle und menschliche Expertise eingesetzt werden sollten. Die Arbeit leistet damit einen Beitrag zur disziplinbezogenen Bewertung von LLMs, eröffnet Vergleichsperspektiven zwischen Modellen und Themenfeldern und liefert praxisrelevante Hinweise für ihren verantwortungsvollen Einsatz in Wissenschaft, Bildung und gesellschaftlicher Informationsvermittlung sowie für anknüpfende Forschung.