Erfahrungsbericht: KI & ChatGPT in Qualitativer Forschung

KI – ein neues Werkzeug in der Qualitativen Forschung

Qualitative Forschung ist herausfordernd. Forschende müssen eine geeignete Forschungsfrage entwickeln, das notwendige Datenmaterial auswählen und sammeln. Danach brauchen sie eine Strategie, um die Daten auszuwerten, müssen diese Strategie verstehen und korrekt umsetzen. Schließlich müssen sie die Ergebnisse aufbereiten, interpretieren und ggf. verteidigen.

Seit Jahrzehnten erhalten Forschende Unterstützung in jedem dieser Bereiche. Diese Unterstützung kommt aus der Forschungsliteratur und Methodenanleitungen, aus dem Austausch in Forschungswerkstätten, der Betreuung durch Experten und dem peer review. Auch Werkzeuge wie Stift und Papier oder QDA-Software helfen dabei. Diese Unterstützung sorgt dafür, dass die Arbeitsprozesse in der qualitativen Forschung klar geregelt, transparent und vielfach einfacher durchzuführen sind. Zu diesen Werkzeugen gesellt sich nun potenziell Künstliche Intelligenz (KI). In diesem Artikel beschreiben wir, wie wir die aktuelle Rolle von KI erfahren und welche Probleme sie im Rahmen qualitativer Forschung lösen kann. Dies ist eine Momentaufnahme aus Juni 2024.

KI löst ein Problem durch automatische Transkription

Unser Kernbeitrag zur qualitativen Forschung ist seit 20 Jahren die Unterstützung der Transkriptionsphase. Sowohl durch methodische Anleitungen (bspw.: https://www.audiotranskription.de/regeln/), als auch durch die Bereitstellung von Transkriptionssoftware und USB-Fußschaltern. Die f4 Programme gibt es seit 2005 mit über 1 Million downloads. Zusammen mit unseren Transkriptionsregeln sind diese fester Bestandteil der qualitativen Forschung und Methodenlehre an deutschsprachigen Hochschulen.

KI haben wir 2019 mit der automatischen Spracherkennung f4x in unser Angebot aufgenommen. Vor allem seit 2022 sehen wir anhand der Nutzungszahlen, dass der Einsatz von KI etablierte Nutzungsgewohnheiten qualitativer Forschung an Hochschulen fundamental beeinflusst und verändert. Es gibt rund 100.000 f4x Nutzende, hauptsächlich aus dem Hochschulbereich, die viele hunderttausende Stunden Material automatisiert umgesetzt haben (Stand 05/2024). Gleichzeitig sinkt die Akzeptanz für und Nutzung von manueller Transkription. Verständlich, denn automatische Transkription spart rund 50% der Arbeitszeit gegenüber der manuellen Tipparbeit ein. Dadurch werden viele Arbeitszeitstunden an Hochschulen frei, können anders genutzt werden oder ermöglicht überhaupt erst bestimmte Projekte anzugehen.

Die Art und Weise wie Forschende ihre Interviewdaten transkribieren, hat sich durch KI in den letzten 2 Jahren substanziell verändert. Warum? Während andere KIs wie PI.ai und ChatGPT sehr breit darauf ausgelegt sind, über verschiedenste Textinhalte zu chatten und damit eine potentiell große Bandbreite an Aufgaben übernehmen zu können, ist Transkriptions-KI sehr speziell dafür entwickelt, “nur” Audio/Video in Text umzusetzen. Obwohl auch in der Transkription viele interpretative und analytische Prozesse drinstecken (das haben im Artikel “Warum Transkripte nie ‘richtig’ sind” genauer beschrieben), geht es zumeist oder zunächst um die Darstellung des semantischen Inhaltes. Und dieser kann eindeutig überprüft und bewertet werden. Fehler der KI sind durch Korrekturlesen identifizier- und korrigierbar. Durch Anhören der Aufnahme und gleichzeitigem Korrekturlesen des Transkriptes lassen sich die Stellen identifizieren, bei denen ein Wort fehlt oder falsch platziert wurde. Auch Zuordnungen falsch erkannter Sprechender lassen sich identifizieren und anpassen. Und Passagen, bei denen KI ein blackout hatte und nichts erkannt oder fabuliert wurde, sind gut manuell nachzubessern, indem selbst gehört und getippt wird. Ein durch Spracherkennung erzeugtes und danach aufmerksam korrigiertes Transkript liefert eine solide Grundlage für die qualitative Datenanalyse, bei reduziertem Arbeitsaufwand.

Die Sinnhaftigkeit des Einsatzes von KI für die Spracherkennung ist damit in vielen Kontexten deutlich sichtbar und gegeben. KI löst ein existentes Problem zufriedenstellend: KI erleichtert die Aufbereitung wissenschaftlicher Transkripte, weil es plausible und überprüfbare Ergebnisse von zuvor nur manuell zu bewerkstelligender Arbeitsleistungen bietet, die insgesamt weniger Zeit binden, um zum gleichwertig “guten” Datenmaterial zu kommen.

Welche Probleme löst KI  in der Qualitativen Analyse?

Was liegt nun näher, als der Gedanke, das KI auch weitere Arbeitsteile qualitativer Forschung vereinfachen und beschleunigen könnte, wie bspw. den der Leitfadenentwicklung, Datenerhebung und den äußerst anspruchsvollen Prozess der Datenauswertung und Ergebnisdarstellung? Welche Problemstellungen könnte hier KI nun lösen? Dafür kann man sich anschauen, was es bereits an technischen Lösungen gibt, die als KI-Funktion für qualitativ Forschende angeboten werden. In Tools wie chatGPT, MAXQDA AIAssist, Atlas.ti, Ludra und anderen sehen wir Angebote in drei Bereichen:

  • KI als Text-Generator. KI kann Textzusammenfassungen und Bildbeschreibungen generieren. Auch andere deskriptive Arbeiten, wie eine Paraphrasierung oder eine formulierende Interpretation kann man per KI erzeugen lassen. Auch lassen sich Vorschläge für Leitfadenfragen und Hinweise zum Zugang zum Feld und den ProbandInnen erzeugen.
  • KI als Codier-Maschine. KI kann auf Basis einer gegebenen Textauswahl Vorschläge zu gefundenen Themen und Gliederungsüberschriften geben. Es kann zu vorgegebenen Themen Textstellen identifizieren und versuchen diese zuzuordnen.
  • KI als Sparing-Partner. Chat-KI kann darüber hinaus als Gesprächspartner fungieren um gemeinsam über zur Verfügung gestellte Textinhalte/Bilder zu sprechen und Fragen an das Material zu stellen. Hierzu schreiben wir hier.

Die letzten Wochen haben wir damit verbracht, z.B. mit chatGPT-4o zu experimentieren und vielfältige Tests durchzuführen. Es machte uns persönlich unheimlich viel Freude, mit KI zu spielen und unsere eigenen Erkenntnisse mit KI zu diskutieren. Die Ergebnisse sind auf den ersten Blick häufig erstaunlich. Das alles läuft auf einer spielerischen, experimentellen Ebene. Vieles erscheint auf dem ersten Blick direkt präsentabel, manchmal auch beeindruckend eloquent und die Geschwindigkeit mit der dies geschieht ist beeindruckend.

KI löst KEIN Problem durch automatische Analyse

Kann man einfach Material hochladen und durch einige wenige Fragen an ChatGPT eine einigermaßen sinnvolle Analyse erhalten? Das haben wir mit vorhandenem Material getestet. Wir haben lange damit verbracht, Prompts umzuformulieren und zu präzisieren, uns bekanntes Material auszuwerten zu lassen und mit den vorhandenen, selbst erstellten Analysen zu vergleichen. Hierzu haben wir von ChatGPT Zusammenfassungen und Themenidentifikationen erstellen lassen.

Die gute Illusion des plausiblen Ergebnis ist das Problem!

Wir haben bei nahezu allen Zusammenfassungen und Themenidentifikationen von unterschiedlichsten KIs (auch dem neuen GPT 4o) immer Ausfälle und Fehler erlebt:

  • Textstellen aus dem Material wurden ignoriert
  • Zitate wurden erfunden oder falsch referenziert
  • Die Ergebnisse wurden nur für Teile des Materials erstellt oder waren an sich unvollständig
  • Missinterpretationen unserer Anfragen und Aufhänger
  • Bin ich nur zu blöd den prompt richtig zu formulieren? Komm ich probiere es nochmal (ein paar Stunden, Tage …)

Diese Experimente waren stets begleitet von Euphorie und Hoffnungen. Der Eindruck “oh wir sind sooo nah dran…” wurde stets abgelöst von der Erkenntnis, dass da dann doch noch etwas fehlt, ein Artefakt sich einschleicht oder das Material nicht komplett berücksichtigt wurde. Manchmal war schlicht die zu berücksichtigende Materialmenge zu viel für die KI – ohne dass wir hierzu eine Rückmeldung erhalten haben. Die Ergebnisse wurden stets so präsentiert als sei alles in Ordnung. Und das schon bei einer typischen Menge von Datensätzen qualitativer Studien (bspw. 200 Kurzfragebögen mit offenen Antworten oder 10 Kurzinterviews a 2-4 DINA4 Seiten).

Das häufig diskutierte Prompt Engineering, also das Gestalten von “guten” Anfragen an die KI wird vielfach als wichtiges Werkzeug für erfolgreiche Ergebnisse genannt. Das ist prinzipiell richtig, denn   unpräzise Anfragen führen zu unpräzisen Ergebnissen. Auch hier hat das “Prinzip Hoffnung” lange experimentieren lassen. Doch auch geeignete Tricks, wie vorgefertigte Modelle in GPT oder die Nutzung von “Mega-Prompts” (Prompts mit Hilfe der KI generieren) und der intensiven Verfeinerungsarbeit haben fehlerhafte oder lückenhafte Ergebnis geliefert. Ein wenig wie die Stecknadel im Heuhaufen, die man zu suchen erhofft ohne je zu Wissen: Ist das ausreichend, geht es besser. Die Überprüfung der Ergebnisse gelang nur durch akribisches selbst codieren und nachzählen von Zitaten und Überprüfung wirklich jeder dargebotenen Quellenangabe. Häufig konnten wir dadurch erst sehen, dass die Ergebnisse der KI fehlerhaft sind und etwas entscheidendes Vergessen wurde.

Und so wird es aktuell allen gehen, die KI für die Auswertung nutzen wollen. Man wird mit Fragen konfrontiert, wie Prompts angemessen formuliert, wie die Ergebnis der KI bewertet werden oder ob eine automatisch erstellte Zuordnung von Textstellen zu einem Themen erschöpfend ist. Die Überprüfungsarbeit sehen wir um ein vielfaches aufwändiger, als die direkte manuelle Analyse. Die Bewertung und Überprüfung eine KI-generierten Analyse erfordert analytische Arbeit, Fähigkeiten, Wissen, Zeit, Geduld und ist in dem Sinne auch auch wieder eine analytische Zusatzarbeit. Der vermeintliche Zeitvorteil existiert für uns daher im Rahmen wissenschaftlicher Projekte qualitativer Forschung nicht. Für andere Ansprüche in anderen Anwendungskontexten mag man dies anders bewerten (zB. bei einem “mir reicht es pi mal Daumen”). Unser Fazit: In einem echten Forschungsprojekt geht KI basierte Auswertung und massive Zeitersparnis im Analyseprozess (noch) nicht “einfach so per KlIck”.

KI als experimentelles Werkzeug für erfahrene Forschende

KI ist und bleibt dennoch total spannend und wir freuen uns im Laufe der Zeit zu sehen, wie hiermit im Rahmen von Forschungsprojekten experimentiert wird. Es handelt sich jedoch – ohne despektierlichen Unterton – um experimentelle Funktionen. Es sind Funktionen, die erfahrenen Personen ein Experimentierfeld geben, um die Möglichkeiten von KI auszuloten und ggf. darüber zu berichten. Personen mit Erfahrung in qualitativer Forschung können die Ergebnisse einschätzen. Sie haben Vergleichsmöglichkeiten, Erfahrungswissen und gewisse Kriterien mit denen sie die Ergebnisse und deren “Brauchbarkeit” im jeweiligen Forschungsfeld bewerten können. Diejenigen, die bereits Vorerfahrungen mitbringen, die ihr Material und Perspektiven kennen und Interesse am Experimentieren haben, finden in den KI Tools spannende Werkzeuge, bei denen es sich lohnt, die weitere Entwicklung zu verfolgen. KI wird dann erfolgreich und flächendeckend eingesetzt, wenn sie ein vorhandenes Problem zufriedenstellend lösen kann. Und das tut sie vor allem dann, wenn die Teilergebnisse KI unterstützter Arbeitsphasen ein hohes Maß an Plausibilität haben, treffsicher und einfach überprüfbar sind. Das ist aktuell nicht der Fall.

Offene Frage Datenschutz

Das Thema Datenschutz haben wir bisher augelassen, obwohl es auch hier schon fundamentale Einwände zum Einsatz von KI gibt. Zumindest im Umgang mit Interviews haben wir in Europa eine eindeutige Gesetzesgrundlage: die Datenschutzgrundverordnung. Diese regelt, wie wir mit den Daten umgehen dürfen und was nicht erlaubt ist. Ein Aspekt ist dabei, dass sofern keine explizit schriftlich festgehaltene Erlaubnis dafür besteht, die Interviewdaten nicht den Geltungsbereich des Gesetzes verlassen dürfen. Möchte jemand z.B. OpenAi Chat-GPT Tool oder MAXQDA AIAssist nutzen, so werden häufig Daten ausserhalb der EU transferiert. Dies ist bei Interviewdaten in der Regel untersagt. Dies gilt es sehr kritisch zu prüfen – jede Hochschule hat dazu gemeinsam mit dem/der jeweiligen Datenschutzbeauftragten abgestimmte Positionen entwickelt, die man erfragen oder erbitten sollte. An manchen Hochschulen gibt es diesbezüglich sogar Verbote zum Einsatz dieser Tools. Eine ausführliche Darstellung der Problematik finden sie unter: https://sozmethode.hypotheses.org/2365

KI hilft als Sparingspartner

Die bisher beste und datenschutzrechtlich unkritischste Unterstützung im Forschungsprozess haben wir durch die Nutzung von ChatGPT als Gesprächspartner erzielt. Mit ChatGPT-4 haben wir Fragen oder Ideen zu unserem Material diskutiert, ohne die eigentlichen Forschungsdaten preiszugeben. Dabei wurden keine konkreten Namen, Orte oder andere spezifische Personenbezüge übermittelt. Im Prinzip nutzten wir ChatGPT als Sparring-Partner, den wir um Rat fragten oder mit dem wir unsere Ideen diskutierten, ähnlich wie in einer Interpretationswerkstatt. Diese Methode hat sich als wertvoll erwiesen, um unsere eigenen Ideen und Erkenntnisse zu formulieren, zu konkretisieren und neue Vorschläge zu Theoriebezügen zu erhalten.

Konkretes Vorgehen

Der erste Analyseschritt wurde vollständig ohne KI durchgeführt. Für diesen Test haben wir ein Projekt zum Thema „Wohnen in WGs“ ausgewählt, in das wir bereits etwas eingearbeitet waren. Wir hatten das Material vollständig gelesen und Memos zu den einzelnen Absätzen gemacht, in denen wir die Aussagen hinterfragten (“Was geschieht in diesem Satz?” und andere “W-Fragen”). Dabei suchten wir nach passenden Oberthemen und wiesen diesen bereits erste Textstellen zu. Der codierte und mit Memos versehene Originaltext war in f4analyse geöffnet.

Nun kam GPT dazu. Wir öffneten ein separates Browserfenster mit ChatGPT-4. Ein zentrales Thema, das wir in unserem Material zuvor manuell identifiziert hatten, war der „Übergang“ (von “zu Hause wohnen” zu “selbstständig wohnen”). Um herauszufinden, in welchen Forschungskontexten sonst noch über “Übergänge” geforscht wird, nutzten wir ChatGPT zur Informationsbeschaffung. Es konnte uns wertvolle Hinweise auf weitere relevante Quellen und Referenzen geben. Besonders die Grundlagenwerke wurden gut wiedergegeben. Weniger populäre Quellen oder Artikel zu spezifischen Themen waren jedoch oft nicht auffindbar und teilweise offensichtlich erfunden. Dennoch waren die Hinweise ausreichend inspirierend für unsere eigene weitere Recherche.

Für unser Thema identifizierten wir manuell einige Merkmale im Material (z.B. “zeitliche und örtliche Abgrenzung”) und baten ChatGPT um Vorschläge für weitere mögliche Merkmale. Die erhaltene Liste war teilweise absurd und sehr lang, dennoch fanden wir auch passende und stimmige Vorschläge. So wurden wir darauf hingewiesen, dass Übergänge stets auch von Prozessen der Resilienzentwicklung begleitet sind. Dies konnten wir im Material sehr gut wiedererkennen. Die entsprechenden Passagen hatten wir zuvor bereits als „interessant/auffällig“ markiert, aber noch keine genauere Beschreibung dafür gefunden. Beispielsweise gab es viele negative Bewertungen zusammen mit Floskeln wie “ach, ja, aber geht schon irgendwie”. Das Schlagwort “Resilienz” durch ChatGPT gab uns hier den passenden Hinweis, dass diese Aussagen als Signale kognitiver Anpassungsstrategien zu werten sein könnten. Aufbauend auf diesen Hinweis konnten wir dann weitere Arten von Anpassung im Material identifizieren.

Ein unerwartet positiver Effekt war, dass Missverständnisse mit ChatGPT uns dazu zwangen, unsere Anfragen erneut zu stellen, dabei aber weiter zu präzisieren und genauer zu erklären, welche Art von Antwort wir benötigten. Dies führte oft zu klärenden Fragen wie: “Nein, das ist zu ungenau, wir benötigen einen Begriff, der…” oder “Nein, die Antwort sollte einen Bezug haben zu…” Dadurch mussten wir unsere eigenen Ideen und die Beschreibung des Themas schärfen. Die Anforderung, immer wieder auch Fragen anzupassen, hat dabei geholfen, unsere eigene Position präziser zu formulieren.

Nachdem wir erste Beschreibungen für verschiedene Themen ausformuliert hatten, übergaben wir diese an ChatGPT mit der Bitte, logische Lücken, unbelegte Thesen und Fehlstellen zu identifizieren. ChatGPT hat hier eine längere Liste an Verbesserungsvorschlägen produziert. Viele davon haben wir als oberflächlich oder wenig hilfreich bewertet, z.B. “Versuche empirisch vorzugehen”. Dennoch tauchten immer wieder Themen auf, die gute Inspiration für die Weiterarbeit boten. Beispielsweise erhielten wir Hinweise auf weitere mögliche theoretische Bezüge zur Transitionsforschung, gleich schon mit entsprechenden Literaturhinweisen, die auch passten.

ChatGPT hilft als Sparingspartner

Die Nutzung von ChatGPT als Sparring-Partner unterscheidet sich deutlich von der Vorstellung, dass ChatGPT die Analyse vollständig übernimmt. Ein entscheidender Unterschied in dieser Herangehensweise ist unser aktives Engagement. Anstatt die Analyseergebnisse passiv von ChatGPT entgegenzunehmen, sind wir intensiv im Analyseprozess involviert. Dies bedeutet, dass wir uns kontinuierlich mit dem Material auseinandersetzen, unsere Anfragen präzisieren und die Antworten von ChatGPT kritisch bewerten. Diese aktive Auseinandersetzung hat den Vorteil, dass wir unsere eigene Position stärken und unsere Argumentationsfähigkeit verbessern können.

Hierbei entsteht in unserer Erfahrung auch ein anderes Arbeitsgefühl mit weniger Frustration als beim Versuch, ChatGPT dazu zu bringen, eine korrekte Codierung oder gar Analyse zu liefern. Es war in diesem Setting als Sparring-Partner gar nicht nötig, dass GPTs Antworten durchweg korrekt oder präzise waren. Unkorrekte oder halluzinierte Antworten konnten wir recht schnell identifizieren und am Material prüfen. Gleichzeitig gab es “Aha”-Momente und Freude über gute Anregungen, die uns dann wieder ermöglichten, die eigenen Ideen und Erkenntnisse neu und ergänzend zu formulieren oder zu schärfen. Diese Methode hat sich für uns als äußerst produktiv und bereichernd erwiesen, da sie uns ermöglicht, die Kontrolle über den Analyseprozess zu behalten und gleichzeitig von den inspirierenden Vorschlägen der KI zu profitieren. Gerade die Schwäche der teilweise etwas abschweifenden Antworten erweist sich als Stärke, wenn es darum geht, Formulierungsideen zu generieren. Als Sparring-Partner eignet sich ChatGPT daher nach unserer Einschätzung sehr gut.

Dieses Vorgehen hat auf unser Beispielprojekt gut gepasst, da es hier um ein eher induktives Vorgehen handelt. Bei eher deduktiven, zusammenfassenden Verfahren wird dieser Vorteil nicht so deutlich werden.

ChatGPT hat datenschutzkonform geholfen bei:

  • Herstellen theoretischer Bezüge und Referenzen
  • Beschreiben von Phänomen
  • Schärfung der eigenen Position
  • Formulierung von Zusammenfassungen und Beschreibungen

 

Unser persönliches Fazit für die Weiterentwicklung:
f4 transkribiert automatisch und unterstützt weiterhin die manuelle Analysearbeit

Ja, da ist viel Potential und bei uns und vielen anderen ist die Entdeckerfreude und Spaß am Ausprobieren geweckt. Die Aufgabe der Transkription löst KI aus unserer Perspektive in vielen Fällen ganz ausgezeichnet und kann auch von Personen ohne großes Vorwissen und mit wenig Bezug zu qualitativer Forschung seriös eingesetzt werden.

Im qualitativen Analyseprozess hingegen wirft KI mehr Fragen auf, als dass sie konkrete Probleme zeitsparend zu lösen im Stande ist oder zentrale Arbeitsschritte grundlegend vereinfacht oder beschleunigt. Vor diesem Hintergrund haben alle, aber vor allem Neulinge im Feld qualitativer Forschung eine weitere Herausforderung, der sich zu stellen wäre. Die aufkommenden Fragen sind unbestritten wichtig und interessant, aber gerade für die Nutzung und Erklärbarkeit von Forschungsmethoden und unserer Software sehen wir hier schlicht kein plausible Erklärung, wie KI so eingesetzt werden kann, dass sie zeitlich eine Unterstützung ist, fundierte und belastbare Ergebnisse liefert und leicht vermittelbar wäre. Gerade mit Blick auf Menschen, die neu sind im Bereich qualitativer Forschung sehen wir eine gute Vermittlung von Methoden und eine einfach zugängliche Softwareunterstütung als angemessener. Daher hat f4 die automatische Spracherkennung fest implementiert und unterstützt die manuelle (und nicht KI basierte) Auswertung vorliegender Textdaten.

    Warenkorb
    Ihr Warenkorb ist leerZurück zum Shop
      Calculate Shipping