Interviews & DSGVO, KI und qualitative Analyse

DSGVO-konforme, hybride Interpretation

15. Mai 2025 20 minutes Lesezeit

DSGVO-konforme, hybride Interpretation

Ein Werkstattbericht zum lokalen Interpretieren mit vier LLMs auf einem MacBook Pro mit Gemma 3, Qwen 3, Mistral 3.1 und Llama 3.3

von Dr. Thorsten Dresing, 15. Mai 2025

1. KI & Qualitative Forschung – Datenschutz ade?

Als qualitativ Forschender und Mitautor des Papers „Hybride Interpretation textbasierter Daten mit dialogisch integrierten LLMs“ (Krähnke, Pehl & Dresing, 2025) sehe ich  das Potenzial von Large Language Models (LLMs) als zusätzliche „Sparringspartner“ im Interpretationsprozess. Interessante Textstellen lassen sich damit nicht mehr nur allein oder in der klassischen Interpretationsgruppe, sondern im dialogischen Austausch mit mehreren LLMs erschließen. Die bekannten Cloud-Dienste wie Gemini, ChatGPT, Claude und andere eröffnen eine vielversprechende heuristische Erweiterung und sind leicht und oft kostenfrei zugänglich.

Doch dieser Enthusiasmus wird seit der ersten Stunde durch eine zentrale Hürde getrübt: dem Datenschutz. Für alle großen Anbieter müssen Daten an Server außerhalb des EU-Geltungsbereichs übertragen werden. Selbst bei Diensten innerhalb der EU kommen häufig Cloud-Infrastrukturen amerikanischer Unternehmen zum Einsatz, die aufgrund von Gesetzgebungen wie dem US Cloud Act zumindest ein großes Fragezeichen hinter die DSGVO-Konformität setzen. Interviewausschnitte oder andere sensible Forschungsdaten ohne individualisierte Auftragsdatenverarbeitung auf externe Server außerhalb des Geltungsbereiches der DSGVO oder unklarer Gesetzeslage zu schicken, ist für Forschende nicht nur ein ethisches No-Go, sondern wäre im schlimmsten Fall eine Straftat. Das ist ein nicht gerade triviales Dilemma: Der große Raum der Möglichkeiten und der wissenschaftlichen Neugier und für einige Fragestellungen auch der des Zeitvorteils darf nicht ohne Weiteres betreten werden, sofern die Daten dem Datenschutz unterworfen sind.

Diese Diskrepanz wollte ich nicht hinnehmen. Meine Leitfrage lautete: Lässt sich eine hybride Interpretation vollständig lokal – unter Wahrung des Datenschutzes – realisieren? Daraus ergab sich eine grundlegende Herausforderung: Wie lassen sich nicht nur eines, sondern gleich drei oder vier verschiedene, leistungsfähige LLMs auf einem handelsüblichen (wenn auch sehr guten) Rechner installieren und sinnvoll betreiben? Welche LLMs sind überhaupt kostenfrei verfügbar und wo bekommt man solche Modelle her und inwieweit eignen sie sich speziell für das hybride Interpretieren? Und weiter: was kostet die notwendige Hardware? Und vor allem: Lohnt sich der ganze Aufwand? Ist es Stand Mai 2025 möglich, verschiedene LLMs datenschutzkonform für das hybride Interpretieren einzusetzen, ohne auf Differenziertheit und Tiefe der Antworten im Vergleich zur Nutzung von großen online LLMs wie chatGPT verzichten zu müssen? Was zunächst als klares „Vergiss es, das geht nie“ erschien, wurde nach und nach zu einem „Oh, so könnte es gehen“ bis hin zur finalen E-Mail an meine Kollegen am 9. Mai 2025: „Ich hab es geschafft :)“.

Die Herausforderung bestand darin, bezahlbare Hardware mit möglichst großer Leistung zu finden und gleichzeitig zu evaluieren, welches die bestmöglichen, kompetentesten, aber gleichzeitig kostenfreien Open-Source-LLMs sind, die auf der gewählten Rechnerkonfiguration sinnvoll genutzt werden können. Und wenn beides gefunden ist, dann zu prüfen, ob die Ergebnisse beim hybriden Interpretieren brauchbar und vergleichbar mit den großen kommerziellen Modellen sind.

Ich werde im Folgenden mein technisches Setup vorstellen und erläutern, nach welchen Kriterien ich welche LLMs getestet und ausgewählt habe, wie ich diese dann nutze und teile schließlich Beobachtungen aus insgesamt vierzehn Interpretationsverläufen exemplarisch – beispielsweise zu spezifischen Charakteristika der unterschiedlichen LLMs, wie sie sich ergänzen und dass die Reihenfolge ihres Einsatzes eine Rolle spielt, aber auch, wo die Grenzen des gewählten Setups bei umfangreichen Aufgabenstellungen liegen.

2. Technisches Rüstzeug – LLMs lokal auf dem MacBook Pro: geht das überhaupt (gut)?

Moderne LLMs sind rechenintensiv. Die großen, bekannten Modelle wie ChatGPT, Claude oder Gemini laufen niemals auf handelsüblichen Rechnern, sondern nur auf spezialisierter NVIDIA-Hardware, bei der allein eine H100 GPU-Karte rund 30.000 Euro kosten kann – und oft werden mehrere davon benötigt. Die Größe der Modelle wird zumeist in Form einer Parameterzahl angegeben. Dies sind Informationspunkte in einem gigantischen Netzwerk, welches bei Anfragen potentiell berücksichtigt werden muss. Je mehr Parameter, desto mehr Rechenleistung (idealerweise von GPUs) und schnellen Arbeitsspeicher (RAM) benötigt das LLM. Schätzungen zufolge haben die Flaggschiff-Modelle über 1.000 Milliarden Parameter. Das geht also nicht, weil nicht auf einem Notebook lauffähig und zudem nicht opensource.

Hardware – Macbook Pro M3 Max 48GB RAM

Zuerst das Ei (LLM) oder die Henne (Rechner) auswählen? Ich habe mit der Henne gestartet, also zu schauen, welche Hardware vermutlich mindestens benötigt wird. Dabei habe ich gleichzeitig versucht mein Budget nicht zu sehr zu strapazieren. Entscheidend bei meiner Suche war die wichtigste Größe von allen, und da führt kein Weg dran vorbei: so viel Arbeitsspeicher (nicht Festplattenspeicher!) wie möglich. Je größer dieser ist, desto größer kann das genutzte LLM sein, also desto mehr Parameter darf dieses haben. Opensource LLMs gibt es bereit mit “nur” 1 Milliarde Parametern, bis hin zu den größten wie Llama 3 mit 405 Milliarden. Und das hat den bedeutendsten Einfluss auf die Qualität des LLM-Outputs. Ganz grob pi mal Daumen kann man die Parameter des Modells mit der Menge an Speicher aufeinander beziehen. Ein Mittelklasse LLM mit 30 Milliarden Parameter Modell wird etwa 30GB an freiem Arbeitsspeicher benötigen. Viele Notebooks haben heute 8 GB oder 16 GB; aber selbst 32 GB wären zu wenig für ein 30B Modell, denn Betriebssystem und weiteres brauchen auch Ressourcen. Es muss also mehr sein. Der größte Arbeitsspeicher der aktuell kaufbar ist liegt in Notebooks bei 64 GB und ganz selten 128 GB RAM. Diese sind allerdings sehr teuer, oft 5.000 Euro und mehr. Meine Lösungsidee lag dazwischen: Ein „Auslaufmodell“ bot mir das beste Preis-/Leistungsverhältnis.Meine Wahl fiel auf ein MacBook Pro mit M3 Max Prozessor (16-Kern-CPU, 40-Kern-GPU) und 48 GB RAM, erworben für 2.715 Euro inkl. MwSt. als Rückläufer bei Notebooksbilliger.de. Die Leistung und der Speicherumfang sind für das weiter unten beschriebene Setting genau passend und durch die Tests habe ich zudem herausgefunden, dass mehr RAM für dieses Setup nicht zwingend nötig (aber möglich) ist, weniger RAM hingegen sinnvolles hybrides Interpretieren verhindert, weil aus den kleineren Modellen, oft weniger Sinnvolles und manchmal auch ziemlicher Quatsch rauskommt. Es zeigte sich jedoch auch, dass selbst diese 48 GB RAM an ihre Grenzen stoßen, wenn es um die Verarbeitung sehr großer Eingabeprompts geht, die beispielsweise mehrere vollständige Interviewtranskripte für eine übergreifende Analyse umfassen sollen (worum es in diesem Werkstattbericht aber nicht gehen soll). Mehr oder weniger GPU und CPU Kerne machen Berechnungsprozesse schneller oder langsamer, mehr RAM macht sie überhaupt möglich. Also kauft nicht unter 48GB für ein Setup, das dem hier beschriebenen ähnelt. Für ambitioniertere Projekte, die regelmäßig sehr große Kontextfenster (weil bspw. 10 Interviews zusammengefasst werden sollen) erfordern, ist eine Investition in Systeme mit noch deutlich mehr Arbeitsspeicher (z.B. Mac Studio M3 Ultra mit 24CPU 60GPU und 96 GB oder mehr) notwendig werden.

Software – LM Studio

Ok, jetzt hab ich den Rechner, aber wie bekomme ich da ein LLM drauf? Der einfachste Weg: eine Software verwenden, die umfangreiche Auswahllisten verfügbarer LLMs (primär im GGUF-Format) zeigt, die dann geladen und installiert werden können. Zudem war mir eine Benutzeroberfläche wichtig, die denen von ChatGPT in der Weboberfläche sehr ähnelt, denn damit kenne ich mich mittlerweile aus. All das habe ich bei der kostenfreien Software LM Studio (für Windows und Mac) gefunden. Diese bietet eine intuitive Benutzeroberfläche und erleichtert die Suche, den Download und die Nutzung verschiedener LLMs wesentlich. Wichtig ist, dass LM Studio die Rechenlast flexibel zwischen CPU und GPU verteilen kann und somit die vorhandenen Ressourcen optimal nutzt. Ich habe in den Tests zudem die Erfahrung gemacht, dass eine Reihe von Einstellungen in LM Studio dafür sorgen, dass alles etwas schneller geht oder überhaupt läuft:

  • GPU-Offload maximieren: Die Modell-Layer wurden so weit wie möglich auf die leistungsstarke 40-Kern-GPU ausgelagert.
  • CPU-Threads effizient zuweisen: Auch hier habe ich zumeist auf Maximum gestellt, wobei ich bei Fehlfunktionen dann ein wenig reduzierte, was oft das Problem löste.
  • Kontextfenster (n_ctx): Mit ca. 7.500 – 15.000 Token konnten auch tiefere Konversationen geführt werden. Das reicht für ein paar Interpretationsrunden bei kurzen Textausschnitten als Ausgangsmaterial, aber nicht für Zusammenfassungen vieler Interviews oder die gleichzeitige Analyse mehrerer längerer Dokumente in einem einzigen Prompt, was hier ja auch nicht das primäre Ziel der Erprobung war. Spätere Tests zeigten, dass z.B. ein Prompt mit 13.500 Token (der auch fünf Kurzinterviews enthielt) das Llama 3.3 70B q3_K_XL Modell im hiesigen Setup bereits überforderte und keine Verarbeitung mehr möglich war.
  • Hohe “Prompt Batch Size” (n_batch): Eine Erhöhung auf 4096 (statt Standard 512) Token, um auch lange Startprompts gut zu nutzen und die anfängliche Verarbeitungszeit zu reduzieren.
  • “Flash Attention” aktivieren: Wenn modellspezifisch verfügbar, zur Beschleunigung.
  • Grundlagen: Apples „Metal“-GPU-Beschleunigung war aktiv; „mmlock“ wurde für Stabilität bei hoher Auslastung aktiviert.
  • Umgang mit unerwünschten Textartefakten in LLM-Antworten: Gelegentlich fangen sich die LLM in einer Endlosschleife und produzieren dauert erneut den ganzen Output. Dies wird sichtbar durch kleine Marker im Text, wie im_start-Tags oder das Wort “Assistent” (bzw. englisch “Assistant”) und darauf folgender, nicht intendierter Text. Zur Behebung dieses Verhaltens in den Einstellungen des geladenen Modells (oft im rechten Seitenbereich unter  “Stop Strings” o.ä. zu finden) und folgendes anpassen:
    • Stop Strings definieren: Fügen Sie die unerwünschten Artefakte (z.B. im_start, <|im_start|>, “Assistent”, “Assistant:”) explizit zur Liste der “Stop Strings” hinzu. Dadurch wird die Textgenerierung abgebrochen, sobald das Modell versucht, eines dieser Elemente auszugeben, was zu saubereren und präziseren Antworten führt.

LLMs – Qwen3, Gemma3, Mistral 3.1 und Llama 3.3

Die Methode der hybriden Interpretation (Krähnke, Pehl & Dresing, 2025) lebt von Multiperspektivität. Ich wollte daher nicht das eine perfekte Modell, sondern ein Team unterschiedlich trainierter LLMs. Die 48 GB RAM meines Rechners bedeuteten eine Obergrenze von rund 34 GB pro gewählter Modelldatei. Alle LLMs in LM Studio sind kostenfrei – verrückt! Bei den gelisteten Modelle hat Mensch nicht nur die Wahl zwischen verschiedener Anzahl der Parameter, sondern zudem jeweils verschiedenen Komprimierungsvarianten (Quantisierungen). Zunächst völlig unübersichtlich. Ein Modell wie das Llama 3.3 70B gibt es bspw. als q8 mit 70GB (viel zu groß) oder in q3_K_XL mit 34GB (passt gerade so). Wie findet man hier aus den tausenden Varianten die passenden Perlen?

Meine Kriterien waren bestmögliche Qualität (Modelle mit 25+ Milliarden Parametern) bei für mich noch vertretbarer Antwortgeschwindigkeit. Denn je größer das Modell, desto langsamer wird die Darstellung des Textoutputs. Ich habe mir als Zielfenster ca. 10 Token pro Sekunde vorgenommen, das sind etwa 3-7 Wörter pro Sekunde. Ja ich weiß, das ist viel langsamer als ChatGPT in der Weboberfläche, das auf NVIDIA H100 oder vergleichbarer Hardware durchaus Geschwindigkeiten von 250 Tokens/s und mehr erreicht. Wer das haben mag: Kauft euch eine H100 und ihr bekommt eure hohe Geschwindigkeit 😉 Für den hybriden Forschungsprozess, bei dem ich ja alle Antworten lesen und verstehen und überdenken möchte, ist die lokale Geschwindigkeit von 10t/s völlig akzeptabel.

Nach umfangreichen Tests und vielen Fehlschlägen, bei denen ich unseren Standardprompt (siehe Link) mit einer Textstelle durchlaufen ließ, kristallisierte sich folgendes Quartett als „Sweet Spot“ heraus. Achtet bitte auf die Quantisierungsangabe weiter unten (wie q3_K oder q6). Ladet also das jeweils passende. Größere Modelle würden beim gewählten Setting nicht mehr sinnvoll (Llama 3.3 70B in q4 lief mit 1,3 Token/s) oder gar nicht mehr laufen, kleinere Modelle verschenken Antwortqualität bei nur geringem Tempogewinn bei der Antwortgenerierung. Diese Abwägung wird besonders relevant, wenn das verfügbare Kontextfenster durch sehr umfangreiche Eingaben (z.B. mehrere Interviews) nahezu ausgeschöpft wird. Hier müsste dann zwangsläufig auf kleinere Modelle mit entsprechend geringerer Parameterzahl oder Modelle mit spezifischer Optimierung für große Kontextfenster zurückgegriffen werden, sofern diese auf der Hardware lauffähig sind:

  • Llama 3.3 70B Instruct (q3_K_XL, ~34 GB, ~7.5 Token/s): (USA) Metas Modell, zwar stark komprimiert, aber mit der größten Wissensbasis im Testfeld.
  • Qwen 3 32B Instruct (q6, ~24 GB, ~12 Token/s): (China) Alibabas Modell, überraschend fähig, brandneu aus April 2025.
  • Gemma 3 27B Instruct-Turbo (q8_0, ~27 GB, ~12 Token/s): (USA) Googles Open-Source-Modell. Auch brandneu aus April 2025.
  • Mistral Small 3.1 24B Instruct 2503 (q8_0, ~24 GB, ~15 Token/s): (Europa) Ein bekannter Klassiker in neuer Version.

Alle vier liefen stabil und zeigten bereits in Vortests das Potenzial für unterschiedliche „Denkstile“, was für die hybride Interpretation essenziell ist. Nicht nur Modelle wie Deepseek fielen in meinen Tests übrigens aufgrund mangelnder Antwortqualität heraus, ich war wirklich überrascht, da besonders dieses Modell ansonsten sehr gehypted wird.

3. Das Experiment

Um das Zusammenspiel der Modelle zu testen, führte ich vierzehn Interpretationsläufe mit einem kurzen Standard-Interviewauszug durch. Zunächst setzte ich die vier LLMs (Gemma 3, Qwen 3, Mistral 3.1, Llama 3.3) in dieser intuitiv gewählten Reihenfolge 1 ein, beginnend mit Gemma 3, das durch einen spezifischen System-Prompt (siehe Anhang) instruiert wurde, gefolgt von den anderen Modellen, die jeweils mit einem standardisierten Moderations-Prompt zur differenzierten Auseinandersetzung mit den bisherigen Ergebnissen und eigenem Beitrag aufgefordert wurden. Neun Durchgänge zeigten, dass Qwen 3 stark zur frühen Theoretisierung neigte. So testete ich in fünf weiteren Läufen eine modifizierte Reihenfolge 2, bei der Qwen 3 erst am Ende zum Einsatz kam, um eine stärker materialnahe, Bottom-up orientierte Erkenntnisentwicklung zu fördern.

4. Ergebnisse und erste Ideen zu Profiltypen der LLMs

Die Analyse der Antworten zeigte erstaunlich konsistente charakteristische Tendenzen der einzelnen Modelle und interessante Unterschiede in der Dynamik der Ergebnisgenerierung durch die verschiedenen Einsatzreihenfolgen. Ich habe aus den Daten erste Ideen zu „Profiltypen“ der LLMs entwickelt. Hier meine Vorschläge basierend aus den Verläufen:

  • Gemma 3: Legte als Start-LLM stets eine solide, textnahe Basis mit multiplen Erstdeutungen zu sprachlichen “Hotspots” (Datierung, “eigentlich”, “Versuch”). Fokussierte oft auf Ambivalenzen in P1s Aussagen, z.B. die Gegenüberstellung von P1 als “pragmatischen Koordinator” versus der Möglichkeit, dass die Formulierung “Unsicherheit signalisieren“ könnte -> fungierte als zuverlässiger Initiator.
  • Mistral Small 3.1: Griff bestehende Interpretationen nuanciert auf, oft mit Blick auf psychologische Dimensionen (Selbstwahrnehmung, Unsicherheit, Stolz) oder strategische Kommunikation. Suchte nach “Zwischentönen”. In Reihenfolge 2, direkt nach Gemma 3, prägte es den Diskurs früh mit dieser Perspektive. Beispielsweise deutete es die pragmatische Darstellung von P1 als mögliche “Strategie zur Selbststilisierung” oder die Schlichtheit als “Ausdruck von Überforderung” -> differenzierte erfolgreich.
  • Llama 3.3: Tendierte dazu, Diskussionen pragmatisch zu erden, Komplexität zu hinterfragen und Interpretationen auf Robustheit zu prüfen. Betonte oft Professionalität und Verantwortung. Es hielt beispielsweise trotz Gegenargumenten an seiner Deutung von P1s “Professionalität und Engagement” fest und differenzierte diese weiter aus, indem es auf die Bedeutung von Zusammenarbeit verwies -> pragmatisch, materialorientiert und zusammenführend.
  • Qwen 3: Brachte am konsequentesten explizite theoretische Bezüge (Goffman, Foucault, Diskurstheorie etc.) und Fachtermini ein. Es hob vereinzelt den Diskurs früh auf eine abstrakte Ebene mit Konzepten wie “institutionalisierte Selbstbeschreibung”. Am Ende von Reihenfolge 2 fungierte es oft als theoretischer Synthetisierer, der z.B. P1s Selbstreflexion mit dem “Prozess der Selbsterkenntnis” verband -> gute theoretisch-konzeptuelle Beiträge.

Beobachtungen zur Dynamik:

  • Qwen 3 früh im Prozess (Reihenfolge 1): Führte oft zu einer schnellen Konzeptualisierung und einem “akademischen” Diskurs. Die Herausforderung war, die Textnähe bei starker Theoretisierung durch Qwen 3 zu wahren. Mistral Small 3.1 und Llama 3.3 fokussierten dann wieder auf Detailarbeit, um die abstrakten Konzepte wieder auf das Material zu beziehen oder zu differenzieren.
  • Qwen 3 spät im Prozess (Reihenfolge 2): Erlaubte eine längere, detailorientierte Exploration psychologischer und strategischer Aspekte durch Mistral Small 3.1 und Llama 3.3. Die Entwicklung wirkte stärker “Bottom-up”. Qwen 3s theoretischer Input am Ende diente hier häufiger der Bündelung und Einordnung einer bereits reichhaltigen Fallanalyse, was manchmal wie eine externe Supervision wirkte.
  • Fazit: Qwen 3s Position war prägend: Früh eingesetzt, ist es ein “Theorie-Motor”; spät eingesetzt, eher ein “Theorie-Dach”.

Vergleichende Schlussfolgerungen:

  • Art der Erkenntnisentwicklung variiert: Reihenfolge 1 tendiert zur schnellen Abstraktion, Reihenfolge 2 zur tieferen Detail-Exploration vor der Theoretisierung. Denkbar wäre auch ein Vorgehen ganz ohne Qwen 3, wenn keine explizite Theoretisierung gewünscht ist – andererseits sind theoretische Bezüge eine Bereicherung, und als Mensch kann (und muss) ich im weiteren Verlauf ohnehin nur das vertiefen, was ich für angemessen halte. Keine Sequenz ist per se “besser”; die Wahl hängt vom Forschungsfokus ab.
  • LLM-Profile bleiben erkennbar: Die klar unterscheidbaren Grundtendenzen der Modelle zeigten sich in beiden Sequenzen, wurden aber durch Position und Vorläuferbeiträge moduliert.
  • Hohe Verlässlichkeit, aber Vorsicht bei Zitation: In keinem der Läufe kam es zu gravierenden Fehlern oder “Halluzinationen”. Alle LLMs blieben im Rahmen der Aufgabe. Die explizite Zitation war immer korrekt, allerdings waren die  Quellenangaben durch Absatznummern immer wieder mal fehlerhaft. Im Rahmen des hybriden Interpretierens ist das nicht problematisch, da die gesamte Textmenge überschaubar und vorab bekannt ist. Vermutlich lässt sich das mit  angepassten Prompts und/oder einer anderen Vorab-Strukturierung des Textmaterials auflösen.
  • Stabile “Hotspots” – Fruchtbare Varianz: Die sprachlichen Schlüsselstellen im Text wurden konsistent als relevant erkannt. Die Vielfalt der Ausdeutungen bestätigt den Wert des Multi-LLM-Ansatzes.
  • Vergleich zu chatGPT und co.: Alle Diskussionen und Beiträge lokaler LLMs waren auf vergleichbarem Niveau zu den großen online-Modellen, wenn es um die Identifikation sprachlicher Auffälligkeiten und der Deutungsperspektiven ging. Dies ist im Rahmen der hier getesteten, auf kurze Textausschnitte fokussierten hybriden Interpretation uneingeschränkt hilfreich für den eigenen Analyseprozess. Im Bereich der Konzeptualisierung und Theoretisierung sind die großen Modelle aber aktuell besser. Und ehrlich gesagt ist das sehr überraschend, denn diese kleinen lokalen Modelle haben nur rund 2-5% der Parameteranzahl, die die ganz großen Modelle haben.

Die Experimente zeigen, dass lokale LLMs produktiv für das hybride Interpretieren genutzt werden können. Dabei haben sowohl Modellauswahl als auch Sequenzierung Einfluss auf die Dynamik hybrider Interpretationen. LLMs agieren nicht uniform, sondern mit charakteristischen Stärken. Eine bewusste Gestaltung des Ablaufprozesses forciert beim hybriden Interpretationssetting unterschiedlicher Perspektiven und gewinnbringenden Bias. Es ist jedoch wichtig zu betonen, dass diese positiven Ergebnisse sich auf den hier dargestellten Anwendungsfall der fokussierten Interpretation kurzer Textsegmente beziehen. Die Übertragbarkeit auf Szenarien mit deutlich größeren Datenmengen im Prompt (z.B. die Analyse mehrerer ganzer Interviews) ist mit dem hier genutzten 48GB-System nur eingeschränkt möglich, da hier die Modelle an ihre Kontextgrenzen stoßen oder auf kleinere, potenziell weniger leistungsfähige Modellvarianten ausgewichen werden müsste (-> der nächste Werkstattbericht zum Einsatz eines Mac Studio mit 96GB ist schon in Arbeit…).

5. Mein persönliches Zwischenfazit und Ausblick: Lohnt sich der lokale LLM-Einsatz in der qualitativen Forschung?

Nach nunmehr vierzehn intensiven Testläufen mit meinem KI-Quartett auf dem MacBook Pro stelle ich mir die Frage: Hat sich der Aufwand gelohnt? Ist die lokale, DSGVO-konforme hybride Interpretation nicht nur eine technische Machbarkeitsstudie, sondern auch eine praxistaugliche Bereicherung für qualitativ Forschende? Mein klares Zwischenfazit lautet: Ja, insbesondere für den hier erprobten Anwendungsfall der detallierten, dialogischen Interpretation überschaubarer Textmengen, mit einigen wichtigen Einschränkungen und Überlegungen für umfangreichere Aufgaben.

Was mich positiv überrascht hat:

  • Die Qualität und Differenziertheit der LLM-Beiträge: Trotz des lokalen Setups und der notwendigen Kompromisse bei der Modellgröße (durch Quantisierung) haben alle vier Modelle durchweg plausible, textnahe und oft sehr anregende Interpretationen geliefert. Die Befürchtung, lokale Modelle könnten qualitativ deutlich hinter den großen Cloud-Diensten zurückbleiben, hat sich für diesen spezifischen Anwendungsfall nicht bestätigt. Die Fähigkeit, nuancierte Gegenargumente zu formulieren und eigene, differenzierte Lesarten zu entwickeln, war beeindruckend.
  • Die “Persönlichkeiten” der Modelle: Der Multi-LLM-Ansatz hat sich als extrem fruchtbar erwiesen. Die unterschiedlichen “Denkstile” von Gemma, Mistral, Llama und Qwen haben tatsächlich zu einer multiperspektivischen Beleuchtung des Textes geführt, die ich alleine oder auch in einer homogenen LLM-Konstellation so nicht erwartet hätte. Jedes Modell brachte seine spezifischen Stärken ein und trug so zu einem reichhaltigeren Gesamtbild bei.
  • Die Stabilität und das Ausbleiben von “Halluzinationen”: In keinem der vierzehn Durchläufe kam es zu gravierenden sachlichen Fehlern, unsinnigen Textproduktionen oder den gefürchteten “Halluzinationen”. Die LLMs blieben stets fokussiert auf die Aufgabe und den Text. Die beobachteten Mängel bei der exakten Zitation von Absatznummern sind eher ein technisches Detail, das durch angepasste Prompts oder Textaufbereitung lösbar erscheint, aber die grundsätzliche Texttreue nicht infrage stellt.
  • Die Rolle der Sequenzierung: Die Erkenntnis, dass die Reihenfolge der LLMs einen spürbaren Einfluss auf die Dynamik und die Art der Erkenntnisentwicklung hat, war ein wichtiger methodischer Lernprozess. Es zeigt, dass hybride Interpretation nicht nur eine Frage der Modellauswahl, sondern auch der Prozessgestaltung ist.

Die pragmatische Seite: Hürden und Freuden des lokalen Arbeitens

  • Der Setup-Aufwand: Die initiale Einrichtung, die Auswahl der passenden Modelle und Quantisierungen sowie das Feintuning der Einstellungen in LM Studio erfordern Zeit, Geduld und ein gewisses Maß an technischer Experimentierfreude. Es ist kein “Plug-and-Play” wie bei den Webdiensten.
  • Die Geschwindigkeit: Mit 7 bis 15 Token pro Sekunde ist die Antwortgenerierung deutlich langsamer als bei den Cloud-Giganten. Für einen interaktiven Forschungsprozess, bei dem man die Antworten ohnehin sorgfältig lesen und reflektieren muss, empfand ich diese Geschwindigkeit jedoch als absolut akzeptabel und nicht hinderlich. Manchmal war die kleine “Denkpause” sogar willkommen.
  • Die Hardware-Anforderungen: Ein leistungsstarkes System mit viel RAM ist notwendig. 48 GB scheinen eine gute Untergrenze für das hier beschriebene Setup und vergleichbare Aufgaben zu sein. Für Forschungsvorhaben, die regelmäßig die Analyse mehrerer längerer Dokumente gleichzeitig oder die Nutzung von Modellen mit sehr großen Kontextfenstern (z.B. über 100k Token) erfordern, wird man jedoch leistungsstärkere Systeme mit deutlich mehr Arbeitsspeicher (z.B. 96GB, 128GB oder mehr) in Betracht ziehen müssen. Das ist eine Investition, aber wie gezeigt, können hier auch “Auslaufmodelle” eine sehr gute und ökonomisch sinnvolle Lösung darstellen.
  • Die Freude an der Datenhoheit: Der größte Gewinn ist zweifellos die Gewissheit, dass sensible Forschungsdaten den eigenen Rechner nicht verlassen. Dieser Aspekt der DSGVO-Konformität und der ethischen Verantwortung ist für mich nicht verhandelbar und macht den lokalen Ansatz trotz des Mehraufwands alternativlos für viele qualitative Projekte.

Für wen ist das was? Und was sind die nächsten Schritte?

Meiner Einschätzung nach bietet der hier skizzierte Ansatz des lokalen hybriden Interpretierens ein erhebliches Potenzial für verschiedene Zielgruppen:

  • Forschende in Abschlussarbeiten (Bachelor, Master, Promotion): Die oft als “Einzelkämpfer*innen” agieren und nicht immer direkten Zugang zu etablierten Interpretationsgruppen haben. LLMs können hier wertvolle Sparringspartner sein.
  • Kleine Forschungsteams: Die ihre Perspektivenvielfalt durch den Einsatz von LLMs erweitern möchten.
  • Lehrende in der qualitativen Methodenvermittlung: Die Studierenden eine neue, praxisnahe Methode des “Denkens mit und über Text” demonstrieren und sie zum kritisch-reflektierten Einsatz von KI anleiten wollen.
  • Alle qualitativ Forschenden: Die neugierig auf die Möglichkeiten von LLMs sind, aber höchste Ansprüche an Datenschutz und Datenkontrolle stellen.

Natürlich ist dies nur ein erster Werkstattbericht. Viele Fragen bleiben offen und bedürfen weiterer systematischer Untersuchung. Wie verhalten sich andere LLM-Kombinationen und -Sequenzen? Könnten sich diese lokalen LLM auch für andere qualitative Vorgehensweise außerhalb des hybriden Interpretierens eignen? Also mit diesen LLM spezifische Fragestellungen bspw. der qualitativen Inhaltsanalyse, der dokumentarischen Methode oder anderer zu verfolgen. Und auch die Frage danach, wie sich die Gütekriterien qualitativer Forschung systematisch auf die LLM-Beiträge anwenden lassen könnte, um deren Qualität noch differenzierter zu bewerten und zu vergleichen, erscheint mir spannend. Und wie skaliert der Ansatz bei deutlich längeren Textpassagen oder einer größeren Anzahl von zu analysierenden Dokumenten? Das Kontextfenster ist hier ein wichtiger Einflussfaktor. Erste informelle Tests meinerseits mit der gleichzeitigen Analyse von fünf kurzen Transkripten (ca. 13.500 Token Input) zeigten bereits, dass das Llama 3.3 70B Modell auf dem 48GB-System damit überfordert war und die Verarbeitung nicht mehr durchführte. Dies unterstreicht die Notwendigkeit weiterer Tests und potenziell leistungsfähigerer Hardware oder kleinerer Modelle für solche umfangreichen Anwendungsfälle.

Mein persönlicher Ausblick: Die generative KI-Technologie steht erst am Anfang ihrer Entwicklung. Die Modelle werden leistungsfähiger, die Software für den lokalen Betrieb benutzerfreundlicher und hoffentlich auch die datenschutzrechtlichen Rahmenbedingungen für den Einsatz in der Forschung klarer. Der hier vorgestellte Ansatz ist ein Versuch, diese Entwicklung konstruktiv und methodisch reflektiert für die qualitative Forschung nutzbar zu machen, wobei die Balance zwischen lokaler Machbarkeit, Datenmenge und gewünschter Modellperformanz stets neu ausgelotet werden muss. Es geht nicht darum, menschliche Interpretationsarbeit zu ersetzen, sondern sie durch neue, vielfältige Perspektiven zu ergänzen und zu bereichern. Die lokal genutzten LLMs können uns helfen, unsere eigenen blinden Flecken zu erkennen, alternative Deutungen zu erwägen und so letztlich zu tieferen und robusteren Forschungsergebnissen zu gelangen. Der Weg ist spannend, und ich lade alle ein, ihn mitzugehen, zu experimentieren und die gewonnenen Erfahrungen zu teilen.

Weitere Quellen

Zitation dieses Artikels:

Dresing, T. (2025, 15. Mai). DSGVO-konforme, hybride Interpretation: Ein Werkstattbericht zum lokalen Interpretieren mit vier LLMs auf einem MacBook Pro mit Gemma 3, Qwen 3, Mistral 3.1 und Llama 3.3. audiotranskription.de. Abgerufen am [Datum des Zugriffs], von https://audiotranskription.de/llm-lokal-und-dsgvo-konform-nutzen

Abstract

Dieser Werkstattbericht adressiert die Herausforderung des datenschutzkonformen Einsatzes von Large Language Models (LLMs) in der qualitativen Forschung. Angesichts der DSGVO-Problematik gängiger Cloud-basierter KI-Dienste wird die Realisierbarkeit und der Nutzen einer vollständig lokalen, hybriden Interpretationsmethode untersucht. Der Bericht dokumentiert detailliert das technische Setup auf einem handelsüblichen MacBook Pro (M3 Max, 48GB RAM) unter Verwendung der Software LM Studio sowie die Auswahl und Konfiguration eines Quartetts aus vier Open-Source-LLMs (Gemma 3 27B, Qwen 3 32B, Mistral Small 3.1 24B, Llama 3.3 70B) mit unterschiedlichen Quantisierungen. Basierend auf vierzehn Interpretationsläufen mit einem Standard-Interviewauszug und zwei variierten LLM-Sequenzen werden charakteristische “Profiltypen” der Modelle und der Einfluss der Einsatzreihenfolge auf die Ergebnisdynamik analysiert. Die Ergebnisse zeigen, dass lokale LLMs qualitativ hochwertige, differenzierte und stabile Interpretationsbeiträge liefern können, die mit denen großer Online-Modelle bei der Identifikation sprachlicher Auffälligkeiten und der Generierung von Deutungsperspektiven vergleichbar sind, wobei Cloud-Modelle bei der Theoretisierung überlegen bleiben. Der Beitrag schließt mit einem positiven Fazit zur Praxistauglichkeit des lokalen Ansatzes, der Forschenden eine datensichere und methodisch bereichernde Alternative für die hybride Interpretation bietet, und skizziert zukünftigen Forschungsbedarf.

Die aktuellsten Beiträge

04. April 2025 13 minutes Lesezeit
ChatGPT und andere KI-Inhalte wissenschaftlich zitieren: Ein praktischer Leitfaden für Forschende KI korrekt angeben – So geht's Kein direktes Zitat: LLM-Antworten sind nicht wie herkömmliche Textquellen (Buch, wissenschaftlicher Aufsatz, Zeitungsartikel) oder …
25. März 2025 10 minutes Lesezeit
Prompts für dein qualitatives Forschungsprojekt

KI kann dich in verschiedenen Phasen deines qualitativen Forschungsprojektes unterstützen. Die Grundlage für gute Ergebnisse sind gute Prompts und es …

07. November 2024 2 minutes Lesezeit
Interviews DSGVO-konform aufzeichnen – kostenfreie Vorlage

DSGVO konform Interviewaufnahmen aufzeichnen Update Nov. 2024 Kein grundsätzlich neues Thema Audio- oder Videoaufnahmen gehören seit Jahrzehnten zu einem der …

Zurück zur Übersicht