Spracherkennung

für die Interviewtranskription in f4transkript ab 2019

  • 1 2 h schneller je Audiostunde
  • ohne Trainings- und Lernaufwand
  • KI powered by Fraunhofer IAIS
  • speziell für Interviews
  • DSGVO-konforme Infrastruktur
  • min. 10 Stunden frei in der Betaphase
 

Endlich!

Spracherkennung für Interviews in f4transkript

Eine Spracherkennung von Interviewaufnahmen ist technisch sehr anspruchsvoll und viel fehleranfälliger als die Spracherkennung einzelner Sprecher, wie man sie von Smartphones oder Diktatprogrammen bereits kennt. Bis heute werden daher freie Interviewgespräche in der Regel manuell transkribiert. Wir haben zusammen mit dem Fraunhofer Institut für Intelligente Analyse- und Informationssysteme (IAIS) eine Lösung entwickelt, die für Interviewaufnahmen geeignet ist.

Ab 2019 wird unsere Software f4transkript über eine cloudbasierte Spracherkennung verfügen, die für eine – in der qualitativen Forschung angestrebte – lebendige Interviewsituation so gute Ergebnisse liefert, dass damit Zeit gegenüber der manuellen Transkription eingespart werden kann. Mit ihr gelingt die Erkennung von Gesprächen ohne vorheriges Training. Die Texte enthalten neben dem reinen Text auch wortgenaue Zeitmarken, um schnell spezifische Positionen abzuhören.

Aktuell arbeiten wir an der Anbindung der fertig entwickelten Spracherkennungstechnik in unsere Software f4transkript. Im ersten Halbjahr 2019 werden wir mit der Version 8 von f4transkript diese Technik auf Mac, Windows und Linux verfügbar machen.

Wer ab Oktober 2018 eine zeitlich unbegrenzte Vollversion erwirbt, erhält das Upgrade auf Version 8 kostenfrei und nimmt damit an der Spracherkennungs-Betaphase teil. In dieser Zeit darf jeder Lizenzinhaber ein Kontingent kostenfreier Spracherkennung nutzen (wir streben 10 Stunden Material je Nutzer an). Danach wird es kaufbare Stundenkontingente zu wettbewerbsfähigen Preisen geben.

 
 

Signifikante Zeitersparnis

Schneller zum fertigen Transkript

Die mit unserer Spracherkennung erzeugten Texte weisen eine für Interviews gute Erkennungsgenauigkeit auf. Die erkannten Texte müssen jedoch stets Korrektur gelesen werden, um ein fertiges Transkript zu erhalten.

Zeitersparnis

Mit verschiedenen Einzelinterviewaufnahmen haben wir in über 200 Messungen getestet, ob man Zeit spart, auch wenn im Nachgang eine Korrektur erforderlich ist. Dabei haben wir eine Gruppe von Studierenden von einer Gruppe erfahrener Schreibkräfte unterschieden. Für die manuelle Transkription benötigten die Studierenden im Schnitt das 6,3-fache der eigentlichen Interviewdauer mit einer Standardabweichung (SD) von 1,2. Für die Korrekturarbeit unserer spracherkannten Texte benötigten sie im Schnitt hingegen die 5,1-fache Zeit (SD = 1,5). Sie sparten rund 70 Minuten Bearbeitungszeit pro Stunde Interviewmaterial ein. Dieser Zeitvorteil von 19% gegenüber einer manuellen Transkription ist hierbei signifikant (p=.0036). Die Gruppe der sehr erfahrenen und schnellen Schreibkräfte transkribierte hingegen mit 1:4,2 fast genauso schnell, wie sie korrigierte. Man profitiert von unserer Lösung um so mehr, je langsamer man manuell transkribiert.

Boxplot Vergleich Korrektur vs. Transkription


Fehlerrate

In unserem Testsetting haben wir gemessen, wie viele Zeichen gelöscht und eingefügt werden mussten, um ein fertiges Transkript zu erhalten. Dabei haben wir auch nonverbale Aspekte wie Lachen ergänzt, weil dies für sozialwissenschaftliche Transkripte oft zu erwarten ist. Auf Basis dieses Settings haben wir im Schnitt rund 20% der spracherkannten Zeichen nachbearbeiten müssen. Verzichten Sie dagegen in Ihren Transkripten auf Hinweise zum Lachen, Husten etc., so müssen weniger Zeichen korrigiert werden, was die Korrekturzeit verringert.

Im Folgenden sehen Sie auf der linken Seite das Beispiel eines Textes, den unsere Software aus einer digitalen Interviewaufnahme erzeugt hat. In der mittleren Spalte sehen Sie die nötigen Löschungen (rot) und Einfügungen (grün) und in der rechten Spalte das fertige Transkript. Hier können Sie die zugrunde liegende MP3-Testdatei herunterladen, um einen Eindruck von der Audioqualität und dem Setting zu bekommen. Beispiel Korrekturaufwand


Vergleich mit anderen Anbietern

Natürlich sind wir nicht der einzige Anbieter von Spracherkennungssoftware. Daher haben wir die Ergebnisse unserer Lösung mit relevanten Mitbewerbern wie Wit.ai (Facebook), AmberScript, Trint, Speechmatics, Nvivo und Dragon verglichen. Für alle Anbieter haben wir gemessen, wie viele Zeichen in den erkannten Transkripten unserer Interviewauswahl korrigiert werden mussten. Dabei haben wir reine Worttranskripte ohne nonverbale Zusätze (wie ein Lachen) zum Vergleich herangezogen.

In den automatisch erkannten Transkripten unserer Lösung sind rund 15% der Zeichen zu korrigieren. In den Ergebnissen anderer Lösungen sind es ausnahmslos deutlich mehr. Dragon Professional Group 15 von Nuance passt mit knapp 60% Fehlerrate nicht mehr vollständig in die Tabelle.

Die Ergebnisse unserer Lösung enthalten 33% bis 75% weniger zu korrigierende Zeichen als die Ergebnisse der Mitbewerber. Das entspricht einiger DIN-A4-Seiten mehr zu korrigierender Textinhalte je Stunde Interview. Daher müssen Sie mit unserer Lösung weniger Zeit für Korrekturen einplanen und kommen schneller zum fertigen Transkript.

 
 

Bessere Ergebnisse

So holen Sie das Meiste raus

  • Achten Sie auf eine gute Aufnahme mit wenigen Nebengeräuschen. Interviews aus einem Café oder der Mensa erhöhen den Korrekturaufwand deutlich.
  • Einzelinterviews mit zwei Sprechern werden zuverlässig gut erkannt. Mehr Sprecher verschlechtern die Ergebnisse deutlich.
  • Gleichzeitige Rede ist für menschliche Ohren schwer auseinanderzuhalten. So geht es auch jeder Spracherkennung. Also: je klarer die Sprecherwechsel, desto besser das Ergebnis!
  • Dialekte und Akzente können in vielen Varianten auftreten. Je stärker sie ausgeprägt sind, desto schlechter werden sie erkannt.
 

Wir halten hohe Sicherheitsstandards ein

DSGVO-konform

Qualitative Interviews enthalten meist personenbezogene Daten. Aus diesem Grund unterliegt die Weitergabe und Verarbeitung strengen Beschränkungen. Als Unternehmen mit Sitz in Deutschland erfüllen alle unsere Aktivitäten die strengen Datenschutzbestimmungen der Europäischen Union. Wir achten auf hohe Sicherheitsstandards und eine transparente Infrastruktur, sodass Ihre Daten bei uns DSGVO-konform verarbeitet werden.

Die Übertragung der Dateien zu unseren Servern erfolgt immer verschlüsselt. Die Spracherkennung wird ausschließlich auf ISO-27001-zertifizierten Servern in Deutschland laufen. Ihre Daten werden ausschließlich zur Spracherkennung und nicht für andere Zwecke verwendet, können auch nicht von Dritten eingesehen werden und werden direkt nach der Umsetzung gelöscht. Alle von uns genutzten Support- oder Hosting-Dienstleister sind über Verträge an aktuelle EU-Datenschutzrichtlinien gebunden.

Die Speicherung der Daten erfolgt bis zum Abschluss der Spracherkennungsleistung – danach werden alle Daten automatisiert und unwiederbringlich gelöscht. Die fertigen Transkripte liegen dann nur noch bei Ihnen lokal als Textdatei vor und können auch nicht erneut abgerufen werden.

 

Spracherkennung in f4transkript

So wird die Nutzung ablaufen

Unsere Spracherkennung wird integraler Bestandteil von f4transkript (Windows, Linux, Mac) werden. Nach dem Release von Version 8 können Sie die Spracherkennung während der Open Beta ohne zusätzliche Gebühr nutzen.

Wer ab Oktober 2018 f4transkript in einer zeitlich unbeschränkten Vollversion erwirbt, erhält das Upgrade auf Version 8 kostenfrei.

  • f4transkript starten
  • Wenn Spracherkennung gewünscht, dann einfach Interview auswählen und verschlüsselt hochladen
  • Der Server führt die Spracherkennung durch
  • f4transkript benachrichtigt über den Bearbeitungsstand
  • f4transkript zeigt den fertigen Text
  • Sie korrigieren und schreiben Memos

To be honest...

Spracherkennung ist nicht immer geeignet

Nach unseren Tests können wir die Spracherkennung vor allem für Einzelinterviews mit guter Aufnahmequalität bei moderaten Tippfähigkeiten empfehlen (z. B. für Studierende, Doktoranden, Gelegenheitsnutzer bzw. für Projektarbeiten). Bei manchen Settings kann die manuelle Transkription dennoch schneller sein (siehe weiter oben "So holen Sie das Meiste raus").

Ausgesprochene Profischreibkräfte profitieren nur in geringem Umfang. Wenn Sie es schaffen, eine Stunde Interview in unter 4 Stunden sauber manuell zu transkribieren, werden Sie bei dem derzeitigen Entwicklungsstand von einer Spracherkennung wahrscheinlich nicht profitieren.

Auch für Gruppeninterviews gibt es noch keine zufriedenstellende Lösung. Diese sind meist deutlich komplexer und mit mehr überlappender Rede. Für diese konnten wir keinen Zeitvorteil durch unsere Spracherkennung feststellen.

Speziell für (sozialwissenschaftliche) Interviews

Von Sozialwissenschaftlern entwickelt

Seit über 13 Jahren entwickeln wir Transkriptions- und Analysesoftware, geben Schulungen zu Qualitativer Forschung, veröffentlichen eigene Transkriptionsregeln und haben im Rahmen der Promotion viele Stunden selbst transkribiert. Wir kennen die Anforderungen an sozialwissenschaftliche Transkriptionen sehr gut.

Das kooperierende Fraunhofer Institut für Intelligente Analyse- und Informationssysteme (IAIS) ist eines der führenden deutschen Forschungsinstitute im Bereich des maschinellen Lernens.

Gemeinsam haben wir ein Deep Recurrent Neural Network mit dedizierten, mehrfach korrekturgelesenen Interviewtranskripten und Audiodaten trainiert und technische Abläufe optimiert. Dieser Verbesserungsprozess läuft stetig. Unsere nächsten Ziele werden die Erkennung von englischer Sprache, die Toleranz gegenüber Hintergrundgeräuschen, die Darstellung von Zögerungslauten und eine Sprechererkennung sein. Über signifikante Verbesserungen der Erkennungsleistung werden wir auf dieser Seite berichten.