Spracherkennung

für Mac ab 19.07.2019 - für Windows/Linux ab Herbst 2019

  • 1 2 h schneller je Audiostunde
  • ohne Trainings- und Lernaufwand
  • KI powered by Fraunhofer IAIS
  • speziell für Interviews
  • DSGVO-konforme Infrastruktur
  • bis 10 Stunden in der Betaphase frei
 

Endlich!

Spracherkennung für Interviews in f4transkript

Eine Spracherkennung von Interviewaufnahmen natürlicher Sprache ist technisch anspruchsvoller und fehleranfälliger, als die Spracherkennung einzelner Sprecher, wie man sie von Smartphones oder Diktatprogrammen bereits kennt. Bis heute werden daher Interviews in der Regel von Hand abgetippt.

Zusammen mit dem Fraunhofer Institut für Intelligente Analyse- und Informationssysteme (IAIS) entwickeln wir seit 2017 eine Spracherkennung für deutschsprachige Interviewaufnahmen für Endkunden. Die Spracherkennung läuft auf unserem Sicherheitsserver und ist speziell für Interviewaufnahmen mithilfe zehntausender Seiten Beispielmaterial traininiert. Die Umsetzung gelingt daher ohne vorheriges Training.

 

Kostenfrei in der Betaphase

Jetzt f4transkript kaufen und ab Sommer Spracherkennung nutzen

Zum Berliner Methodentreffen am 19.07.2019 werden wir die erste Version der Spracherkennung zur Verfügung stellen. Diese Betaversion 8 von f4transkript wird zunächst für Mac OS verfügbar sein (Windows und Linux folgen einige Monate später).

Alle, die ihre Volllizenz (also keine laufzeitbeschränkten Lizenzen) nach Oktober 2018 erworben haben, erhalten das Upgrade und damit auch die Betaversion kostenfrei. In der Betaphase ermöglichen wir eine kostenfreie Nutzung der Spracherkennung für maximal 10 Stunden Audio-/Videomaterial je Lizenzinhaber - mehr ist nicht möglich. Sobald wir die finale Version von f4transkript im Herbst 2019 veröffentlichen wird es dann nur noch  kaufbare Stundenkontingente und einige Minuten kostenfreie Demo geben.

Jetzt f4transkript kaufen

 

Preise

ab 1,50 Euro je Stunde

Die Spracherkennung benötigt ein ausreichendes Kontingentguthaben für die Umsetzung der vorliegenden Menge an Audio- oder Videodaten. Die Kontingentpreise staffeln sich über 3 Nutzergruppen mit verschiedenen Mengen. Universitäten zahlen ab 1,50 Euro, Studierende/Promovierende ab 2 Euro und Firmen/Privatpersonen ab 3 Euro je Stunde umgesetzten Materials.

  1 Stunde 15 Stunden 1000 Stunden                    
Studierende/
Promovierende
5 € 30 €  
Hochschulen/NGO/ Privat 10 € 60 € 1.500 €
Firmen 15 € 119 € 3.000 €

(alle Preise inkl. 19% MwSt.)

 
 

Signifikante Zeitersparnis

Schneller zum fertigen Transkript

Die mit unserer Spracherkennung erzeugten Texte weisen eine für Interviews gute Erkennungsgenauigkeit auf. Die erkannten Texte müssen jedoch stets Korrektur gelesen werden, um ein fertiges Transkript zu erhalten.

Zeitersparnis

Mit verschiedenen Einzelinterviewaufnahmen haben wir in über 200 Messungen getestet, ob man Zeit spart, auch wenn im Nachgang eine Korrektur erforderlich ist. Dabei haben wir eine Gruppe von Studierenden von einer Gruppe erfahrener Schreibkräfte unterschieden. Für die manuelle Transkription benötigten die Studierenden im Schnitt das 6,3-fache der eigentlichen Interviewdauer mit einer Standardabweichung (SD) von 1,2. Für die Korrekturarbeit unserer spracherkannten Texte benötigten sie im Schnitt hingegen die 5,1-fache Zeit (SD = 1,5). Sie sparten rund 70 Minuten Bearbeitungszeit pro Stunde Interviewmaterial ein. Dieser Zeitvorteil von 19% gegenüber einer manuellen Transkription ist hierbei signifikant (p=.0036). Die Gruppe der sehr erfahrenen und schnellen Schreibkräfte transkribierte hingegen mit 1:4,2 fast genauso schnell, wie sie korrigierte. Man profitiert von unserer Lösung um so mehr, je langsamer man manuell transkribiert.

Boxplot Vergleich Korrektur vs. Transkription


Fehlerrate

In unserem Testsetting haben wir gemessen, wie viele Zeichen gelöscht und eingefügt werden mussten, um ein fertiges Transkript zu erhalten. Dabei haben wir auch nonverbale Aspekte wie Lachen ergänzt, weil dies für sozialwissenschaftliche Transkripte oft zu erwarten ist. Auf Basis dieses Settings haben wir im Schnitt rund 20% der spracherkannten Zeichen nachbearbeiten müssen. Verzichten Sie dagegen in Ihren Transkripten auf Hinweise zum Lachen, Husten etc., so müssen weniger Zeichen korrigiert werden, was die Korrekturzeit verringert.

Im Folgenden sehen Sie auf der linken Seite das Beispiel eines Textes, den unsere Software aus einer digitalen Interviewaufnahme erzeugt hat. In der mittleren Spalte sehen Sie die nötigen Löschungen (rot) und Einfügungen (grün) und in der rechten Spalte das fertige Transkript. Hier können Sie die zugrunde liegende MP3-Testdatei herunterladen, um einen Eindruck von der Audioqualität und dem Setting zu bekommen. Beispiel Korrekturaufwand

Und wir werden kontinuierlich besser: Seit diesem Test wurde mittlerweile ein Algorithmus zur Erkennung von Satzzeichen entwickelt. Rund 85% der Satzzeichen werden im Prototypen korrekt gesetzt!


Vergleich mit anderen Anbietern

[Hier standen zunächst sehr selbstbewusst konkrete Vergleichsdaten. Aufgrund von Unsicherheiten bezüglich der rechtlichen Anforderungen an vergleichende Werbung haben wir diese jedoch entfernt].

 
 

Bessere Ergebnisse

So holen Sie das Meiste raus

  • Achten Sie auf eine gute Aufnahme mit wenigen Nebengeräuschen. Interviews aus einem Café oder der Mensa erhöhen den Korrekturaufwand deutlich.
  • Einzelinterviews mit zwei Sprechern werden zuverlässig gut erkannt. Mehr Sprecher verschlechtern die Ergebnisse deutlich.
  • Gleichzeitige Rede ist für menschliche Ohren schwer auseinanderzuhalten. So geht es auch jeder Spracherkennung. Also: je klarer die Sprecherwechsel, desto besser das Ergebnis!
  • Dialekte und Akzente können in vielen Varianten auftreten. Je stärker sie ausgeprägt sind, desto schlechter werden sie erkannt.
 

Wir halten hohe Sicherheitsstandards ein

DSGVO-konform

Qualitative Interviews enthalten meist personenbezogene Daten. Aus diesem Grund unterliegt die Weitergabe und Verarbeitung strengen Beschränkungen. Als Unternehmen mit Sitz in Deutschland erfüllt unser System die strengen Datenschutzbestimmungen der Europäischen Union. Wir achten auf hohe Sicherheitsstandards und eine transparente Infrastruktur, sodass Ihre Daten bei uns DSGVO-konform verarbeitet werden.

Die Übertragung der Dateien zu unseren Servern erfolgt immer verschlüsselt. Ihre Daten werden ausschließlich zur Spracherkennung und nicht für andere Zwecke verwendet, Da die Daten bereits während der Übertragung verschlüsselt werden können sie weder von uns, noch von Dritten eingesehen werden.

Die Spracherkennung wird ausschließlich auf ISO-27001-zertifizierten Servern in Deutschland laufen. Alle von uns genutzten Support- oder Hosting-Dienstleister sind über Verträge an aktuelle EU-Datenschutzrichtlinien gebunden.

Direkt nach der Umsetzung werden die Interviews gelöscht. Die Speicherung der erzeugten Textdatei erfolgt nur bis zur Abholung, danach werden Ihre Interviewdaten von unseren Servern gelöscht. Die fertigen Transkripte liegen dann nur noch bei Ihnen lokal als Textdatei vor und können auch nicht erneut abgerufen werden.

 

Spracherkennung in f4transkript

So wird die Nutzung ablaufen

Unsere Spracherkennung wird integraler Bestandteil von f4transkript (Windows, Linux, Mac) werden. Nach dem Release von Version 8 können Sie die Spracherkennung während der Open Beta ohne zusätzliche Gebühr nutzen.

Wer ab Oktober 2018 f4transkript in einer zeitlich unbeschränkten Vollversion erwirbt, erhält das Upgrade auf Version 8 kostenfrei.

  • f4transkript starten
  • Wenn Spracherkennung gewünscht, dann einfach Interview auswählen und verschlüsselt hochladen
  • Der Server führt die Spracherkennung durch
  • f4transkript benachrichtigt über den Bearbeitungsstand
  • f4transkript zeigt den fertigen Text
  • Sie korrigieren und schreiben Memos

To be honest...

Spracherkennung ist nicht immer geeignet

Nach unseren Tests können wir die Spracherkennung vor allem für Einzelinterviews mit guter Aufnahmequalität bei moderaten Tippfähigkeiten empfehlen (z. B. für Studierende, Doktoranden, Gelegenheitsnutzer bzw. für Projektarbeiten). Bei manchen Settings kann die manuelle Transkription dennoch schneller sein (siehe weiter oben "So holen Sie das Meiste raus").

Ausgesprochene Profischreibkräfte profitieren nur in geringem Umfang. Wenn Sie es schaffen, eine Stunde Interview in unter 4 Stunden sauber manuell zu transkribieren, werden Sie bei dem derzeitigen Entwicklungsstand von einer Spracherkennung wahrscheinlich nicht profitieren.

Auch für Gruppeninterviews gibt es noch keine zufriedenstellende Lösung. Diese sind meist deutlich komplexer und mit mehr überlappender Rede. Für diese konnten wir keinen Zeitvorteil durch unsere Spracherkennung feststellen.

Speziell für (sozialwissenschaftliche) Interviews

Von Sozialwissenschaftlern entwickelt

Seit über 13 Jahren entwickeln wir Transkriptions- und Analysesoftware, geben Schulungen zu Qualitativer Forschung, veröffentlichen eigene Transkriptionsregeln und haben im Rahmen der Promotion viele Stunden selbst transkribiert. Wir kennen die Anforderungen an sozialwissenschaftliche Transkriptionen sehr gut.

Das kooperierende Fraunhofer Institut für Intelligente Analyse- und Informationssysteme (IAIS) ist eines der führenden deutschen Forschungsinstitute im Bereich des maschinellen Lernens.

Gemeinsam haben wir ein Deep Recurrent Neural Network mit dedizierten, mehrfach korrekturgelesenen Interviewtranskripten und Audiodaten trainiert und technische Abläufe optimiert. Dieser Verbesserungsprozess läuft stetig. Unsere nächsten Ziele werden die Erkennung von englischer Sprache, die Toleranz gegenüber Hintergrundgeräuschen, die Darstellung von Zögerungslauten und eine Sprechererkennung sein. Über signifikante Verbesserungen der Erkennungsleistung werden wir auf dieser Seite berichten.