Hessischer Gruenderpreis

Verfasst von Thorsten Pehl am 29.04.2009

Klingt spannend, klappt
aber aktuell nur mit
Diktaten, nicht bei
Interviews oder
komplexen
Sprechsituationen.

Spracherkennung - Software, Untersuchungen und Praxisberichte

Ein Überblick von Dr. Thorsten Dresing und Thorsten Pehl. Version 2 vom 27. November 2009

Einfach ein Gespräch oder Diktat aufnehmen und mit wenigen Klicks sofort als Text in Word stehen haben - so oder ähnlich klingen viele Wünsche, die wir von Kunden erzählt bekommen, meist verbunden mit der Skepsis: Klappt das denn wirklich? Die Werbeaussagen der Hersteller sprechen von einfacher Bedienung, enormer Zeitersparnis und geringer Fehlerquote.  Gleichzeitig kursieren Videos, in denen Spracherkennung völlig versagt.  Zwar gibt es zahlreiche Berichte über den erfolgreichen Einsatz von Spracherkennung, bei denen jedoch schwer zwischen objektiver Berichterstattung und Marketingaussagen unterschieden werden kann. Daher versuchen wir, uns kontinuierlich dem Thema neutral aber interessiert und nach Möglichkeit wissenschaftlich, also nachprüfbar zu widmen. Diesen Artikel werden wir also stetig erweitern!

Kurzes Fazit: Spracherkennung /-steuerung für Diktierer oder körperlich benachteiligte Menschen bedingt nutzbar! Für Interviews oder Gesprächsituationen nahezu unmöglich.

Im Mai 2009 aktuelle Spracherkennungssoftware

1. Der Platzhirsch unter den Anbietern ist die Firma Nuance mit seinem Programm Dragon Naturally Speaking Version 10 (Windows) und kostet etwa 149 Euro.

2. Kostenfrei findet sich in jedem Windows Vista System eine funktionierenden Spracherkennung integriert. Die Funktion ist etwas versteckt, lässt sich aber über die Suche nach "Spracherkennung" schnell finden. In unseren Test war die Erkennungsgenauigkeit vergleichbar mit der von Dragon Naturally Speaking Version 9. Ideal zum testen, da kostenfrei!

3. Die Firma Linguatec bietet mit seiner aktuellen Software VoicePro 12 eine Software, die auf die Vista Spracherkennungstechnik aufbaut. Michael Spehr hat in in einem Artikel in der FAZ auf einige Mängel von VoicePro 12 hingewiesen.

4. In der aktuellen Version von Adobe Premiere Pro CS4 ist eine Spracherkennung integriert, die es ermöglichen soll, Video- und Audiodaten automatisch in Text zu transkribieren und so die eigene Mediensammlung nach inhaltlichen Begriffen zu durchsuchen. Jedes erkannte Wort ist dabei mit der Originalpassage verknüpft - anklicken bewirkt exaktes abspielen der Position. Unser Testergebnis ergab völligen Unsinn, obgleich wir uns akribisch an das offizielle Tutorial gehalten haben.

5. Für Linux und Windows exisitert ausserdem die Open-Source-Spracherkennung "Simon". Die  Einrichtung und Nutzung dieser Software ist - wie viele Linux-Projekte - eher für fortgeschrittene und engagierte Nutzer geeignet. Uns ist es bisher nicht gelungen, Simon erfolgreich zu testen. 

6. Unter Mac OS ist Spracherkennung noch in den Kinderschuhen. Die aktuell einzig verfügbare Lösung iListen schneidet in Tests gerade mal "befriedigend" ab (MacLife 11/07, Macwelt 02/08, freenet 02/07). Neben der schlechten Erkennungsgenauigkeit sind eine unhandliche Bedienung und unkomfortable Korrektur entscheidende Mankos. Für 2009 ist eine Nachfolgeversion von iListen angekündigt, die sich ab dann "Dictate" nennt. Die Hersteller versprechen eine grundständig für Mac entwickelte Version der etablierten Technologie von Nuance. Wir werden diese testen, sobald sie verfügbar ist.

Wissenschaftliche Untersuchungen zu Spracherkennung

Zum Stand der Forschung sind uns aktuell lediglich drei wissenschaftliche Untersuchungen zum Einsatz von Spracherkennung bekannt, die nach empirischen Kriterien durchgeführt wurden. Sollten Sie weitere empirische Untersuchungen kennen, freuen wir uns über einen Hinweis!

1. Einsetzbarkeit und Nutzen der digitalen Spracherkennung in der radiologischen Diagnostik von Holger Arndt, 1999
2. Schnellere Transkription durch Spracherkennung von Dr. Thorsten Dresing, Thorsten Pehl und Claudia Lombardo, 2008 und
3. der Delphi-Report: Zukünftige Informations- und Kommunikationstechniken des Frauenhofer Instituts von Kerstin Cuhls und Simone Kimpeler, 2007

1. Spracherkennung in der Radiologie (Dokumentenserver der HU-Berlin)

Holger Arndt begleitete 1999 drei Ärzte, bei der Befunderstellung per Spracherkennung. Auch wenn diese Studie zehn Jahre alt ist: Die Spracherkennung erreichte damals eine Erkennungsgenauigkeit von ca. 98% und ist damit durchaus mit aktuellen Systemen vergleichbar. Insgesamt wurden rund 3000 Befunde sowohl mit Spracherkennung als auch per Tastatur eingegeben. Das Fazit: Spracherkennung lässt sich "nicht ausnahmslos favorisieren", sie konnte nur einem Nutzer zeitlichen Vorteile bringen. Die Nutzung von Tastenkürzeln und Textbausteinen erwies sich in jedem Fall als effektivere Zeitersparnis im Vergleich zu Spracherkennung.

2. Spracherkennung von Interviews

In unserern eigenen Untersuchung haben 20 Probanden Interviewsequenzen sowohl mit Spracherkennung, als auch manuell transkribiert. Es wurden Schreib- und Korrekturzeiten und die persönlichen Eindrücke der Testpersonen erfasst. Das Fazit: Die Bearbeitung mit Spracherkennung bringt keinen zeitlichen Vorsprung. Das gilt sowohl für Personen mit schneller Tippgeschwindigkeit, als auch für langsame Tipper.  Im persönlichen Erleben wurde die Nutzung von Spracherkennung als "spannend" und "cool" beschrieben, diese Eindrücke werden aber schnell überlagert von Ärger über Erkennungsfehler und Bedienbarkeit. Den kompletten Bericht finden Sie im Forum für Qualitative Sozialforschung (FQS)

3. Delphi-Studie zur Spracherkennung

Das Fraunhofer Institut hat in einer Delphi Studie Experten nach wahrscheinlichen und unwahrscheinlichen Techniken befragt, die zukünftig die menschliche Kommunikation bestimmen werden. Gefragt wurde, wann diese Realität werden können, welche Auswirkungen dadurch zu erwarten sind und welche Hemmnisse einer Realisierung im Weg stehen könnten. Befragt wurden 681 beziehungsweise in der zweiten Runde 481 IT- und Medienexperten. Das Fazit zur Spracherkennungstechnologie: "Spracherkennungssoftware zu entwickeln, die eine überwiegende Zahl der Nutzer ohne Training erkennt und dabei eine Trefferquote von mehr als 90 Prozent erreicht, ist nach Ansicht der Experten bis 2016 möglich." (2007; Kuhls, Cempler; Delphi-Report: Zukünftige Informations- und Kommunikationstechniken; S.11)

4. An evaluation of voice recognition software for use in interview-based research: a research note

Diese Studie von Jule Park und A. Echo Zeanah aus dem Jahr 2005 versucht die Vor- und Nachteile von Spracherkennungssoftware beim Einsatz von Interviewtranskriotion darzulegen. Der Bericht is in englischer Sprache hier verfügbar.

Testberichte oder Links zu Spracherkennung

1. Einen kurzen Praxisbericht zu Spracherkennung von Diktaten mit Dragon Naturally Version 9 (aus 2008) und dem Olympus WS110 haben wir hier für Sie nachvollziehbar aufbereitet.

2. Toller und stetig aktueller Blog zu Spracherkennung von Stephan Küpper.

16.08.2009 - P.P. (nicht überprüft) sagt:

Sehr geehrtes Team,

welche Software könnten Sie mir nach - beziehungsweise trotz - aktuellem Stand für die Überführung von Audiodateien (auch Interviews) in eine Textverarbeitungsprogramm (Word) empfehlen, bitte?

Mit Dank im voraus verbleibe ich mit freundlichen Grüßen,
P.P.

17.08.2009 - Thorsten Pehl sagt:

Die beste Software ist aktuell Dragon Naturally Speaking.
Für die Umsetzung von Audiodateien, also nicht von direktem Diktat in den Rechner, ist die Version "Preferred" nötig.

21.09.2009 - rainer (nicht überprüft) sagt:

Hallo,
in der neuen Production Suite CS 4 von Adobe ist das Videoschnittprogramm Premiere enthalten. Bei einem kürzlich besuchten Workshop dazu konnte ich miterleben, wie in einem Video enthaltene Sprachsequenzen (Deutsch und Englisch)fehlerlos in Text umgewandelt wurden. Die Übertragung erfolgte im Hintergrund, während weiter am Videoschnitt gearbeitet wurde.

21.09.2009 - Thorsten Dresing sagt:

Genau die haben wir getestet und bei handelsüblichen Interviewaufzeichnungen wirklich nur Unsinn herausbekommen. Sprich keine sinnvollen Sätze und keine Worte, die mit dem Inhalt übereinstimmen. Eventuell mag dies bei sehr klar gesprochenen Nachrichtentext oder ähnlichen besser sein. Ein klassisches Gespräch wie es im Unikontext erstellt wird ist damit bisher nicht automatisch zu transkribieren. Sie können für einen Test gerne die Adobe Demoversion laden und einige unserer MP3 Dateien oder Videosequenzen hier auf der Seite verwenden, bei denen sie uns im Gespräch hören.

03.10.2009 - Zobel (nicht überprüft) sagt:

Hallo Zusammen,
mir gefällt Ihr Portal sehr gut. Auch sind Ihre Preise angemessen. Ich werde wohl demnächst Kunde bei Ihnen.
Ein Frage zu MacSpeech Dictate habe ich. Leider finde ich nur Vermutungen bezüglich der Vorankündigung, dass Programm ist aber bereits verfügbar. Habe Sie es bereits getestet? Wir haben einen Mac und wollen es für einen Sehbehinderten Mensch zusammen mit dem Olympus DS 2400 einsetzen . Wir sind im Besitz des DS 75, was aber leider für Diktate nicht geeignet ist.
Bitte um bald möglichste Antwort.
mfg
Zobel

03.10.2009 - Thorsten Dresing sagt:

Leider haben wir noch keine Test mit MacSpeech vorgenommen, es wird vermutlich nicht wesentlich besser sein können, als die Windowsvariante Dragon Naturally Speaking 10. Bisher waren die Mac Versionen immer deutlich schlechter, als dass, was zeitgleich auf Windowsebene möglich war. Das DS-75 eignet sich leider nur für Gesprächsaufnahmen (dafür aber sehr gut), nicht aber für Diktate. Eventuell können sie es über ebay verkaufen.

10.11.2009 - Peter Grasch (nicht überprüft) sagt:

Sehr geehrtes Team von AudioTranskription.de!

Mein Name ist Peter Grasch und ich bin einer der Entwickler hinter der Open-Source Spracherkennung "simon".

Es tut mir leid zu hören, dass Sie offensichtlich Probleme mit der Einrichtung der Software hatten.

Anders als kommerzielle Software, ist simon viel modularer gehalten und somit als einzige Lösung auch für Menschen mit schwerer Sprachbeeinträchtigung einsetzbar.

Diese Flexibilität macht die Konfiguration für den Standardfall aber natürlich etwas komplizierter. Um diesen Umstand zu kompensieren, liefern wir die Software mit ausführlichen Handbüchern aus, die die Architektur und die Verwendung des Systems einfach erklären.

Diese Handbücher sind auch online verfügbar: http://simon-listens.org/wiki/index.php/Deutsch:_Handbuch

Beachten Sie aber bitte, dass eine Diktation wie z.B. bei DragonNaturallySpeaking derzeit noch nicht unterstützt wird.

Sollten Sie die Software trotzdem testen wollen und haben noch immer Probleme möchte ich hier auch auf unsere vielfältigen und absolut kostenlosen Supportmöglichkeiten hinweisen:
simon Wiki: http://simon-listens.org/wiki/index.php/Main_Page
Forum: http://sourceforge.net/projects/speech2text/forums/forum/672427
Persönlicher Kontakt: support simon-listens°org

Mit freundlichen Grüßen,
Peter Grasch

10.11.2009 - Thorsten Dresing sagt:

Sehr geehrter Herr Grasch, wir begrüssen ihre Kontaktaufnahme sehr. Unser Mitarbeiter wird sich in den nächsten Wochen bei Fragen mit ihnen in Verbindung setzen!

Kommentar hinzufügen

Der Inhalt dieses Feldes wird nicht öffentlich zugänglich angezeigt.
CAPTCHA
Diese Frage dient dazu automatisierte SPAM-Beiträge zu reduzieren. Um Spam zu verhindern wird ihr Beitrag redaktionell geprüft und dann manuell freigeschaltet.