bedeckt München 30°

Spracherkennung:Warum Siri und Alexa manchmal Bahnhof verstehen

Smiling woman talking on speaker over smart phone while sitting on sofa at home model released Symbolfoto property relea

Manchmal ist es zum Lachen, was Spracherkennungssysteme aus eingesprochenem Text machen.

(Foto: Markus Mielek/imago images/Westend61)

Die automatische Spracherkennung hat viele Fortschritte gemacht. Doch Audioaufnahmen in Text umzuwandeln, ist noch immer komplex.

Von Hans von der Hagen

Sicher wäre alles anders gekommen, wenn nicht irgendwann die ARD beim Fraunhofer-Institut IAIS in Sankt Augustin angeklopft hätte. Die Rundfunkanstalt hatte ein großes Anliegen: Sie wollte ihr Film- und Audiomaterial so bearbeiten, dass es am Ende durchsucht werden kann. Um das zu ermöglichen, sollten die Aufnahmen automatisch transkribiert werden, Wort für Wort. Das mag banal klingen, wo es doch für viele längst zur Gewohnheit geworden ist, den virtuellen Handy-Gehilfen Siri oder Alexa Befehle zu erteilen. Diese können mit einem kurzen "Siri, ruf Toni an" auch gut umgehen. Nichts anfangen können sie freilich mit Sätzen, die von den vorgegebenen Mustern abweichen.

Denn zwischen kurzen, sich immer auf ähnliche Weise wiederholenden Befehlen und dem Transkribieren einer Unterhaltung oder eines Filmbeitrags liegen Welten - obschon die dahinterliegende Technik vergleichbar ist. Das Problem: Ein Wort klingt für den Rechner nie gleich. Selbst wenn ein und dieselbe Person es mehrmals ausspricht - jedes Mal ist es für den Rechner neu. Darum ist es für eine Software auch ungleich schwieriger, Worte zu identifizieren als beispielsweise Musikstücke einer CD, weil diese immer exakt gleich sind.

Dass nun aber gerade in Deutschland in diesem Bereich zuletzt größere Fortschritte gemacht wurden, liegt eben auch an der ARD und dem Fraunhofer-Institut. Technologisch könne man durchaus mit den großen Tech-Unternehmen wie Microsoft und Google mithalten, sagt Joachim Köhler, der beim IAIS und anderem für das Erkennen und die Analyse von Sprache mittels künstlicher Intelligenz zuständig ist.

Doch wie funktioniert nun die automatische Transkription? Jede Audioaufnahme wird durch die Software des IAIS in winzige Segmente zerlegt. Diese Audiosegmente werden in eine Folge von Sprachlauten umgewandelt. Der Rest ist Statistik: Wie wahrscheinlich ist es, dass die Laute zu einem bestimmten Wort gehören - und wie wahrscheinlich ist es, dass einem bestimmten Wort ein weiteres folgt? Ganz so wie auf dem Handy: Ist ein Wort getippt, bietet einem die Software weitere Worte zur Auswahl an, die typischerweise dem vorherigen folgen.

"Wie gut dieser Prozess von einer Spracherkennungssoftware umgesetzt wird, liegt nicht nur an der Qualität der Aufnahme, sondern auch an den Texten, mit denen die Software bislang trainiert wurde", sagt Köhler. Das wird schon an den Sätzen aus dem Gespräch mit ihm deutlich, die er anschließend für diesen Artikel von der Software auslesen lässt. Die Aufnahmebedingungen waren dabei denkbar ungünstig - und damit wiederum durchaus alltagsnah: Zwei Menschen telefonieren über die Freisprecheinrichtung, ein Diktiergerät nimmt das Gespräch auf. Auf der Tonaufnahme sagt Köhler beispielsweise: "Sprachlaute sind jetzt in der Regel keine Buchstaben, das hat keine 1:1-Beziehung, aber klar, es sind gewisse Ähnlichkeiten da. Im Deutschen gibt's, also in unserem System, so 40 Sprachlaute."

Manchmal tut sich die Software schwer

Die Transkriptionssoftware macht in diesem Fall aus dem Satz ein kaum verständliches Wortkonglomerat: "Ein Haus in dem Sinne keine Buchstaben Beziehung. Aber im Deutschen gibt es Sprachlaute." Andere Sätze versteht die Software hingegen problemlos.

Warum tut sich also die Software mitunter schwer? Daran sind in diesem Fall nicht nur die ungünstigen akustischen Verhältnisse schuld. Köhler sagt auch, dass es einer Software nicht leichtfalle, den vielfältigen Wegen der Spontansprache zu folgen. Der Mensch neige dazu, mitten in Sätzen und Worten den Sprachfluss abzubrechen und neu zu beginnen.

Am Ende kommen dann oft sehr verschachtelte Konstrukte heraus. Das merkt jeder, der mal eine ganze Unterhaltung von einer Software transkribieren lässt: Selbst, wenn das Gesprochene richtig erkannt wird, geht es in den Texten oft recht chaotisch zu.

Für viele interessant

Die Umwandlung von Sprache in Text ist nicht nur für Medienunternehmen wie die ARD interessant, sondern für alle, die Aufnahmen in Text umwandeln wollen: Studenten, die Vorlesungsinhalte aus Videos nachlesen wollen, Doktoranden, die für ihre Dissertationen Interviews führen, Podcaster, die gefunden werden wollen, Unternehmen, die ihre Sitzungen protokollieren möchten - der Bedarf ist endlos.

Darum ist es nicht verwunderlich, dass vor allem im englischsprachigen Raum mittlerweile schon einige Unternehmen ähnliche Dienste anbieten. Neben den Tech-Größen wie Google oder Microsoft sind das beispielsweise auch kleinere Unternehmen wie Trint oder Speechmatics.

Die Lösung des Fraunhofer-Instituts wird von einer Firma namens Dr. Dresing & Pehl angeboten. Sie wurde einst von Studenten gegründet, die selbst viel Zeit mit dem Tippen wissenschaftlicher Interviews zugebracht hatten und bessere Lösungen dafür suchten.

Die Verarbeitung der Daten findet in Deutschland statt, sodass nach Angaben des Instituts eine Speicherung und Verarbeitung der Sprachaufnahmen nach den Richtlinien der Datenschutzgrundverordnung gewährleistet ist. Die Fehlerraten sollen "je nach Aufnahmequalität in der Regel" im einstelligen Prozentbereich liegen.

Training macht den Meister

Allen Anbietern gemeinsam ist, dass sie ihre Systeme trainieren müssen - etwa mithilfe großer Sprachdatenbanken wie denen vom Linguistic Data Consortium in den USA oder der European Language Resources Association, aber auch vielen Stunden händisch erzeugten Transkripten von Videos und Audiodateien.

Die automatische Transkription von Videos und Audiodateien ist mittlerweile weit verbreitet. Und die Spracherkennung verbessert sich dabei fortlaufend. Allerdings gilt auch heute noch: Wer mit zu hohen Erwartungen eine solche Software nutzt, dürfte schnell enttäuscht werden. Zwar können bei guten Aufnahmen erstaunlich gute Ergebnisse entstehen, sie können allerdings auch erstaunlich schlecht sein - vor allem bei ungünstigen Aufnahmebedingungen. Da gilt es zu rechnen, was am Ende mehr Zeit kostet: die Korrektur - oder das händische Transkribieren. Wem aber vor allem daran gelegen ist, möglichst schnell Textpassagen in langen Aufnahmen zu finden, wird mit einer solchen Software durchaus glücklich werden.

Menschen sollen irgendwann Dialoge mit Maschinen führen

Was lässt sich noch mit einer solchen Software anstellen? Eines der großen Ziele ist, dass der Mensch irgendwann auch komplexere Dialoge mit Maschinen führen kann. Unternehmen wie I2x des früheren Studi-VZ-Chefs Michael Brehm sind bereits so weit, dass sie menschliche Dialoge analysieren und Verbesserungsvorschläge machen können - und zwar live, unmittelbar während eines Telefongesprächs. Brehm nennt es Coachen in Echtzeit und betont, dass die Software nicht zur Überwachung dient. Zum Einsatz kommt Brehms Software etwa in Callcentern, wenn Mitarbeiter nach immer gleichen Schemata mit den Kunden sprechen. Da kann es um das Verkaufen von Handyverträgen gehen, aber auch um Gespräche mit medizinischen Probanden - etwa wenn im Rahmen von klinischen Studien Hunderte Personen angerufen und die immer gleichen Daten abgefragt werden müssen. Die Software könnte Hinweise geben, wenn Fragen vom Mitarbeiter vergessen wurden.

Die ARD kann nun übrigens mit der Software vom Fraunhofer IAIS wie geplant ihr Film- und Audiomaterial automatisch durchsuchen. Die verbleibende Fehlerquote beim Transkribieren fällt da nicht ins Gewicht. Im nächsten Schritt ist geplant, mithilfe der Software Sendungen live zu untertiteln - die Tests laufen bereits.

© SZ
Zur SZ-Startseite

Lesen Sie mehr zum Thema

Süddeutsche Zeitung
  • Twitter-Seite der SZ
  • Facebook-Seite der SZ
  • Instagram-Seite der SZ
  • Mediadaten
  • Newsletter
  • Eilmeldungen
  • RSS
  • Apps
  • Jobs
  • Datenschutz
  • Kontakt und Impressum
  • AGB