Spracherkennung: Diktiergerät, das zwei Sprecher unterscheiden kann

Wilfried Schaffner hat eine Vision. Deswegen haben sie ihn geholt. Denn Experten, die praxistaugliche Anwendungen rund um Spracherkennung bauen könne, die haben sie in seiner Firma in Wien schon lange. Schaffner ist der neue Technikchef (CTO), einer, der in Australien gearbeitet und gelebt hat, aber auch im Silicon Valley. Der das mitbringt, was dem ehemals zum Philips-Konzern gehörenden Team bisher fehlte: visionäres Denken. Schaffners Traum: Aus einem Arztgespräch könnten doch mit Hilfe von künstlicher Intelligenz gleich Befunde erstellt und im Anschluss direkt Rezepte ausgeschrieben werden.

Noch ist die Technik zwar nicht soweit, aber eine recht nützliche Anwendung hat das Wiener Labor schon jetzt nahe an die Marktreife gebracht. Es geht um ein Gerät, das man auf den Tisch zwischen zwei Sprecherinnen oder Sprecher legt. Und das - wenn es denn so funktioniert wie angekündigt - mit geringer Fehlerrate in elektronischen Text umwandeln soll, was beide gesagt haben - und zwar getrennt nach den Sprechern.

Der Bedarf dafür sei riesig, sagt Schaffner. Nicht nur Ärzte seien mögliche Kunden, es gebe auch Anfragen aus Gefängnissen. Dort werden Gespräche zwischen Besuchern und Insassen bisher stichpunktartig erfasst. Künftig aber sei es möglich, die Gesprächsinhalte zu digitalisieren und zum Beispiel nach bestimmten Begriffen zu durchsuchen.

Aber auch Versicherungen und Banken seien interessiert. Die müssen aus Gründen der Transparenz Gespräche mitschneiden, um zu dokumentieren, dass sie hinreichend auf Risiken etwa bestimmter Anlageformen hingewiesen und keine leeren Versprechungen gemacht haben.

Die Richtung der Schallwellen macht den Unterschied

Und auch die nächste Stufe hat Schaffner schon im Blick: Ein kleines Mikrofon zum Anstecken, das beispielweise eine Ärztin tragen kann, während sie einen Patienten untersucht. Das ist deshalb technisch anspruchsvoll, weil die Spracherkennungssoftware nicht etwa an den Unterschieden der Stimmen erkennen soll, wer gerade spricht. Dies soll ausschließlich mit Hilfe von Mikrofon-Systemen geschehen, die registrieren können, aus welcher Richtung Schallwellen kommen.

Um die Qualität der Spracherkennung zu erhöhen, wird dabei die Empfindlichkeit des Mikrofons in Richtung der Sprecher gesteuert, im Fachjargon nennt man das "Beamforming". Bei dem am Körper getragenen Mikrofon muss sich also die Richtung, in die das Mikro besonders intensiv lauscht, dynamisch mit den Bewegungen ändern.

Vorerst ist dies aber noch eine Vision. Das Gerät für den Tisch, das zwei Sprecher unterscheiden kann, soll hingegen schon im Herbst dieses Jahres auf den Markt kommen. Die frühere Philips-Mannschaft, die den Namen bloß noch in Lizenz trägt, arbeitet jedenfalls mit Hochdruck an der Anwendersoftware, die dabei helfen soll, die Zwiegespräche mit möglichst wenig Fehlern aufzuzeichnen.