RG 3-01 "Multilinguale Spracherkennung"

Forschung in der RG 3-01

Übersetzung von Vorlesungen

Vorträge und Vorlesungen bieten häufig wertvolle Inhalte für eine große Gruppe von Zuhörern. Aufgrund von Sprachbarrieren können viele Vorträge aber nicht das volle Potential an Zuhörern erreichen. Aufgrund der hohen Kosten sind menschliche Übersetzer nur für wenige Fälle eine Option.

Sprach-zu-Sprach-Übersetzungstechnik kann hier eine Lücke füllen und für die vielen Situationen, in denen menschliche Übersetzer zu teuer wären, eine Lösung bieten. Sprach-zu-Sprach-Übersetzungssysteme sind dabei die Kombination aus den Techniken der automatischen Spracherkennung (ASR), maschineller Übersetzung (MT) und Sprachsynthese.

Im Bereich der automatischen Spracherkennung ergeben sich mit Bezug auf die simultane Übersetzung von Vorlesungen wichtige Forschungsaspekte:

Themenadaption

Spracherkennungssysteme liefern die beste Leistung, wenn sie auf den Sprachstil und den Inhalt der zu erkennenden Sprache so gut wie möglich angepasst sind. Diskrepanzen zwischen den Themen mit denen die Modelle trainiert wurden und den Themen der zu erkennenden Sprachen führen unter Umständen zu großen Leistungseinbußen wegen sogenannter "Out-Of-Vocabulary" Worte und falsch geschätzer N-Gram-Wahrscheinlichkeiten im Sprachmodell des Erkennungssystems.

Laufzeit und Latenz

Insbesondere für die simultane Übersetzung von Vorlesungen die Spracherkennung muss in Echtzeit durchgeführt werden und das Ergebniss mit möglichst geringer Latenz zur Verfügung stellen. Nur so können die Zuhörer der Übersetzung Folgen und den Inhalt der Vorlesung in Beziehung setzen zur Interaktion des Vorlesenden mit den Hörern. Im Bereich der Latenz ergeben sich interessante Fragestellungen an der Schnittstelle zur maschinellen Übersetzung, da zur Durchführung einer richtigen Übersetzung eine gewisse Menge an linguistischem Kontext vorhanden sein muss.