RG 3-01 "Multilinguale Spracherkennung"

Grundlagen der Automatischen Spracherkennung

  • Typ: Vorlesung (V)
  • Semester: WS 16/17
  • Zeit: 17.10.2016
    11:30 - 13:00 wöchentlich
    50.34 Raum -102 50.34 INFORMATIK, Kollegiengebäude am Fasanengarten


    19.10.2016
    15:45 - 17:15 wöchentlich
    50.34 Raum -102 50.34 INFORMATIK, Kollegiengebäude am Fasanengarten

    24.10.2016
    11:30 - 13:00 wöchentlich
    50.34 Raum -102 50.34 INFORMATIK, Kollegiengebäude am Fasanengarten

    26.10.2016
    15:45 - 17:15 wöchentlich
    50.34 Raum -102 50.34 INFORMATIK, Kollegiengebäude am Fasanengarten

    31.10.2016
    11:30 - 13:00 wöchentlich
    50.34 Raum -102 50.34 INFORMATIK, Kollegiengebäude am Fasanengarten

    02.11.2016
    15:45 - 17:15 wöchentlich
    50.34 Raum -102 50.34 INFORMATIK, Kollegiengebäude am Fasanengarten

    07.11.2016
    11:30 - 13:00 wöchentlich
    50.34 Raum -102 50.34 INFORMATIK, Kollegiengebäude am Fasanengarten

    09.11.2016
    15:45 - 17:15 wöchentlich
    50.34 Raum -102 50.34 INFORMATIK, Kollegiengebäude am Fasanengarten

    14.11.2016
    11:30 - 13:00 wöchentlich
    50.34 Raum -102 50.34 INFORMATIK, Kollegiengebäude am Fasanengarten

    16.11.2016
    15:45 - 17:15 wöchentlich
    50.34 Raum -102 50.34 INFORMATIK, Kollegiengebäude am Fasanengarten

    21.11.2016
    11:30 - 13:00 wöchentlich
    50.34 Raum -102 50.34 INFORMATIK, Kollegiengebäude am Fasanengarten

    23.11.2016
    15:45 - 17:15 wöchentlich
    50.34 Raum -102 50.34 INFORMATIK, Kollegiengebäude am Fasanengarten

    28.11.2016
    11:30 - 13:00 wöchentlich
    50.34 Raum -102 50.34 INFORMATIK, Kollegiengebäude am Fasanengarten

    30.11.2016
    15:45 - 17:15 wöchentlich
    50.34 Raum -102 50.34 INFORMATIK, Kollegiengebäude am Fasanengarten

    05.12.2016
    11:30 - 13:00 wöchentlich
    50.34 Raum -102 50.34 INFORMATIK, Kollegiengebäude am Fasanengarten

    07.12.2016
    15:45 - 17:15 wöchentlich
    50.34 Raum -102 50.34 INFORMATIK, Kollegiengebäude am Fasanengarten

    12.12.2016
    11:30 - 13:00 wöchentlich
    50.34 Raum -102 50.34 INFORMATIK, Kollegiengebäude am Fasanengarten

    14.12.2016
    15:45 - 17:15 wöchentlich
    50.34 Raum -102 50.34 INFORMATIK, Kollegiengebäude am Fasanengarten

    19.12.2016
    11:30 - 13:00 wöchentlich
    50.34 Raum -102 50.34 INFORMATIK, Kollegiengebäude am Fasanengarten

    21.12.2016
    15:45 - 17:15 wöchentlich
    50.34 Raum -102 50.34 INFORMATIK, Kollegiengebäude am Fasanengarten

    09.01.2017
    11:30 - 13:00 wöchentlich
    50.34 Raum -102 50.34 INFORMATIK, Kollegiengebäude am Fasanengarten

    11.01.2017
    15:45 - 17:15 wöchentlich
    50.34 Raum -102 50.34 INFORMATIK, Kollegiengebäude am Fasanengarten

    16.01.2017
    11:30 - 13:00 wöchentlich
    50.34 Raum -102 50.34 INFORMATIK, Kollegiengebäude am Fasanengarten

    18.01.2017
    15:45 - 17:15 wöchentlich
    50.34 Raum -102 50.34 INFORMATIK, Kollegiengebäude am Fasanengarten

    23.01.2017
    11:30 - 13:00 wöchentlich
    50.34 Raum -102 50.34 INFORMATIK, Kollegiengebäude am Fasanengarten

    25.01.2017
    15:45 - 17:15 wöchentlich
    50.34 Raum -102 50.34 INFORMATIK, Kollegiengebäude am Fasanengarten

    30.01.2017
    11:30 - 13:00 wöchentlich
    50.34 Raum -102 50.34 INFORMATIK, Kollegiengebäude am Fasanengarten

    01.02.2017
    15:45 - 17:15 wöchentlich
    50.34 Raum -102 50.34 INFORMATIK, Kollegiengebäude am Fasanengarten

    06.02.2017
    11:30 - 13:00 wöchentlich
    50.34 Raum -102 50.34 INFORMATIK, Kollegiengebäude am Fasanengarten

    08.02.2017
    15:45 - 17:15 wöchentlich
    50.34 Raum -102 50.34 INFORMATIK, Kollegiengebäude am Fasanengarten


  • Dozent: Prof.Dr. Alexander Waibel

    Dr. Sebastian Stüker
  • SWS: 4
  • LVNr.: 24145
Beschreibung Die Vorlesung erläutert den Aufbau eines modernen Spracherkennungssystems. Der Aufbau wird dabei motiviert ausgehend von der Produktion menschlicher Sprache und ihrer Eigenschaften. Es werden alle Verarbeitungsschritte von der Signalverarbeitung über das Training geeigneter, statistischer Modelle, bis hin zur eigentlichen Erkennung ausführlich behandelt.

Dabei stehen statistische Methoden, wie sie in aktuellen Spracherkennungssystemen verwendet werden, im Vordergrund. Somit wird der Stand der Technik in der automatischen Spracherkennung vermittelt. Ferner werden alternative Methoden vorgestellt, aus denen sich die aktuellen entwickelt haben und die zum Teil noch in spezialisierten Fällen in der Spracherkennung zum Einsatz kommen.

Anhand von Beispielanwendungen und Beispielen aus aktuellen Projekten wird der Stand der Technik und die Leistungsfähigkeit moderner Systeme veranschaulicht. Zusätzlich zu den grundlegenden Techniken wird auch eine Einführung in die weiterführenden Techniken automatischer Spracherkennung geben, um so zu vermitteln, wie moderne, leistungsfähige Spracherkennungssysteme trainiert und angewendet werden können.
Literaturhinweise
  • Xuedong Huang, Alex Acero, Hsiao-wuen Hon, Spoken Language Processing, Prentice Hall, NJ, USA, 2001
  • Fredrick Jelinek (editor), Statistical Methods for Speech Recognition, The MIT Press,1997, Cambridge, Massachusetts, London, England

Weiterführende Literatur

  • Lawrence Rabiner and Ronald W. Schafer, Digital Processing of Speech Signals, Prentice Hall, 1978
  • Schukat-Talamazzini, Automatische Spracherkennung
Lehrinhalt

Die Vorlesung erläutert den Aufbau eines modernen Spracherkennungssystems. Der Aufbau wird dabei motiviert ausgehend von der Produktion menschlicher Sprache und ihrer Eigenschaften. Es werden alle Verarbeitungsschritte von der Signalverarbeitung über das Training geeigneter, statistischer Modelle, bis hin zur eigentlichen Erkennung ausführlich behandelt.

Dabei stehen statistische Methoden, wie sie in aktuellen Spracherkennungssystemen verwendet werden, im Vordergrund. Somit wird der Stand der Technik in der automatischen Spracherkennung vermittelt. Ferner werden alternative Methoden vorgestellt, aus denen sich die aktuellen entwickelt haben und die zum Teil noch in spezialisierten Fällen in der Spracherkennung zum Einsatz kommen.

Anhand von Beispielanwendungen und Beispielen aus aktuellen Projekten wird der Stand der Technik und die Leistungsfähigkeit moderner Systeme veranschaulicht. Zusätzlich zu den grundlegenden Techniken wird auch eine Einführung in die weiterführenden Techniken automatischer Spracherkennung geben, um so zu vermitteln, wie moderne, leistungsfähige Spracherkennungssysteme trainiert und angewendet werden können.

Arbeitsbelastung

180 h

Ziel

Der Student wird in die Grundlagen der automatischen Erkennung von Sprache eingeführt. Er lernt dabei den grundlegenden Aufbau eines Spracherkennungssystems kennen sowie die konkrete Anwendung der Konzepte und Methoden aus dem Bereich des maschinellen Lernens, die bei der automatischen Spracherkennung eingesetzt werden.

Um ein tieferes Verständnis zu erlangen und zur Motivation der eingesetzten Techniken, soll der Student ferner das grundlegende Konzept der Produktion menschlicher Sprache verstehen und daraus den Aufbau eines Spracherkennungssystems ableiten können.

Ferner sollen die Studenten verschiedene Anwendungsfälle für automatische Spracherkennung analysieren können und, basierend auf der erkannten Komplexität des Anwendungsfalls, ein geeignetes Spracherkennungssystem entwerfen können.

Im einzelnen sollen die Studenten den Aufbau der Komponenten eines Spracherkennungssystems --- Vorverarbeitung, akustisches Modell, Sprachmodell und Suche --- erlernen. Die Studenten sollen in der Lage sein, nach Besuch der Vorlesung entsprechende Komponenten selber implementieren oder anwenden zu können.
Die Studierenden erlernen ferner die Fähigkeit, die Leistungsfähigkeit von konkreten Spracherkennungssystemen beurteilen und evaluieren zu können.

Ferner soll der Student in die Grundlagen weiterführender Techniken der automatischen Spracherkennung, etwa die Verwendung von Modell- und Merkmalsraumadaption, und die Art ihrer Anwendung eingeführt werden.

Prüfung

Die Erfolgskontrolle wird in der Modulbeschreibung erläutert.