FAQ
© 2015 Staats- und Universitätsbibliothek
Hamburg, Carl von Ossietzky

Öffnungszeiten heute09.00 bis 24.00 Uhr alle Öffnungszeiten

Eingang zum Volltext in OPUS

Hinweis zum Urheberrecht

Dissertation zugänglich unter
URN: urn:nbn:de:gbv:18-59467
URL: http://ediss.sub.uni-hamburg.de/volltexte/2012/5946/


Bimodal Speech Recognition

Bimodale Spracherkennung

Gan, Tian

pdf-Format:
 Dokument 1.pdf (2.496 KB) 


Freie Schlagwörter (Englisch): speech recognition , lip reading , articulatory information , multimodal integration
Basisklassifikation: 54.75
Institut: Informatik
DDC-Sachgruppe: Informatik
Dokumentart: Dissertation
Hauptberichter: Menzel, Wolfgang (Prof. Dr.)
Sprache: Englisch
Tag der mündlichen Prüfung: 12.11.2012
Erstellungsjahr: 2012
Publikationsdatum: 03.12.2012
Kurzfassung auf Deutsch: Es ist schwer, automatische Spracherkennung (ASR) weiter zu verbessern, wenn nur das akustische Signal betrachtet wird. In de Literatur werden jedoch zwei alternative Ansätze verfolgt, um die Leistung der ASR unter Einbeziehung zusätzlicher Informationen zu verbessern. Zum einen audiovisuelle Spracherkennung (AVSR), die einen zusätzlichen Kanal visueller Merkmale nutzt, um reduzierte Signalqualität zu kompensieren, z. B. für Spracherkennung in Umgebungen mit viel Hintergrundlärm. Zum anderen wurden artikulatorischen Informationen Modell eingeführt, um Koartikulationseffekte und Erkenntnisse der Sprachproduktion mit in das Spracherkennungsverfahren einfließen zu lassen. Das Ziel dieser Arbeit ist es, die Möglichkeiten und Vorteile der Integration von artikulatorischen Informationen in AVSRSysteme zu untersuchen.
Als eine der Fragestellungen wird zuerst die Frage der Machbarkeit untersucht. Wir haben vier verschiedene Ansätze für die Verwendung artikulatorischen Informationen definiert. Mit Ausnahme des Ansatzes zur Nutzung von artikulatorischen Rohdaten werden im Rahmen dieser Arbeit alle diese Ansätze diskutiert:
1. Der Ansatz der artikulatorischen Transkription nutzt ein HMM- / N-Beste Framework als Entscheidungsgrundlage. Das N-beste Entscheidungsschema ist ein Verfahren zur optimalen Kombination von Entscheidungen aus verschiedenen artikulatorischen Kanälen.
2. Der Ansatz der artikulatorischen Merkmale nutzt ein ANN- / HMM Framework, um abstrakte Klassen als artikulatorische Merkmale zu extrahieren und die Low-Level-Audio- und visuellen Merkmale durch diese Klassen zu ergänzen oder zu ersetzen.
3. Die artikulatorische Modellierung verwendet dynamische Bayessche Netze (DBN) zur Integration mit verschiedenen Strukturen für das Training und die Dekodierung von artikulatorischen Informationen.
Verglichen mit den Ergebnissen eines einfachen informationsbasierten AVSR fanden wir, dass alle Ergebnisse aus den oben genannten Systemen auf eine Verbesserung der Erkennungsgenauigkeit hindeuten.
Als zweite Forschungsfrage richtet sich diese Arbeit auf die Modellierung. Es werden Frame-, Sub-Phon, Phon und Wort als die vier Ebenen der phonetischen Modellierung betrachtet. Die Ebene der artikulatorischen Informationsfusion und der Synchronisation werden für die verschiedenen Ansätze analysiert. Die artikulatorische Modellierung wurde als besonders vielversprechend für die Integration von lose synchronisierten Multi-Channel-Informationen identifiziert.
Kurzfassung auf Englisch: Automatic speech recognition (ASR) is difficult to improve further, if only acoustic evidence is considered. However, two lines of study have been proposed to improve the performance of ASR by using additional information. On the one hand, audio-visual speech recognition (AVSR) uses an extra channel of visual cues for compensating reduced signal quality, e.g., in a noisy environment, in order to improve speech recognition performance. On the other hand, articulatory information was introduced to model coarticulation effects based on insights form the speech production procedure. The goal of this thesis is to investigate possibilities and benefits of integrating articulatory
information into AVSR systems.
As one of the research questions, the issue of feasibility is considered first. We defined four different types of approaches for using articulatory information. Except for the articulatory raw data approach, the design and implementation of other three ones are all discussed in this thesis:
1. The articulatory transcription approach uses an HMM/N-best decision
framework, where an N-best decision schema is a method to optimally
combine decisions from different articulatory channels.
2. The articulatory feature approach uses an ANN/HMM framework to extract abstract articulatory classes as articulatory features to complement or replace the low-level audio and visual features.
3. The articulatory modeling approach uses dynamic Bayesian networks (DBN) to build different training and decoding structures for integrating articulatory information.
Compared to the results of a low-level information-based AVSR, we found that all the results from the above mentioned systems indicate an improvement in recognition accuracy.
As a second research question, the modeling issue is emphasized in this thesis. Frame, sub-phone, phone and word are the four levels of phonetic observation to be considered. The level of articulatory information fusion and synchronization is analyzed in different approaches respectively. The articulatory modeling approach was found to be promising for integrating loosely synchronized multi-channel information.

Zugriffsstatistik

keine Statistikdaten vorhanden
Legende