Volltextdatei(en) vorhanden
Titel: Bimodal Speech Recognition
Sonstige Titel: Bimodale Spracherkennung
Sprache: Englisch
Autor*in: Gan, Tian
Schlagwörter: speech recognition; lip reading; articulatory information; multimodal integration
Erscheinungsdatum: 2012
Tag der mündlichen Prüfung: 2012-11-12
Zusammenfassung: 
Es ist schwer, automatische Spracherkennung (ASR) weiter zu verbessern, wenn nur das akustische Signal betrachtet wird. In de Literatur werden jedoch zwei alternative Ansätze verfolgt, um die Leistung der ASR unter Einbeziehung zusätzlicher Informationen zu verbessern. Zum einen audiovisuelle Spracherkennung (AVSR), die einen zusätzlichen Kanal visueller Merkmale nutzt, um reduzierte Signalqualität zu kompensieren, z. B. für Spracherkennung in Umgebungen mit viel Hintergrundlärm. Zum anderen wurden artikulatorischen Informationen Modell eingeführt, um Koartikulationseffekte und Erkenntnisse der Sprachproduktion mit in das Spracherkennungsverfahren einfließen zu lassen. Das Ziel dieser Arbeit ist es, die Möglichkeiten und Vorteile der Integration von artikulatorischen Informationen in AVSRSysteme zu untersuchen.
Als eine der Fragestellungen wird zuerst die Frage der Machbarkeit untersucht. Wir haben vier verschiedene Ansätze für die Verwendung artikulatorischen Informationen definiert. Mit Ausnahme des Ansatzes zur Nutzung von artikulatorischen Rohdaten werden im Rahmen dieser Arbeit alle diese Ansätze diskutiert:
1. Der Ansatz der artikulatorischen Transkription nutzt ein HMM- / N-Beste Framework als Entscheidungsgrundlage. Das N-beste Entscheidungsschema ist ein Verfahren zur optimalen Kombination von Entscheidungen aus verschiedenen artikulatorischen Kanälen.
2. Der Ansatz der artikulatorischen Merkmale nutzt ein ANN- / HMM Framework, um abstrakte Klassen als artikulatorische Merkmale zu extrahieren und die Low-Level-Audio- und visuellen Merkmale durch diese Klassen zu ergänzen oder zu ersetzen.
3. Die artikulatorische Modellierung verwendet dynamische Bayessche Netze (DBN) zur Integration mit verschiedenen Strukturen für das Training und die Dekodierung von artikulatorischen Informationen.
Verglichen mit den Ergebnissen eines einfachen informationsbasierten AVSR fanden wir, dass alle Ergebnisse aus den oben genannten Systemen auf eine Verbesserung der Erkennungsgenauigkeit hindeuten.
Als zweite Forschungsfrage richtet sich diese Arbeit auf die Modellierung. Es werden Frame-, Sub-Phon, Phon und Wort als die vier Ebenen der phonetischen Modellierung betrachtet. Die Ebene der artikulatorischen Informationsfusion und der Synchronisation werden für die verschiedenen Ansätze analysiert. Die artikulatorische Modellierung wurde als besonders vielversprechend für die Integration von lose synchronisierten Multi-Channel-Informationen identifiziert.

Automatic speech recognition (ASR) is difficult to improve further, if only acoustic evidence is considered. However, two lines of study have been proposed to improve the performance of ASR by using additional information. On the one hand, audio-visual speech recognition (AVSR) uses an extra channel of visual cues for compensating reduced signal quality, e.g., in a noisy environment, in order to improve speech recognition performance. On the other hand, articulatory information was introduced to model coarticulation effects based on insights form the speech production procedure. The goal of this thesis is to investigate possibilities and benefits of integrating articulatory
information into AVSR systems.
As one of the research questions, the issue of feasibility is considered first. We defined four different types of approaches for using articulatory information. Except for the articulatory raw data approach, the design and implementation of other three ones are all discussed in this thesis:
1. The articulatory transcription approach uses an HMM/N-best decision
framework, where an N-best decision schema is a method to optimally
combine decisions from different articulatory channels.
2. The articulatory feature approach uses an ANN/HMM framework to extract abstract articulatory classes as articulatory features to complement or replace the low-level audio and visual features.
3. The articulatory modeling approach uses dynamic Bayesian networks (DBN) to build different training and decoding structures for integrating articulatory information.
Compared to the results of a low-level information-based AVSR, we found that all the results from the above mentioned systems indicate an improvement in recognition accuracy.
As a second research question, the modeling issue is emphasized in this thesis. Frame, sub-phone, phone and word are the four levels of phonetic observation to be considered. The level of articulatory information fusion and synchronization is analyzed in different approaches respectively. The articulatory modeling approach was found to be promising for integrating loosely synchronized multi-channel information.
URL: https://ediss.sub.uni-hamburg.de/handle/ediss/4711
URN: urn:nbn:de:gbv:18-59467
Dokumenttyp: Dissertation
Betreuer*in: Menzel, Wolfgang (Prof. Dr.)
Enthalten in den Sammlungen:Elektronische Dissertationen und Habilitationen

Dateien zu dieser Ressource:
Datei Beschreibung GrößeFormat  
Dissertation.pdf2.5 MBAdobe PDFÖffnen/Anzeigen
Zur Langanzeige

Diese Publikation steht in elektronischer Form im Internet bereit und kann gelesen werden. Über den freien Zugang hinaus wurden durch die Urheberin / den Urheber keine weiteren Rechte eingeräumt. Nutzungshandlungen (wie zum Beispiel der Download, das Bearbeiten, das Weiterverbreiten) sind daher nur im Rahmen der gesetzlichen Erlaubnisse des Urheberrechtsgesetzes (UrhG) erlaubt. Dies gilt für die Publikation sowie für ihre einzelnen Bestandteile, soweit nichts Anderes ausgewiesen ist.

Info

Seitenansichten

44
Letzte Woche
Letzten Monat
geprüft am 16.04.2021

Download(s)

12
Letzte Woche
Letzten Monat
geprüft am 16.04.2021
Werkzeuge

Google ScholarTM

Prüfe