Robust Bidirectional Processing for Speech-controlled Robotic Scenarios

Twiefel, Johannes

Titel:	Robust Bidirectional Processing for Speech-controlled Robotic Scenarios
Sonstige Titel:	Robuste Bidirektionale Verarbeitung für sprachgesteuerte Robotikszenarien
Sprache:	Englisch
Autor*in:	Twiefel, Johannes
Schlagwörter:	Natürliche Sprachverarbeitung; Automatic Speech Recognition; Natural Language Processing
GND-Schlagwörter:	Automatische SpracherkennungGND Sprachverarbeitung Maschinelles LernenGND Künstliche IntelligenzGND RobotikGND
Erscheinungsdatum:	2020
Tag der mündlichen Prüfung:	2020-05-20
Zusammenfassung:	Automatic Speech Recognition (ASR) is often employed for applications like dictation, where the aim is to cover a broad range of vocabularies. Also, ASR is a central interface for humans to communicate or control a system. Those systems can perform a fixed set of actions and follow a well-defined goal. Audio is recorded using a microphone, the ASR system produces text hypotheses, and a natural language processing (NLP) system derives machine-readable representations from text. These representations are afterwards employed to instruct the system to perform a defined action to achieve a goal. At a first glance, this approach of orchestrating a unidirectional processing pipeline appears to be reasonable and is often followed in practice. In this thesis, we demonstrate, that there are better approaches to address this kind of tasks and present a more suitable one. A well-known issue of ASR systems is that a growing vocabulary of words that could be recognized by the system leads to a higher word error rate (WER). For applications like dictation, this issue is hard to address, but for the before-mentioned problem of controlling a system, we are able to address it. Usually, the number of goals and possible actions of the system is limited; the possible text instructions are also limited. This leads to a smaller vocabulary, which improves the performance of the ASR system. Another limitation of the unidirectional processing chain approach is the assumption of NLP systems to receive correct text input. Although these systems are trained on (clean) text, it is still a challenge to recognize a correct natural language representation from it. As the processed text is produced by an ASR system, it is possibly incorrect, making it hard for the NLP system to recognize the correct meaning from incorrect text. If afterwards a spoken command cannot be executed by the system, it is rejected, and the user needs to repeat the instruction. In this thesis, we present a self-trained ASR system that performs better than Google’s cloud-based ASR on a benchmark data set. We also define a novel and simple natural language representation called Semantic Logic Predicates (SemaPreds). In our experiments, we show that we can successfully recognize SemaPreds from speech input. The approaches we developed make it possible to interpret SemaPreds, find and correct errors inside them, and evaluate their plausibility regarding a given situation. We test our novel bidirectional processing chain in a human-robot interaction scenario and show that it works robustly and performs better than a unidirectional processing pipeline. These results indicate that the novel representation and the bidirectional processing chain can be useful for other speech-controlled system scenarios. Automatische Spracherkennung wird häufig für Diktieranwendungen verwendet, welche ein großes Vokabular aufweisen. Außerdem ist die automatische Spracherkennung eine Hauptschnittstelle, um mit einem System zu kommunizieren oder es zu kontrollieren. Diese Systeme können einen festen Satz von Aktionen ausführen und folgen einem wohldefinierten Ziel. Audiodaten werden von einem Mikrofon aufgenommen, die Spracherkennung erzeugt Texthypothesen und ein System zur natürlichen Sprachverarbeitung erkennt maschinenlesbare Repräsentationen des Textes. Diese Repräsentationen werden danach vom System genutzt, um eine definierte Aktion auszuführen und ein Ziel zu erreichen. Auf den ersten Blick macht es Sinn, eine eindirektionale Verarbeitungspipeline aufzubauen, dieser Ansatz wird häufig in der Praxis verfolgt. In dieser Arbeit zeigen wir, dass es bessere Ansätze für diese Art von Aufgaben gibt und präsentieren einen besser passenden Ansatz. Ein wohlbekanntes Problem mit Spracherkennungssystemen ist, dass ein größeres Vokabular zu einer höheren Wortfehlerrrate führt. Für Diktieranwendungen ist dieses Problem schwer zu behandeln. Für die zuvor genannte Anwendung des Kontrollierens eines Systems sind wir in der Lage, dieses Problem zu behandeln. Normalerweise ist die Zahl der Ziele und möglichen Aktionen für diese Systeme limitiert. Dadurch sind auch die möglichen Texteingaben begrenzt. Dies führt zu einem kleineren Vokabular, was die Performanz eines Spracherkennungssystems verbessert. Eine andere Limitierung der eindirektionalen Vererbeitungspipeline ist die Annahme, dass korrekte Texteingaben vorhanden sind. Obwohl diese Systeme auf sauberen Texteingaben trainiert wurden, ist es immer noch eine Herausforderung korrekte Repräsentationen wiederzuerkennen. Da aber der Eingabetext aus Spracherkennungssystemen stammt, welcher möglicherweise inkorrekt ist, wird die Erkennung durch ein natürlichsprachliches Verarbeitungssystem zusätzliche erschwert. Wenn ein Befehl nicht ausgeführt werden kann, wird dieser zurückgewiesen und der Benutzer muss seine Instruktion wiederholen. In dieser Arbeit präsentieren wir eine selbsttrainiertes Spracherkennungssystem, welches auf einem Benchmark-Datensatz besser funktioniert als Googles Spracherkennungssystem. Außerdem definieren wir eine neue und einfache Repräsentation für natürliche Sprache, genannt Semantic Logic Predicates (SemaPreds). In unseren Experimenten zeigen wir, wie SemaPreds aus natürlicher Sprache erkannt werden können. Die entwickelten Ansätze können SemaPreds verarbeiten, Fehler darin finden und diese korrigieren. Außerdem können sie die Plausibilität der SemaPreds in einer gegebenen Situation evaluieren. Wir testen unsere neue bidirektionale Verarbeitungskette in einem Mensch-Computer-Interaktionsszenario und zeigen, dass sie robuster und besser als eine eindirektionale Verarbeitungspipeline funktioniert. Unsere Resultate zeigen, dass die neue Repräsentation und die bidrektionale Verarbeitungskette nützlich für sprachgesteuerte Systemszenarien sind.
URL:	https://ediss.sub.uni-hamburg.de/handle/ediss/8446
URN:	urn:nbn:de:gbv:18-105574
Dokumenttyp:	Dissertation
Betreuer*in:	Wermter, Stefan (Prof. Dr.)
Enthalten in den Sammlungen:	Elektronische Dissertationen und Habilitationen

Dateien zu dieser Ressource:

Datei	Beschreibung	Prüfsumme	Größe	Format
Dissertation.pdf		91cc7c6e6a8bb6530a9815749fb23e71	9.52 MB	Adobe PDF	Öffnen/Anzeigen

Zur Langanzeige

Diese Publikation steht in elektronischer Form im Internet bereit und kann gelesen werden. Über den freien Zugang hinaus wurden durch die Urheberin / den Urheber keine weiteren Rechte eingeräumt. Nutzungshandlungen (wie zum Beispiel der Download, das Bearbeiten, das Weiterverbreiten) sind daher nur im Rahmen der gesetzlichen Erlaubnisse des Urheberrechtsgesetzes (UrhG) erlaubt. Dies gilt für die Publikation sowie für ihre einzelnen Bestandteile, soweit nichts Anderes ausgewiesen ist.

Info

Seitenansichten

1.596

Letzte Woche

Letzten Monat

geprüft am 15.08.2025

Download(s)

519

Letzte Woche

Letzten Monat

geprüft am 15.08.2025

Werkzeuge

Google Scholar^TM

Prüfe

Dateien zu dieser Ressource:

Seitenansichten

Download(s)

Google ScholarTM

Google Scholar^TM