Robust Bidirectional Processing for Speech-controlled Robotic Scenarios

Twiefel, Johannes

DC Element	Wert	Sprache
dc.contributor.advisor	Wermter, Stefan (Prof. Dr.)
dc.contributor.author	Twiefel, Johannes
dc.date.accessioned	2020-10-19T13:28:28Z	-
dc.date.available	2020-10-19T13:28:28Z	-
dc.date.issued	2020
dc.identifier.uri	https://ediss.sub.uni-hamburg.de/handle/ediss/8446	-
dc.description.abstract	Automatic Speech Recognition (ASR) is often employed for applications like dictation, where the aim is to cover a broad range of vocabularies. Also, ASR is a central interface for humans to communicate or control a system. Those systems can perform a fixed set of actions and follow a well-defined goal. Audio is recorded using a microphone, the ASR system produces text hypotheses, and a natural language processing (NLP) system derives machine-readable representations from text. These representations are afterwards employed to instruct the system to perform a defined action to achieve a goal. At a first glance, this approach of orchestrating a unidirectional processing pipeline appears to be reasonable and is often followed in practice. In this thesis, we demonstrate, that there are better approaches to address this kind of tasks and present a more suitable one. A well-known issue of ASR systems is that a growing vocabulary of words that could be recognized by the system leads to a higher word error rate (WER). For applications like dictation, this issue is hard to address, but for the before-mentioned problem of controlling a system, we are able to address it. Usually, the number of goals and possible actions of the system is limited; the possible text instructions are also limited. This leads to a smaller vocabulary, which improves the performance of the ASR system. Another limitation of the unidirectional processing chain approach is the assumption of NLP systems to receive correct text input. Although these systems are trained on (clean) text, it is still a challenge to recognize a correct natural language representation from it. As the processed text is produced by an ASR system, it is possibly incorrect, making it hard for the NLP system to recognize the correct meaning from incorrect text. If afterwards a spoken command cannot be executed by the system, it is rejected, and the user needs to repeat the instruction. In this thesis, we present a self-trained ASR system that performs better than Google’s cloud-based ASR on a benchmark data set. We also define a novel and simple natural language representation called Semantic Logic Predicates (SemaPreds). In our experiments, we show that we can successfully recognize SemaPreds from speech input. The approaches we developed make it possible to interpret SemaPreds, find and correct errors inside them, and evaluate their plausibility regarding a given situation. We test our novel bidirectional processing chain in a human-robot interaction scenario and show that it works robustly and performs better than a unidirectional processing pipeline. These results indicate that the novel representation and the bidirectional processing chain can be useful for other speech-controlled system scenarios.	en
dc.description.abstract	Automatische Spracherkennung wird häufig für Diktieranwendungen verwendet, welche ein großes Vokabular aufweisen. Außerdem ist die automatische Spracherkennung eine Hauptschnittstelle, um mit einem System zu kommunizieren oder es zu kontrollieren. Diese Systeme können einen festen Satz von Aktionen ausführen und folgen einem wohldefinierten Ziel. Audiodaten werden von einem Mikrofon aufgenommen, die Spracherkennung erzeugt Texthypothesen und ein System zur natürlichen Sprachverarbeitung erkennt maschinenlesbare Repräsentationen des Textes. Diese Repräsentationen werden danach vom System genutzt, um eine definierte Aktion auszuführen und ein Ziel zu erreichen. Auf den ersten Blick macht es Sinn, eine eindirektionale Verarbeitungspipeline aufzubauen, dieser Ansatz wird häufig in der Praxis verfolgt. In dieser Arbeit zeigen wir, dass es bessere Ansätze für diese Art von Aufgaben gibt und präsentieren einen besser passenden Ansatz. Ein wohlbekanntes Problem mit Spracherkennungssystemen ist, dass ein größeres Vokabular zu einer höheren Wortfehlerrrate führt. Für Diktieranwendungen ist dieses Problem schwer zu behandeln. Für die zuvor genannte Anwendung des Kontrollierens eines Systems sind wir in der Lage, dieses Problem zu behandeln. Normalerweise ist die Zahl der Ziele und möglichen Aktionen für diese Systeme limitiert. Dadurch sind auch die möglichen Texteingaben begrenzt. Dies führt zu einem kleineren Vokabular, was die Performanz eines Spracherkennungssystems verbessert. Eine andere Limitierung der eindirektionalen Vererbeitungspipeline ist die Annahme, dass korrekte Texteingaben vorhanden sind. Obwohl diese Systeme auf sauberen Texteingaben trainiert wurden, ist es immer noch eine Herausforderung korrekte Repräsentationen wiederzuerkennen. Da aber der Eingabetext aus Spracherkennungssystemen stammt, welcher möglicherweise inkorrekt ist, wird die Erkennung durch ein natürlichsprachliches Verarbeitungssystem zusätzliche erschwert. Wenn ein Befehl nicht ausgeführt werden kann, wird dieser zurückgewiesen und der Benutzer muss seine Instruktion wiederholen. In dieser Arbeit präsentieren wir eine selbsttrainiertes Spracherkennungssystem, welches auf einem Benchmark-Datensatz besser funktioniert als Googles Spracherkennungssystem. Außerdem definieren wir eine neue und einfache Repräsentation für natürliche Sprache, genannt Semantic Logic Predicates (SemaPreds). In unseren Experimenten zeigen wir, wie SemaPreds aus natürlicher Sprache erkannt werden können. Die entwickelten Ansätze können SemaPreds verarbeiten, Fehler darin finden und diese korrigieren. Außerdem können sie die Plausibilität der SemaPreds in einer gegebenen Situation evaluieren. Wir testen unsere neue bidirektionale Verarbeitungskette in einem Mensch-Computer-Interaktionsszenario und zeigen, dass sie robuster und besser als eine eindirektionale Verarbeitungspipeline funktioniert. Unsere Resultate zeigen, dass die neue Repräsentation und die bidrektionale Verarbeitungskette nützlich für sprachgesteuerte Systemszenarien sind.	de
dc.language.iso	en	en
dc.publisher	Staats- und Universitätsbibliothek Hamburg Carl von Ossietzky
dc.rights	http://purl.org/coar/access_right/c_abf2
dc.subject	Natürliche Sprachverarbeitung	de
dc.subject	Automatic Speech Recognition	en
dc.subject	Natural Language Processing	en
dc.subject.ddc	004 Informatik
dc.title	Robust Bidirectional Processing for Speech-controlled Robotic Scenarios	en
dc.title.alternative	Robuste Bidirektionale Verarbeitung für sprachgesteuerte Robotikszenarien	de
dc.type	doctoralThesis
dcterms.dateAccepted	2020-05-20
dc.rights.cc	No license
dc.rights.rs	http://rightsstatements.org/vocab/InC/1.0/
dc.subject.bcl	54.72 Künstliche Intelligenz
dc.subject.bcl	54.75 Sprachverarbeitung
dc.subject.gnd	Automatische Spracherkennung
dc.subject.gnd	Sprachverarbeitung
dc.subject.gnd	Maschinelles Lernen
dc.subject.gnd	Künstliche Intelligenz
dc.subject.gnd	Robotik
dc.type.casrai	Dissertation	-
dc.type.dini	doctoralThesis	-
dc.type.driver	doctoralThesis	-
dc.type.status	info:eu-repo/semantics/publishedVersion
dc.type.thesis	doctoralThesis
tuhh.opus.id	10557
tuhh.opus.datecreation	2020-07-23
tuhh.type.opus	Dissertation	-
thesis.grantor.department	Informatik
thesis.grantor.place	Hamburg
thesis.grantor.universityOrInstitution	Universität Hamburg
dcterms.DCMIType	Text	-
tuhh.gvk.ppn	1726525945
dc.identifier.urn	urn:nbn:de:gbv:18-105574
item.grantfulltext	open	-
item.languageiso639-1	other	-
item.creatorOrcid	Twiefel, Johannes	-
item.advisorGND	Wermter, Stefan (Prof. Dr.)	-
item.creatorGND	Twiefel, Johannes	-
item.fulltext	With Fulltext	-
Enthalten in den Sammlungen:	Elektronische Dissertationen und Habilitationen

Dateien zu dieser Ressource:

Datei	Beschreibung	Prüfsumme	Größe	Format
Dissertation.pdf		91cc7c6e6a8bb6530a9815749fb23e71	9.52 MB	Adobe PDF	Öffnen/Anzeigen

Zur Kurzanzeige

Diese Publikation steht in elektronischer Form im Internet bereit und kann gelesen werden. Über den freien Zugang hinaus wurden durch die Urheberin / den Urheber keine weiteren Rechte eingeräumt. Nutzungshandlungen (wie zum Beispiel der Download, das Bearbeiten, das Weiterverbreiten) sind daher nur im Rahmen der gesetzlichen Erlaubnisse des Urheberrechtsgesetzes (UrhG) erlaubt. Dies gilt für die Publikation sowie für ihre einzelnen Bestandteile, soweit nichts Anderes ausgewiesen ist.

Info

Seitenansichten

2.060

Letzte Woche

Letzten Monat

geprüft am 10.06.2026

Download(s)

689

Letzte Woche

Letzten Monat

geprüft am 10.06.2026

Werkzeuge

Google Scholar^TM

Prüfe

Dateien zu dieser Ressource:

Seitenansichten

Download(s)

Google ScholarTM

Google Scholar^TM