Volltextdatei(en) vorhanden
Titel: Biomimetic Computation and Embodied Embedded Cognition for Spatial Audition in Humanoids
Sonstige Titel: Biomimetische Berechnung und verkörperte eingebettete Kognition für räumliche Hören bei Humanoiden
Sprache: Englisch
Autor*in: Dávila Chacón, Jorge
Schlagwörter: Automatische Spracherkennung; Verhaltensrobotik; binaurale Schallquellenlokalisierung; bioinspirierte neurale Strukturen; Automatic speech recognition; behavioural robotics; binaural sound source localisation; bioinspired neural architectures
GND-Schlagwörter: Künstliche IntelligenzGND
NeurologieGND
RobotikGND
Auditorisches System
Erscheinungsdatum: 2019
Tag der mündlichen Prüfung: 2019-04-30
Zusammenfassung: 
Inspired by the behaviour of humans talking in noisy environments, we propose an embodied embedded cognition approach to improve automatic speech recognition (ASR) for robots under challenging conditions, such as high levels of ego-noise, using binaural sound source localisation (SSL). We find that the humanoid embodiment allows the generation of additional spatial cues that cover the entire audible range, without additional computational costs. Furthermore, by simplifying existing biomimetic models for the extraction of spatial cues in sound, we are able to understand the principles that are important to perform robustly in noisy environments. We test our approach by measuring the impact of SSL with a humanoid robot head on the performance of an ASR system. More specifically, the robot orients towards the angle where the signal-to-noise ratio (SNR) of speech is maximised for one microphone and uses this signal as input to the ASR system. In our first experiment, we make use of one humanoid platform (Nao) to produce the spatial cues necessary for SSL. The embodiment of the robot produces cues that are robust to interfering noise as they span a broad range of sound frequencies. Then, we use spiking neural networks (SNN) to extract such spatial cues from the sound. The SNN are biomimetic models of regions in the mammalian midbrain that are relevant for SSL. Next, a Bayesian model integrates the spatial cues encoded by the biomimetic models and a feedforward neural network is used to handle high levels of ego-noise and reverberation in the signal. Once the robot determines the direction of the incoming sound, it turns in the direction of the sound source, and the sound signal is fed into an ASR system. For ASR, we use DOCKS, a system developed by the Knowledge Technology Group of the University of Hamburg, and compare its performance with and without support from the SSL system. In order to measure the quality of the spatial cues created by different robot embodiments, we test our SSL and ASR systems on two humanoid platforms with different structural and material properties (iCub and Soundman). With our approach, we halve the sentence error rate in comparison to the standard approach of downmixing the input of both channels. We find that ASR performs more than two times better when the angle between the humanoid head and the sound source allows sound waves to be reflected most intensely from the pinna to the ear microphone, rather than when sound waves arrive perpendicularly to the membrane. In conclusion, our work allows understanding in greater detail the advantages of using a humanoid embodiment to produce spatial cues and of using biomimetic models to represent such cues. Equally important, we also understand better the importance of robots that use behaviour as a programmatic approach that converges in a sequence of steps to the optimal configuration for performing ASR in noisy conditions.

Menschen sind besonders gut darin, sich in geräuschvollen Umgebungen zu unterhalten. Davon inspiriert, schlagen wir einen kognitiven, in körperliche Wahrnehmung eingebetteten Ansatz zur Verbesserung von automatischen Spracherkennungssystemen (ASR) vor. Dieser Ansatz ermöglicht die ASR auf Robotern unter besonders schwierigen Bedingungen, beispielsweise unter Egogeräuschen, unter Zuhilfenahme von binauraler Geräuschquellenlokalisierung (SSL). Wir überprüfen unseren Ansatz, indem wir die Auswirkung von SSL in der Performanz eines ASR Systems mit einem humanoiden Roboterkopf bemessen. Insbesondere wird dem Roboter ermöglicht, sich in die Richtung des Winkels zu orientieren, in welchem das Signal-Rausch-Verhältnis (SNR) von natürlicher Sprache für ein Mikrophone am Besten ist und dann dieses Signal als Eingabe für das ASR-System zu benutzen. Zuerst machen wir uns dabei eine humanoide Plattform zu Nutze um räumliche Hinweise zu erzeugen, die notwendig für die SSL sind. Als nächstes benutzen wir gepulste neuronale Netzwerke (SNN), um diese räumlichen Hinweise aus dem Sound zu extrahieren. Die SSN sind biomimetische Modelle für Regionen im Mittelhirn von Säugetieren, welche als besonders relevant für die SSL angesehen werden. Schließlich integrieren wir mit einem Bayesischen Modell die räumlichen Hinweise, welche von den bio-mimetischen Modellen enkodiert werden, und benutzen ein neuronales Feedforward-Netzwerk um den hohen Grad an Egogeräuschen und Widerhall des Sounds zu bewältigen. Nachdem der Roboter die Richtung des eingehenden Sounds bestimmt hat, dreht sich dieser in die Richtung der Soundquelle und speist das Sound-Signal in das ASR-System ein. Für die ASR benutzen wir ein System, welches eigens in unsere Gruppe entwickelt wurde und vergleichen damit die Performanz, sowohl mit als auch ohne die Unterstützung unseres SSL Ansatzes. Um die Qualität von räumlichen Hinweisen zu bemessen, die sich aus eingebetteten Körperwahrnehmungen unterschiedlicher Roboter ergeben, untersuchen wir unseren SSL- und ASR-Systeme auf zwei humanoiden Roboterplattformen mit unterschiedlichen Struktur- und Materialein- genschaften. Mit unserem Ansatz sind wir in der Lage, die Fehlerrate auf Sätzen zu halbieren, verglichen mit dem Standardansatz, bei dem die Eingabe aus zwei Kanälen heruntergemischt wird. Wir finden, dass das ASR-System mehr als zweifach besser funktioniert, wenn der Winkel zwischen dem humanoiden Kopf und der Soundquelle es ermöglicht, dass die Soundwellen am intensivsten von der Ohrmuschel zum Mikrophon des Ohres reflektiert werden, anstatt wenn die Soundwellen senkrecht auf die Membran auftreffen. Zusammengefasst, ermöglicht unsere Arbeit sowohl ein tieferes Verständnis über die Möglichkeiten, wie wir humanoide eingebettete Körperwahrnehmung nutzen können, um räumliche Hinweise zu erzeugen, als auch, wie wir bio-mimetische Modelle zur deren Repräsentation einsetzen können. Gleichermaßen wichtig ist auch unser verbessertes Verständnis über die Wichtigkeit für Roboter, ein Verhalten als programmatische Annäherung zu nutzen, welches in einer Abfolge von Schritten zur optimalen Konfiguration konvergiert, um ASR unter geräuschvollen Bedingungen zu leisten.
URL: https://ediss.sub.uni-hamburg.de/handle/ediss/8190
URN: urn:nbn:de:gbv:18-97772
Dokumenttyp: Dissertation
Betreuer*in: Wermter, Stefan (Prof. Dr.)
Enthalten in den Sammlungen:Elektronische Dissertationen und Habilitationen

Dateien zu dieser Ressource:
Datei Beschreibung Prüfsumme GrößeFormat  
Dissertation.pdf66193bd0ad19f07cfa92a70522200bf920.56 MBAdobe PDFÖffnen/Anzeigen
Zur Langanzeige

Diese Publikation steht in elektronischer Form im Internet bereit und kann gelesen werden. Über den freien Zugang hinaus wurden durch die Urheberin / den Urheber keine weiteren Rechte eingeräumt. Nutzungshandlungen (wie zum Beispiel der Download, das Bearbeiten, das Weiterverbreiten) sind daher nur im Rahmen der gesetzlichen Erlaubnisse des Urheberrechtsgesetzes (UrhG) erlaubt. Dies gilt für die Publikation sowie für ihre einzelnen Bestandteile, soweit nichts Anderes ausgewiesen ist.

Info

Seitenansichten

558
Letzte Woche
Letzten Monat
geprüft am 27.03.2024

Download(s)

128
Letzte Woche
Letzten Monat
geprüft am 27.03.2024
Werkzeuge

Google ScholarTM

Prüfe