Volltextdatei(en) vorhanden
Titel: Natural language acquisition in recurrent neural architectures
Sonstige Titel: Erwerb von natürlicher Sprache in rekurrenten neuronalen Architekturen
Sprache: Englisch
Autor*in: Heinrich, Stefan
Schlagwörter: Rekurrente Neuronale Netze; Zeitskalen; Hierarchische Abstraktion; Multi-modale Integration; Computational Neuroscience; Developmental Robotics; Natural Language; Recurrent Neural Networks; Self-organisation; Multi-modal Integration; Computational Neuroscience; Developmental Robotics
GND-Schlagwörter: Natürliche Sprache; Spracherwerb; Lernen; Selbstorganisation; Künstliche Intelligenz; Maschinelles Lernen
Erscheinungsdatum: 2016
Tag der mündlichen Prüfung: 2016-06-20
Zusammenfassung: 
The human brain is one of the most complex dynamic systems that enables us to communicate (and externalise) information by natural language. Our languages go far beyond single sounds for expressing intentions - in fact, human children already join discourse by the age of three. It is remarkable that in these first years they show a tremendous capability in acquiring the language competence from the interaction with caregivers and their environment. However, our understanding of the behavioural and mechanistic characteristics for the acquisition of natural language is - as well - in its infancy. We have a good understanding of some principles underlying natural languages and language processing, some insights about where activity is occurring in the brain, and some knowledge about socio-cultural conditions framing the acquisition. Nevertheless, we were not yet able to discover how the mechanisms in the brain allow us to acquire and process language.
The goal of this thesis is to bridge the gap between the insights from linguistics, neuroscience, and behavioural psychology, and contribute an understanding of the appropriate characteristics that favour language acquisition, in a brain-inspired neural architecture. Accordingly, the thesis provides tools to employ and improve the developmental robotics approach with respect to speech processing and object recognition as well as concepts and refinements in cognitive modelling regarding the gradient descent learning and the hierarchical abstraction of context in plausible recurrent architectures. On this basis, the thesis demonstrates two consecutive models for language acquisition from natural interaction of a humanoid robot with its environment. The first model is able to process speech production over time embodied in visual perception. This architecture consists of a continuous time recurrent neural network, where parts of the network have different leakage characteristics and thus operate on multiple timescales (called MTRNN), and associative layers that integrate embodied perception into continuous phonetic utterances. As the most important properties, this model features compositionality in language acquisition, generalisation in production, and a reasonable robustness. The second model is capable to learn language production grounded in both, temporal dynamic somatosensation and temporal dynamic vision. This model comprises of an MTRNN for every modality and the association of the higher level nodes of all modalities into cell assemblies. Thus, this model features hierarchical concept abstraction in sensation as well as concept decomposition in production, multi-modal integration, and self-organisation of latent representations.
The main contributions to knowledge from the development and study of these models are as follows: a) general mechanisms on abstracting and self-organising structures from sensory and motor modalities foster the emergence of language acquisition; b) timescales in the brain's language processing are necessary and sufficient for compositionality; and c) shared multi-modal representations are able to integrate novel experience and modulate novel production. The studies in this thesis can inform important future studies in neuroscience on multi-modal integration and development in interactive robotics about hierarchical abstraction in information processing and language understanding.

Das Gehirn des Menschen ist eines der komplexesten dynamischen Systeme, welches uns ermöglicht, Informationen in natürlicher Sprache zu kommunizieren. Unsere Sprachen gehen weit über einzelne Laute, um Intentionen auszudrücken, hinaus - vielmehr sind bereits Kinder im Alter von drei Jahren in der Lage, einen Diskurs zu führen. Erstaunlicherweise zeigen sie in diesen ersten Jahren die außerordentliche Fähigkeit, sich Sprachkompetenz durch die Interaktion mit den Eltern und der Umgebung anzueignen. Unser Verständnis von den Verhaltens- und Mechanistischen Merkmalen des Erwerbs natürlicher Sprache steckt aber ebenfalls noch in den Kinderschuhen. Wir haben ein gutes Verständnis von einigen Prinzipien der natürlichen Sprache und der Sprachverarbeitung, Erkenntnisse darüber, wo Aktivität dafür im Gehirn auftritt, und Wissen über die sozio-kulturellen Rahmenbedingungen für den Spracherwerb. Trotzdem waren wir bisher nicht in der Lage aufzudecken, wie die Mechanismen im Gehirn es dem Menschen ermöglichen, Sprache zu erwerben und zu verarbeiten.
Diese Dissertation hat zum Ziel, die Brücke zwischen den Erkenntnissen aus der Linguistik, Neurowissenschaft und Verhaltenspsychologie zu schlagen und dazu beizutragen, unser Verständnis über geeignete Merkmale in einer vom Gehirn inspirierten neuronalen Architektur, welche den Spracherwerb begünstigt, zu verbessern. Dazu stellt die Dissertation Werkzeuge zur Verfügung, um den Ansatz der Developmental Robotics anzuwenden und bezüglich Spracherkennung und Objekterkennung weiterzuentwickeln. Außerdem präsentiert sie Konzepte sowie Verbesserungen zur kognitiven Modellierung im Bezug auf das Gradientenabstiegsverfahren und die hierarchische Abstraktion von Konzepten in rekurrenten Architekturen. Auf dieser Grundlagen demonstriert diese Dissertation aufeinander aufbauende Modelle für den Spracherwerb über natürliche Interaktion eines humanoiden Roboters mit dessen Umgebung. Das erste Modell ist fähig, über die Zeit Sprachproduktion durch Einbettung in visuelle Wahrnehmung zu verarbeiten. Diese Architektur besteht aus einem zeitlich-kontinuierlich rekurrentem neuronalen Netz, in dem Segmente verschiedene Leakage-Egenschaften aufweisen und so auf verschiedenen Zeitskalen arbeiten (genannt: MTRNN) und dabei assoziative Schichten der körperlichen Wahrnehmung in die kontinuierlichen phonetischen Aussagen integrieren. Die wichtigsten Eigenschaften dieses Modells sind die Kompositionalität im Spracherwerb, Generalisierung in der Produktion und eine gewisse Robustheit. Das zweite Modell ist fähig, Sprachproduktion, welche in zeitlich dynamischer Somatosensorik und zeitlich dynamischem Sehen eingebettet ist, zu erlernen. Dieses Modell besteht aus einem MTRNN für jede Modalität und assoziiert die Knoten aller Modalitäten auf höherem Level in Cell Assemblies. Dadurch bietet das Modell die hierarchische Abstraktion von Konzepten in der Wahrnehmung und auch die Dekomposition von Konzepten in der Produktion, multi-modale Integration sowie Selbstorganisation von verborgenen Repräsentationen.
Wichtigste Beiträge zum Wissen aus Entwicklung und Untersuchung dieser Modelle sind Folgende: a) Emergenz vom Spracherwerb wird von generellen Mechanismen zur Abstraktion und Selbstorganisation von Strukturen aus sensorischen und motorischen Modalitäten, unterstützt; b) Zeitskalen in der Sprachverarbeitung im Gehirn sind notwendig und hinreichend für Kompositionalität; und c) geteilte multi-modale Repräsentationen können neue Wahrnehmungen integrieren und neue Produktionen modulieren. Die Untersuchungen können zukünftige Studien der Neurowissenschaften im Bereich multi-modaler Integration und die Entwicklung von interaktiven Robotern bezüglich hierarchischer Abstraktion in Informationsverarbeitung und Sprachverstehen motivieren.
URL: https://ediss.sub.uni-hamburg.de/handle/ediss/6800
URN: urn:nbn:de:gbv:18-79721
Dokumenttyp: Dissertation
Betreuer*in: Wermter, Stefan (Prof. Dr.)
Enthalten in den Sammlungen:Elektronische Dissertationen und Habilitationen

Dateien zu dieser Ressource:
Datei Beschreibung GrößeFormat  
Dissertation.pdf6.48 MBAdobe PDFÖffnen/Anzeigen
Zur Langanzeige

Diese Publikation steht in elektronischer Form im Internet bereit und kann gelesen werden. Über den freien Zugang hinaus wurden durch die Urheberin / den Urheber keine weiteren Rechte eingeräumt. Nutzungshandlungen (wie zum Beispiel der Download, das Bearbeiten, das Weiterverbreiten) sind daher nur im Rahmen der gesetzlichen Erlaubnisse des Urheberrechtsgesetzes (UrhG) erlaubt. Dies gilt für die Publikation sowie für ihre einzelnen Bestandteile, soweit nichts Anderes ausgewiesen ist.

Info

Seitenansichten

207
Letzte Woche
Letzten Monat
geprüft am 18.05.2021

Download(s)

13
Letzte Woche
Letzten Monat
geprüft am 18.05.2021
Werkzeuge

Google ScholarTM

Prüfe