DC ElementWertSprache
dc.contributor.advisorWermter, Stefan-
dc.contributor.authorÖzdemir, Ozan-
dc.date.accessioned2024-12-09T15:00:47Z-
dc.date.available2024-12-09T15:00:47Z-
dc.date.issued2024-
dc.identifier.urihttps://ediss.sub.uni-hamburg.de/handle/ediss/11349-
dc.description.abstractDespite the remarkable progress made by advanced foundation models in computer vision and natural language processing, the research on language-conditioned robotic object manipulation continues to lag behind, underscoring the need for more in-depth exploration. As evidenced by the research on early childhood development, embodiment, i.e. actively changing the environment while perceiving it via multiple senses, is crucial for language learning in human infants. Inspired by this phenomenon, embodied language learning for artificial agents tries to emulate the process of early language acquisition with computational models. As most approaches focus on language-instructed action execution but cannot produce language themselves, language learning for robots remains a challenge. This doctoral work aims to achieve unrestricted language learning with embodied artificial agents via crossmodal binding between linguistic, visual and motor signals, exploiting neurocognitively plausible mechanisms such as multimodal fusion, channel separation and environmental feedback. We begin with an existing bidirectional action-language translation model that can only map one robot action to one language description. To relax this strict mapping, we integrate the stochastic variational Bayes method into the hidden space, enabling one-to-many associations between actions and language descriptions. We also utilise channel separation in vision to distinguish object colours more accurately. However, the resulting approach can only work with predefined grammar-based instructions. By employing a pre-trained language model, we allow the model to accept natural language instructions as input. Since this model needs to be adjusted based on the desired translation direction, we replace the implicit loss-based binding mechanism between the action and language streams with an explicit gated-network-based multimodal fusion technique, allowing training-time consistent full model utilisation during inference without expert intervention. When we train this novel model with increasingly unlabelled data, its performance in language production and action execution deteriorates. To counter this drop in performance, we adopt a self-attention-based multimodal fusion network to learn efficiently in a predominantly unsupervised fashion. We also tackle generalisation to continuous action spaces in various object manipulation tasks by developing a two-stage learning concept, asymmetrically combining supervised learning with reinforcement learning. This novel approach improves action precision on various object manipulation tasks, but it is limited to robotic task-related language. To address this limitation, we introduce a novel multimodality fusion technique incorporating our bidirectional action-language translation model into a large language model (LLM), combining the language skills embedded in LLMs and the sensorimotor capabilities of robotic object manipulation. Lastly, for speech processing and object-agnostic robotic manipulation in the real world, we devise a modular human-robot interaction approach primarily composed of pre-trained foundation models such as vision-language, speech recognition, text-to-speech and object localisation, leading to free-flowing open-ended conversation, scene understanding and task-specific open-vocabulary object manipulation skills in the real world. To summarise, this thesis makes several key contributions. It builds a flexible action-language translation model architecture that remains consistent during training and testing. By combining multiple learning paradigms, it enhances the execution of language-instructed actions. The thesis enables free-flowing human-robot dialogue and motor control by developing a modular approach composed of foundation models. Furthermore, it introduces a data-efficient intra-LLM fusion technique that endows action-language models with LLM capabilities. Additionally, it demonstrates the efficiency of self-attention-based multimodal fusion in action-language associations. As a result, this doctoral research is a valuable step towards fully autonomous embodied companion agents capable of assisting humans in their everyday tasks through advanced communication and sensorimotor skills.en
dc.description.abstractTrotz der bemerkenswerten Fortschritte, die durch fortschrittliche Basismodelle im Bereich der Bildverarbeitung und der Verarbeitung natürlicher Sprache erzielt wurden, hinkt die Forschung zur sprachlich bedingten Manipulation von Robotern mit Objekten weiterhin hinterher, was die Notwendigkeit einer tiefergehenderen Erforschung unterstreicht. Wie die Forschung zur frühkindlichen Entwicklung zeigt, ist die Verkörperung, d. h. die aktive Veränderung der Umgebung bei gleichzeitiger Wahrnehmung mit mehreren Sinnen, für den Spracherwerb bei Kleinkindern von entscheidender Bedeutung. Inspiriert von diesem Phänomen versucht das verkörperte Sprachenlernen für künstliche Agenten, den Prozess des frühen Spracherwerbs mit Computermodellen nachzuahmen. Da sich die meisten Methoden auf die Ausführung von Handlungen unter Anleitung von Sprache konzentrieren, aber selbst keine Sprache produzieren können, bleibt das Sprachenlernen für Roboter eine Herausforderung. Diese Doktorarbeit zielt darauf ab, uneingeschränktes Sprachenlernen mit verkörperten künstlichen Agenten über eine multimodale Verbindung zwischen sprachlichen, visuellen und motorischen Signalen zu erreichen, indem neurokognitiv plausible Mechanismen wie multimodale Fusion, Trennung der Verarbeitungskanäle und Feedback von der Umgebung genutzt werden. Wir beginnen mit einem bestehenden bidirektionalen Aktions-Sprach-Übersetzungsmodell, das nur eine Roboteraktion auf eine Sprachbeschreibung abbilden kann. Um diese strenge Zuordnung zu lockern, integrieren wir die stochastische Variations-Bayes-Methode in dem latenten Raum und ermöglichen so ein-zu-viele Assoziationen zwischen Aktionen und Sprachbeschreibungen. Wir nutzen auch die Trennung der Kanäle in der Bildverarbeitung, um Objektfarben genauer zu unterscheiden. Der daraus resultierende Ansatz kann jedoch nur mit vordefinierten grammatikbasierten Anweisungen arbeiten. Durch den Einsatz eines vortrainierten Sprachmodells können wir dem Modell erlauben, Anweisungen in natürlicher Sprache als Eingabe zu akzeptieren. Da dieses Modell je nach gewünschter Übersetzungsrichtung angepasst werden muss, ersetzen wir den impliziten, verlustbasierten Bindungsmechanismus zwischen den Aktions- und Sprachströmen durch eine explizite, auf einem Gated-Network basierende multimodale Fusionstechnik, die während der Trainingszeit eine konsistente vollständige Modellnutzung während der Inferenz ohne Eingreifen eines Experten ermöglicht. Wenn wir dieses neuartige Modell mit zunehmend unmarkierten Daten trainieren, verschlechtert sich seine Leistung bei der Sprachproduktion und Handlungsausführung. Um diesem Leistungsabfall entgegenzuwirken, setzen wir ein auf Selbstbeobachtung basierendes multimodales Fusionsnetzwerk ein, um überwiegend unüberwacht auf effiziente Weise lernen. Wir befassen uns auch mit der Verallgemeinerung auf kontinuierliche Handlungsräume bei verschiedenen Objektmanipulationsaufgaben, indem wir ein zweistufiges Lernkonzept entwickeln, das überwachtes Lernen und Verstärkungslernen asymmetrisch kombiniert. Dieser neuartige Ansatz verbessert die Handlungspräzision bei verschiedenen Objektmanipulationsaufgaben, ist aber auf roboterbezogene Sprache beschränkt. Um diese Einschränkung zu beheben, führen wir eine neuartige multimodale Fusionstechnik ein, die unser bidirektionales Aktions-Sprach-Übersetzungsmodell in ein großes Sprachmodell (LLM) integriert und die in LLMs eingebetteten Sprachfähigkeiten mit den sensomotorischen Fähigkeiten der robotischen Objektmanipulation kombiniert. Schließlich entwickeln wir für die Sprachverarbeitung und objektagnostische Robotermanipulation in der realen Welt einen modularen Ansatz für die Mensch-Roboter-Interaktion, der in erster Linie aus vortrainierten Basismodellen wie Bild-Text-Verarbeitung, Spracherkennung, Text-to-Speech und Objektlokalisierung besteht und zu einer frei fließenden, offenen Konversation, Szenenverständnis und aufgabenspezifischen Objektmanipulationsfähigkeiten in der realen Welt führt. Zusammenfassend lässt sich feststellen, dass diese Arbeit mehrere wichtige Beiträge liefert. Sie entwickelt eine flexible Architektur für die Übersetzung von Aktionen und Sprache, die während des Trainings und der Tests konsistent bleibt. Durch die Kombination mehrerer Lernparadigmen wird die Ausführung von sprachgesteuerten Aktionen verbessert. Die Arbeit ermöglicht einen frei fließenden Dialog zwischen Mensch und Roboter und motorische Kontrolle durch die Entwicklung eines modularen Ansatzes, der aus Basismodellen besteht. Außerdem wird eine dateneffiziente Intra-LLM-Fusionstechnik vorgestellt, die Aktions-Sprachmodelle mit LLM-Fähigkeiten ausstattet. Darüber hinaus wird die Effizienz der auf Selbstaufmerksamkeit basierenden multimodalen Fusion bei der Verknüpfung von Aktion und Sprache demonstriert. Im Ergebnis ist diese Doktorarbeit ein wertvoller Schritt auf dem Weg zu vollständig autonomen, verkörperten Agenten, die den Menschen durch fortgeschrittene Kommunikation und sensomotorische Fähigkeiten bei seinen alltäglichen Aufgaben unterstützen können.de
dc.language.isoende_DE
dc.publisherStaats- und Universitätsbibliothek Hamburg Carl von Ossietzkyde
dc.rightshttp://purl.org/coar/access_right/c_abf2de_DE
dc.subject.ddc004: Informatikde_DE
dc.titleEmbodied Crossmodal Language Learning Using Neurocognitively Plausible Mechanismsen
dc.typedoctoralThesisen
dcterms.dateAccepted2024-12-05-
dc.rights.cchttps://creativecommons.org/licenses/by/4.0/de_DE
dc.rights.rshttp://rightsstatements.org/vocab/InC/1.0/-
dc.type.casraiDissertation-
dc.type.dinidoctoralThesis-
dc.type.driverdoctoralThesis-
dc.type.statusinfo:eu-repo/semantics/publishedVersionde_DE
dc.type.thesisdoctoralThesisde_DE
tuhh.type.opusDissertation-
thesis.grantor.departmentInformatikde_DE
thesis.grantor.placeHamburg-
thesis.grantor.universityOrInstitutionUniversität Hamburgde_DE
dcterms.DCMITypeText-
dc.identifier.urnurn:nbn:de:gbv:18-ediss-123967-
item.creatorOrcidÖzdemir, Ozan-
item.advisorGNDWermter, Stefan-
item.fulltextWith Fulltext-
item.creatorGNDÖzdemir, Ozan-
item.languageiso639-1other-
item.grantfulltextopen-
Enthalten in den Sammlungen:Elektronische Dissertationen und Habilitationen
Dateien zu dieser Ressource:
Datei Prüfsumme GrößeFormat  
doctoral_thesis_Oezdemir_final_signed.pdf819f481ac99c4a093fde3c1992bbcbc820.37 MBAdobe PDFÖffnen/Anzeigen
Zur Kurzanzeige

Info

Seitenansichten

Letzte Woche
Letzten Monat
geprüft am null

Download(s)

Letzte Woche
Letzten Monat
geprüft am null
Werkzeuge

Google ScholarTM

Prüfe