Active Vision for Embodied Agents Using Reinforcement Learning

Li, Mengdi

Titel:	Active Vision for Embodied Agents Using Reinforcement Learning
Sprache:	Englisch
Autor*in:	Li, Mengdi
Erscheinungsdatum:	2024
Tag der mündlichen Prüfung:	2024-06-04
Zusammenfassung:	Embodied agents can only partially observe their surroundings from their egocentric perspectives at any moment. This leads to the prevalent situations of insufficient observations, where the agents respond according to insufficient task-relevant information. To resolve this, they must actively explore the environment according to task requirements to collect sufficient task-related information. The development of the capability of active vision plays an essential role in embodied artificial intelligence agents operating in real-world application scenarios. Different from the majority of existing work on embodied agents that is focused on learning active vision control, as seen in tasks such as object-goal navigation, this thesis concentrates on action-response embodied agents that have two distinct output channels: one for active vision control for goal-oriented visual information collection, and the other for task-relevant responses. Embodied agents of this setup are natural, aligning closely with human capabilities, and are especially needed in scenarios where rich interaction between agents and human users plays an essential role. However, research on this kind of embodied agent has not yet received much attention. This thesis first studies disembodied models in situations of insufficient observations to investigate to what extent the issue of insufficient observations can be addressed without the application of active vision. Specifically, we study the issue in a special setup of the task of visual question answering (VQA), where the visual information of an image is possibly insufficient to answer a given question. Our experiments demonstrate that it is non-trivial to develop disembodied models capable of detecting the sufficiency of perceived information while giving accurate responses when the information is sufficient. In addition, our approach reveals an inherent limitation of disembodied AI models, i.e., the lack of the capability of active perception hinders the development of a progressive model that can produce helpful responses in situations of insufficient observations. This motivates our work on embodied agents with the capability of active vision. Then, driven by the inherent limitation of disembodied AI models, we focus on the development of active vision control for embodied AI agents. Motivated by the neuroscientific learning theory that the components of sensory perception, attention mechanisms, and value evaluation are all involved in the rewarding process in the brains of humans and animals, we model the action-response agent utilizing a modular network and train the active vision control policy through reinforcement learning (RL). To effectively evaluate the performance of the model and the training method, we introduce the task of robotic object existence prediction (ROEP), where the situation of insufficient observations arises from potential occlusions between objects. The experimental results demonstrate the effectiveness of the proposed model and the training method in developing action-response agents. Next, motivated by the observation that the efficient training of the proposed model is challenging, this thesis analyzes the training process and generalizes the learning paradigm of the proposed model into a novel reinforcement learning framework, namely, internally rewarded reinforcement learning (IRRL). Theoretical and empirical analyses demonstrate that the inherent issues of noisy rewards and insufficient observations in the training process of IRRL lead to an unstable training loop where neither the policy nor the discriminator can learn effectively. It is proven that the shape of the reward function has an impact on the stability of the training process, based on which the clipped linear reward function is proposed to mitigate the unstable training issue. In summary, the task setups, simulation environments, methodologies, and findings presented in this thesis contribute to the development of active vision for embodied agents and associated areas within the realm of reinforcement learning. The reinforcement learning framework proposed in this thesis, which incorporates diverse components such as visual perception, active vision control, and task-relevant discrimination, provides a unified approach to the development of active vision for action-response embodied agents, serving as a fundamental contribution. Verkörperte Agenten können zu jedem Zeitpunkt ihre Umgebung nur partiell aus ihrer egozentrischen Perspektive erfassen. Dies führt häufig zu Situationen, in denen Beobachtungen unvollständig sind und die Agenten auf Basis der unvollständigen, aufgabenbezogenen Informationen reagieren müssen. Um diese Herausfor-derung zu bewältigen, ist es erforderlich, dass sie ihre Umwelt entsprechend den Erfordernissen der Aufgabe aktiv erkunden, um genügend relevante Informationen zu sammeln. Die Entwicklung des aktiven Sehens ist von wesentlicher Bedeutung für verkörperte KI-Agenten, die in realistischen Szenarien eingesetzt werden. Im Unterschied zu einem Großteil der bisherigen Forschungen über verkörperte Agenten, die vornehmlich das aktive Sehen in Kontexten wie Objekt-Ziel-Navigation thematisieren, richtet diese Arbeit ihr Augenmerk auf verkörperte Agenten, die mit zwei verschiedenen Ausgabekanälen ausgestattet sind: einem für die Steuerung des aktiven Sehens zur gezielten Sammlung visueller Informationen und einem zweiten für aufgabenbezogene Handlungen. Solche verkörperten Agenten sind natürlich und entsprechen den menschlichen Fähigkeiten. Sie werden vor allem in Szena-rien benötigt, in denen eine reiche Interaktion zwischen Agenten und menschlichen Nutzern eine wesentliche Rolle spielt. Allerdings hat die Forschung zu dieser Art von verkörperten Agenten noch nicht viel Aufmerksamkeit erhalten. In der vorliegenden Arbeit werden zunächst Modelle ohne physische Präsenz in Kontexten mit unvollständigen Beobachtungen untersucht, um zu ergründen, inwiefern die Herausforderung unvollständiger Information auch ohne den Einsatz aktiven Sehens bewältigt werden kann. Konkret wird das Problem in einem speziellen Szenario betrachtet, bei dem die visuellen Informationen eines Bildes möglicherweise nicht genügen, um eine gegebene Fragestellung zu beantworten. Die Untersuchung zeigt, dass die Entwicklung nicht-physischer Modelle, die sowohl eine Situation unvollständiger Information erkennen, als auch in Situationen ausreichender Datenlage präzise Antworten liefern können, eine keineswegs triviale Aufgabe darstellt. Zudem wird eine grundlegende Einschränkung derartiger nicht-physischer KI-Mod-elle aufgezeigt: Es lässt sich lediglich ein konservatives Modell realisieren, das in Szenarien mit unvollständiger Information die Ausgabe potenziell schädlicher Antworten vermeidet. Diese Erkenntnis legt den Grundstein für weiterführende Arbeiten an verkörperten Agenten, die durch aktives Sehen in der Lage sind, proaktiv die benötigten Informationen zu erwerben und so Reaktionen zu erzeugen, die nicht nur unschädlich, sondern auch von Nutzen sind. Angesichts der grundlegenden Einschränkungen nicht-physischer KI-Modelle fokussieren wir uns auf die Entwicklung einer fortschrittlichen Steuerung des aktiven Sehens für verkörperte KI-Agenten. Inspiriert von neurowissenschaftlichen Lerntheorien, welche die Integration von Sinneswahrnehmung, Aufmerksamkeits-mechanismen und Bewertungsprozessen in den Belohnungsmechanismus des menschlichen und tierischen Gehirns betonen, entwerfen wir den Action-Response-Agenten mittels eines modularen Netzwerks und trainieren die Strategie für die Steuerung des aktiven Sehens durch Reinforcement Learning (RL). Zur effektiven Leistungbewertung des Modells und der Trainingsmethode implementieren wir die Aufgabe für den Roboter, die Existenz von Objekten vorherzusagen (ROEP), die durch mögliche Verdeckungen durch andere Objekte bei unvollständigen Beobachtungen geprägt ist. Experimentelle Ergebnisse belegen die Machbarkeit, ein Modell für einen Action-Response-Agenten zu entwickeln, der sowohl in der Lage ist, die Steuerung des aktiven Sehens auszuüben als auch aufgabenbezogene Aktionen durchzuführen. Anschließend, inspiriert von der Erkenntnis, dass das effiziente Training des vorgeschlagenen Modells eine signifikante Herausforderung darstellt, widmet sich diese Arbeit einer detaillierten Analyse des Trainingsprozesses und erweitert das Lernkonzept des vorgeschlagenen Modells zu einem innovativen Reinforcement-Learning Konzept, dem intern belohnten Reinforcement Learning (IRRL). Theo-retische Überlegungen und empirische Untersuchungen zeigen, dass die grundlegenden Problematiken von verrauschten Belohnungssignalen und unvollständigen Beobachtungen innerhalb des IRRL-Trainingsprozesses zu einer instabilen Lernschleife führen, in welcher weder die Strategiefindung noch das Diskriminatorlernen effektiv stattfinden können. In dieser Arbeit konnte nachgewiesen werden, dass die Gestaltung der Belohnungsfunktion einen entscheidenden Einfluss auf die Stabilität des Trainingsverlaufs nimmt. Vor diesem Hintergrund wird eine gedeckelte lineare Belohnungsfunktion vorgeschlagen, um das Problem der Trainingsinstabilität zu entschärfen. Zusammenfassend trägt diese Arbeit durch die Präsentation spezifischer Aufgabenstellungen, Simulationsumgebungen, Methoden und Ergebnisse wesentlich zur Fortentwicklung des aktiven Sehens für verkörperte Agenten und zu angrenzenden Themenfeldern im Kontext des RL bei. Der in dieser Arbeit vorgeschlagene Rahmen für das RL, der verschiedene Komponenten wie die visuelle Wahrnehmung, die Steuerung des aktiven Sehens und die aufgabenbezogene Differenzierung integriert, bietet einen einheitlichen Ansatz für die Entwicklung des aktiven Sehens für verkörperte Agenten und stellt einen grundlegenden Beitrag dar.
URL:	https://ediss.sub.uni-hamburg.de/handle/ediss/10952
URN:	urn:nbn:de:gbv:18-ediss-118247
Dokumenttyp:	Dissertation
Betreuer*in:	Wermter, Stefan
Enthalten in den Sammlungen:	Elektronische Dissertationen und Habilitationen

Dateien zu dieser Ressource:

Datei	Beschreibung	Prüfsumme	Größe	Format
thesis-MengdiLi-20240605-final-signed.pdf		e84c1b60e85bee9acf125e1fcf14b3da	6.53 MB	Adobe PDF	Öffnen/Anzeigen

Zur Langanzeige

Info

Seitenansichten

898

Letzte Woche

Letzten Monat

geprüft am 06.02.2026

Download(s)

1.204

Letzte Woche

Letzten Monat

geprüft am 06.02.2026

Werkzeuge

Google Scholar^TM

Prüfe

Dateien zu dieser Ressource:

Seitenansichten

Download(s)

Google ScholarTM

Google Scholar^TM