Titel: | Intrinsically Motivated Actor-Critic for Robot Motor Learning | Sonstige Titel: | Intrinsisch motivierter Akteur-Kritiker für Roboter-Lernen | Sprache: | Englisch | Autor*in: | Hafez, Muhammad Burhan | Erscheinungsdatum: | 2020 | Tag der mündlichen Prüfung: | 2020-05-07 | Zusammenfassung: | Learning sensorimotor skills from trial and error in unknown environments is an important ability for autonomous agents. Reinforcement learning (RL) is a powerful approach to provide this ability without manually programming the desired behavior or requiring any prior knowledge by learning a control policy–a direct mapping from a raw sensory input to a raw motor output that optimizes the task performance. In recent years, deep RL has been used to learn this mapping from self-collected experience data by utilizing deep neural networks as function approximators. However, the performance of deep RL critically depends on the chosen exploration strategy. Random, undirected exploration is impractical in real-world robot learning where spending additional training time exploring known parts of the robot’s environment cannot be afforded and converging to an optimal policy with a minimal number of environmental interactions is necessary. Deep RL also suffers from poor sample efficiency as it requires large amounts of self-collected training data to adjust the large number of learning parameters the deep networks typically have. This fundamentally limits how quickly a robot can learn useful control policies. Another issue inevitable in complex domains is using imperfect predictive models of the environment for planning actions or simulating experiences, which results in a compounding of prediction errors when making multiple-step predictions with a learned model, leading to poor task performance. In this thesis, we propose behaviorally and neurally plausible approaches to better understand, analyze, and address these different challenges associated with improving deep RL for robot sensorimotor learning. We first present a directed, data-efficient exploration strategy, inspired by sensorimotor development in infants, which provides an intrinsic reward based on the progress in learning local world models, informatively shifting the interactions from well-explored to less-explored regions of the world. We then introduce a novel deep architecture for learning low-dimensional state representations that optimize a joint supervised reward prediction and unsupervised input reconstruction loss. The learned representation is used as input to the policy and the world models whose predictions are used in deriving the intrinsic reward, effectively improving the sample efficiency of learning real-world pixel-level policies. We next show how the learning progress-based intrinsic reward can be used as an estimate of the reliability of model predictions to determine when to perform planning under the model and adaptively arbitrate between model-based and model-free control in dual-system RL. We also leverage the learned model by augmenting the training set of real experiences with imagined experiences generated with the model over regions where the model is reliable and use the intrinsic motivation to collect experience data that improves the model. Finally, we propose a dual-system motor learning approach that integrates arbitration with imagination and enables an adaptive-length model rollout for plan optimization during model-based control, and evaluate it on learning vision-based robotic grasping in simulation and the real world. The experimental results show that our approach learns better vision-based grasping policies than baseline and state-of-the-art methods in dense- and sparse-reward environments. Das Erlernen sensomotorischer Fähigkeiten durch Versuch und Irrtum in unbekannten Umgebungen ist eine wichtige Fähigkeit für autonome Agenten. Reinforcement Learning (RL) ist ein leistungsfähiger Ansatz, um diese Fähigkeiten zu erlangen ohne das gewünschte Verhalten manuell zu programmieren oder Vorwissen zu nutzen. Beim Reinforcement Learning wird eine Control Policy gelernt, eine direkte Abbildung von einem unvorverarbeitetem sensorischen Input zu einem motorischen Output, die eine gegebene motorische Aufgabe optimal ausführt. In den letzten Jahren wurde tiefes RL verwendet, um diese Abbildung auf Grundlage von selbst-gesammelten Erfahrungsdaten mit tiefen neuronalen Netzen als Funktionsapproximatoren zu lernen. Jedoch hängt die Performanz von tiefem RL entscheidend von der gewählten Explorationsstrategie ab. Zufällige, ungerichtete Exploration ist beim Lernen mit Robotern in der realen Welt unpraktisch. Unnötige Trainingszeit, in der bekannte Teile der Roboterumgebung erforscht werden, sollte vermieden werden. Eine optimale Policy sollte mit einer minimalen Anzahl von Umweltinteraktionen erlernt werden. Tiefes RL leidet zudem unter einer schlechten Dateneffizienz; große Mengen an selbst gesammelten Trainingsdaten sind notwendig um die typischerweise große Anzahl von Parametern in den tiefen Netzwerken zu lernen. Diese schränkt grundsätzlich ein, wie schnell ein Roboter nützliche Policies erlernen kann. Ein weiteres Thema, dass in komplexen Umgebungen unvermeidlich ist, sind unvollkommene Vorhersagemodelle für die Planung von Aktionen oder die Simulation von Erfahrungen. Vorhersagefehler können sich bei Mehrschritt-Vorhersagen mit gelernten Modellen aufsummieren und zu einer schlechten Performanz führen. In dieser Arbeit präsentieren wir psychologisch und neurologisch plausible Ansätze zum besseren Verständnis, zur Analyse und zur Lösung dieser verschiedenen Herausforderungen des tiefen sensomotorischen RL für Roboter. Wir stellen zunächst eine gezielte, dateneffiziente Explorationsstrategie vor, inspiriert von der sensomotorischen Entwicklung von Säuglingen, die eine intrinsische Belohnung auf Grundlage der Fortschritte beim Erlernen lokaler Weltmodelle nutzt. Diese Strategie lenkt die Exploration von gut erforschten auf weniger bekannte Bereiche der Welt. Dann stellen wir eine neue tiefe Architektur für das Lernen von niedrig-dimensionalen Zustandsrepräsentationen vor, welche gleichzeitig eine überwachte Belohnungsvorhersage und eine unüberwachte Rekonstruktion des Inputs realisiert. Die erlernte Repräsentation wird als Input für die Policy und die Weltmodelle genutzt, deren Vorhersagen in die Bestimmung der intrinsischen Belohnung einfließen und somit die Dateneffizienz beim Erlernen von Policies auf Pixelebene verbessern. Als Nächstes zeigen wir, wie die auf dem Lernfortschritt basierende intrinsische Belohnung als Schätzung der Zuverlässigkeit der Modellvorhersagen genutzt werden kann, um zu bestimmen, wann Planung mit diesem Modell durchgeführt werden soll um somit adaptiv zwischen modellbasierter und modellfreier Kontrolle in einem dualen RL-System zu wechseln. Wir nutzen die gelernten Modelle ebenfalls, um die Trainingsdaten aus realen Erfahrungen durch imaginäre Erfahrungen in jenen Regionen zu ergänzen, in denen das Modell hinreichend zuverlässig ist. Gleichzeitig führt die intrinsische Motivation wiederum dazu, dass bevorzugt solche Erfahrungen gesammelt werden, die das Modell verbessern. Schließlich schlagen wir einen Ansatz für motorisches Lernen mit einem dualen System vor, welches einen adaptiven Wechsel zwischen modellbasierter und modellfreier Kontrolle mit imaginären Erfahrungen verbindet und modellbasierte Planung mit einer adaptiven Anzahl von Planungsschritten ermöglicht. Wir evaluieren den Ansatz mit robotischen Experimenten zu sichtbasiertem Greifen in simulierten und realen Umgebungen. Die experimentellen Ergebnisse zeigen, dass unser Ansatz eine bessere, auf sichtbasiertem Greif-Policy lernt als Basis- und modernste Methoden in Umgebungen mit häufigen als auch spärlichen Belohnungen erlernen kann. |
URL: | https://ediss.sub.uni-hamburg.de/handle/ediss/8387 | URN: | urn:nbn:de:gbv:18-104292 | Dokumenttyp: | Dissertation | Betreuer*in: | Wermter, Stefan (Prof. Dr.) |
Enthalten in den Sammlungen: | Elektronische Dissertationen und Habilitationen |
Dateien zu dieser Ressource:
Datei | Beschreibung | Prüfsumme | Größe | Format | |
---|---|---|---|---|---|
Dissertation.pdf | 1985e0224e5936959a66e09cd597e5da | 2.76 MB | Adobe PDF | Öffnen/Anzeigen |
Diese Publikation steht in elektronischer Form im Internet bereit und kann gelesen werden. Über den freien Zugang hinaus wurden durch die Urheberin / den Urheber keine weiteren Rechte eingeräumt. Nutzungshandlungen (wie zum Beispiel der Download, das Bearbeiten, das Weiterverbreiten) sind daher nur im Rahmen der gesetzlichen Erlaubnisse des Urheberrechtsgesetzes (UrhG) erlaubt. Dies gilt für die Publikation sowie für ihre einzelnen Bestandteile, soweit nichts Anderes ausgewiesen ist.
Info
Seitenansichten
850
Letzte Woche
Letzten Monat
geprüft am 20.11.2024
Download(s)
167
Letzte Woche
Letzten Monat
geprüft am 20.11.2024
Werkzeuge