FAQ
© 2016 Staats- und Universitätsbibliothek
Hamburg, Carl von Ossietzky

Öffnungszeiten heute09.00 bis 24.00 Uhr alle Öffnungszeiten

Eingang zum Volltext in OPUS

Hinweis zum Urheberrecht

Dissertation zugänglich unter
URN: urn:nbn:de:gbv:18-78900
URL: http://ediss.sub.uni-hamburg.de/volltexte/2016/7890/


Neurocomputational Mechanisms for Adaptive Self-Preservative Robot Behaviour

Adaptive Neuroinformatische Selbsterhaltungsmechanismen für Robotersysteme

Navarro Guerrero, Nicolás Ignacio

pdf-Format:
 Dokument 1.pdf (3.798 KB) 


SWD-Schlagwörter: Künstliche Intelligenz , Maschinelles Lernen , Robotik
Freie Schlagwörter (Deutsch): Bestärkendes Lernen
Freie Schlagwörter (Englisch): Self-preservation , Robotics , Nociception and Punishment , Artificial Neural Networks , Reinforcement Learning and Conditioning
Basisklassifikation: 54.99 , 54.72 , 50.25
Institut: Informatik
DDC-Sachgruppe: Informatik
Dokumentart: Dissertation
Hauptberichter: Wermter, Stefan (Prof. Dr.)
Sprache: Englisch
Tag der mündlichen Prüfung: 03.05.2016
Erstellungsjahr: 2016
Publikationsdatum: 24.05.2016
Kurzfassung auf Deutsch: Im Gebiet der neurokognitiven Robotik werden die Verarbeitungsmechanismen des Gehirns als Inspiration und Leitlinie verwendet. Inspiriert von diesen Mechanismen des Gehirns sollten Computerimplementationen der Roboterwahrnehmung und -aktion auf neuronalen Architekturen und biologisch plausiblen Lernmechanismen basieren. Die Verwendung von Unsupervised- und Reinforcement-Learning hat zu guten Ergebnissen in der Bildung interner sensorischer Repräsentationen und intelligentem, durch Belohnung gesteuertem Verhalten geführt. Allerdings werden andere Aspekte im Verhalten von Tieren in der Regel nicht berücksichtigt, obwohl oft argumentiert wird, dass nur eine umfassendere Untersuchung des Verhaltens von Tieren zu einem tieferen Verständnis von intelligentem Verhalten führen kann, wie es in dieser Arbeit diskutiert wird.

Selbsterhaltung ist ein Beispiel für eine solche bisher vernachlässigte, aber ursprüngliche und wesentliche Fähigkeit eines jeden Organismus. Es wird vermutet, dass der Selbsterhaltungstrieb Grundregeln für komplexeres und motiviertes Verhalten setzt. Obwohl viele dieser angeborenen Reaktionen fest im Gehirn codiert sind, sind sie nicht ausreichend, um das Überleben des Organismus zu sichern. Er muss sich durch Lernen an neue und unerwartete Situationen in seinem Leben anpassen und ist nur so in der Lage, effektiv mit seiner Umwelt zu interagieren. Eine Schlüsselkomponente für die lebenslange Anpassung ist die Bildung von Assoziationen beziehungsweise Erinnerungen von Umweltprädiktoren und relevanten Ereignissen, welche vor allem auf Lernen durch Bestrafung und Belohnung angewiesen sind.

Wir setzen voraus, dass ein tieferes Verständnis der angeborenen und erlernten Schutzmechanismen auch hilfreich bei der Entwicklung künftiger Robotergenerationen sein könnte, um diese Roboter anpassungsfähig und robust zu machen.
Daher untersuchen und entwickeln wir in dieser Arbeit drei neuroinformatische Selbsterhaltungsmechanismen im Kontext humanoider Serviceroboter und zeigen das Potential und die Durchführbarkeit der Integration von bio-inspirierten adaptiven Selbsterhaltungsmechanismen als Teil realer Robotersysteme auf.
Unser Ziel ist es, mögliche Ansätze zu präsentieren, durch die Roboter auf verschiedenen neurokognitiven Ebenen mit adaptiven Selbsterhaltungsmechanismen ausgestattet werden können, angefangen mit abstrakten biologischen Modellen bis hin zu implementierten neuroinformatischen Modellen.

Das erste Experiment behandelt das Problem der energetischen Autonomie. Wir trainierten einen Roboter darauf, Belohnung durch appetitive Stimuli anzustreben. Es wurde ein Reinforcement Learning Algorithmus (SARSA) implementiert und weiterentwickelt, der in einem realen Szenario lernen und einen humanoiden Roboter zu einer Ladestation manövrieren soll.

Das zweite Experiment konzentriert sich auf die Rolle der Bestrafung und nozizeptiver Stimuli beim Erlernen motorischer Aktionen. Diese Arten von Feedback spielen eine wichtige Rolle bei der Steuerung von Aufmerksamkeit und der Modularisierung der Entscheidungsfindung. Sie wurden jedoch noch nicht vollständig in Computermodellen untersucht. Wir vergleichen die Wirkung dieser Arten von Feedback auf einen Actor-Critic-basierten Lernalgorithmus (CACLA).

Im letzten Experiment untersuchen wir die Rolle noxischer Stimuli in der Bildung antizipierenden Verhaltens. Dieses Experiment basiert auf Pawlowscher und instrumenteller Konditionierung und untersucht, wie Umweltreize verwendet werden können, um negative Folgen zu antizipieren. Ein hybrider Ansatz unter der Verwendung eines Echo State Networks (ESN) und Dopamin-modulierender Pawlowschen Konditionierung wurde verwendet, um noxische sensorische Stimuli basierend auf auditorischen Reizen zu antizipieren.

In allen drei Versuchen haben wir gezeigt, wie bisher vernachlässigte Selbsterhaltungsmechanismen bedeutsame Probleme der künstlichen Intelligenz lösen können und gleichzeitig die Grundlage für neue neuroinspirierte Rechenprozesse liefern. Besonders haben wir gezeigt, wie biologisch inspirierte sensomotorische Signale, wie zum Beispiel Nozizeption und Schmerz, genutzt werden können, um Lernverfahren zu verbessern. Außerdem wurden in dieser Arbeit Erweiterungen zu den verwendeten Lernalgorithmen entwickelt.
Kurzfassung auf Englisch: The field of neurocognitive robotics takes the processing mechanisms of the brain as inspiration and guidance: computer implementations of robot perception and action should be based on brain-like neural architectures and biologically plausible learning mechanisms. Unsupervised learning and reinforcement learning have led to good results on the emergence of internal sensory representations and intelligent reward-seeking behaviours, respectively. However, other aspects of animal behaviour are generally not considered, even though it has been argued that only a more comprehensive study of animal behaviour can lead to a deeper understanding of intelligent behaviour. This thesis does not attempt to provide a comprehensive model of animal behaviour, but rather tries to draw attention to the need for it by presenting the potential of neglected aspects of animal behaviour such as self-preservative behaviour.

Self-preservative behaviours are believed to impose the ground rules for more complex and motivated behaviour. Although many of these innate responses are hard-coded in the brain, they are not sufficient for the organisms' survival. They have to adapt, by learning, to new and unexpected situations within their lifetime and thereby be able to interact effectively with their environment. A key component on the lifetime adaptation is the formation of associations/memories between environmental predictors and relevant events, which mainly rely on punishment and reward learning.

We postulate that a deeper understanding of innate and learned defensive mechanisms could also be helpful in developing future robot generations, making them more adaptable and robust. Therefore, in this thesis, we study and develop three neurocomputational self-preservative mechanisms in the context of humanoid service robots to demonstrate the potential and feasibility of including bio-inspired adaptive self-preservative mechanisms as part of real-world robotic systems. Our aim is to present possible ways in which robots can be endowed with such adaptive self-preservative mechanisms at different neurocognitive levels, going from abstract biological models to neurocomputational models.

The first experiment addresses the problem of search for an appetitive stimulus. Here a reinforcement learning (SARSA) algorithm was optimized to learn in a real-world scenario and manoeuvre a humanoid robot towards a charging station.

The second experiment focuses on the role of punishment and nociceptive sensory input in motor learning. Both types of feedback play an important role in driving attention, and modulating decision making and action. However, they have not been thoroughly studied in computational models. Here, we compared the effect of both types of feedback on an Actor-Critic learning algorithm (CACLA).

Finally, in our last experiment, we studied the role of noxious stimuli in the formation of anticipatory behaviour. This experiment is based on Pavlovian and instrumental conditioning and how environmental cues can be used to anticipate negative outcomes. A hybrid approach using an echo state network (ESN) and a dopamine modulated Pavlovian conditioning model was used to anticipate nociceptive sensory input based on auditory cues.

In all three experiments we showed how often neglected, self-preservative mechanisms could solve meaningful artificial intelligence problems while providing the basis for new neuro-inspired computational processes. In particular, we showed how bio-inspired sensorimotor signals associated with nociception and pain can be exploited for learning beyond triggering reactive behaviours. We also developed novel extensions to the learning algorithms used.

Zugriffsstatistik

keine Statistikdaten vorhanden
Legende