Titel: | The dual-systems approach in reinforcement learning – a multimethodological analysis of strategies, mechanisms, and modulating factors | Sprache: | Englisch | Autor*in: | Cremer, Anna | Schlagwörter: | Reinforcement Learning; Decision Making; Adaptive Learning; Dual-Systems-Theory | Erscheinungsdatum: | 2024 | Tag der mündlichen Prüfung: | 2024-10-07 | Zusammenfassung: | Reinforcement learning offers a formalized model of decision-making processes guided by the predicted values associated with available options. It is commonly assumed in these models that behavior is governed by two separate systems: a fast, reflexive system and a slower, more deliberate prospective system. These systems are thought to be dissociable not only on the behavioral, but also on the neural level. At the same time, dual-systems approaches have been criticized for their allegedly oversimplistic nature. It is argued that cognitive processes are better reflected on a continuum and that the brain uses more integrated, dynamic, and context-dependent mechanisms than captured in dichotomized systems. To address these issues, we tested the notion of dual-systems approaches underlying RL, probing the presence of separate systems, their interplay, and modulating factors. Stress is known to be a powerful modulator of leaning and decision making that was shown to induce a shift from cognitively demanding to rather reflexive systems. We examined three different dual-systems frameworks in RL and tested the susceptibility of the systems and their components to stress and stress mediators. In Study 1, we examined the extent to which adaptive behavior is driven by a purely reward-driven model-free reinforcement learning, versus a model-based strategy that incorporates a map of the environment to guide choices, while exposing participants to an acute stress manipulation. Although stress is assumed to impair prefrontal functions associated with model-based reinforcement learning, participants from the stress and control groups utilized both learning strategies in a stimulus-response association task with an overall bias towards model-free reinforcement learning. However, our results from functional magnetic resonance imaging showed a reduction of value computations underlying both model-free and model-based reinforcement learning in stressed participants. In Study 2, we aimed to shed light on the processing of specific choice components underlying the preference for exploiting known, but depleting resources versus exploring unknown options. Prior research has identified dopamine and noradrenaline as key drivers in this tradeoff. By pharmacologically blocking either of these two neurotransmitter systems, we found that neither of them drives exploration vs. exploitation per se. Rather, they both play functionally different roles: While dopamine signaled choice-relevant features. noradrenaline exerted a disengagement from the current information path. In Study 3, we tested how the systems of working memory vs. reward learning contribute to the acquisition of stimulus-action pairs and whether these contributions are subject to stress effects. Our results show a cooperative interplay between working memory and reinforcement learning with reward learning guiding behavior when working memory limits are exceeded. Overall, our findings challenge the strict dichotomy traditionally posited in dual-systems theories, highlighting a more nuanced interplay of cognitive components in learning and decision-making. Therefore, this work contributes to a deeper understanding of the adaptive nature of human cognition and offers implications for enhancing decision-making strategies in real-world scenarios. Verstärkungslernen bietet die Formalisierung von Entscheidungsprozessen, die von vorhergesagten Werten der verfügbaren Optionen gesteuert werden. In den zugrunde liegenden Modellen wird üblicherweise davon ausgegangen, dass das Verhalten durch zwei getrennte Systeme gesteuert wird: ein schnelles, reflexives System und ein langsameres, weitsichtigeres, prospektives System. Man geht davon aus, dass sich diese Systeme nicht nur auf der Verhaltensebene, sondern auch auf der neuronalen Ebene unterscheiden lassen. Gleichzeitig werden Ansätze zweier Systeme für ihre vermeintliche zu vereinfachte Betrachtung kritisiert. Es wird argumentiert, dass kognitive Prozesse besser auf einem Kontinuum abgebildet werden können und dass das Gehirn stärker integrierte, dynamische und kontextabhängige Mechanismen verwendet, als dies in dichotomisierten Systemen der Fall ist. Um diese Aspekte zu untersuchen, haben wir das Konzept dualer Systeme, die Verstärkungslernen zugrunde liegen, getestet und das Vorhandensein separater Systeme, deren Zusammenspiel und modulierende Faktoren untersucht. Stress ist ein wirksamer Modulator von Lern- und Entscheidungsprozessen, der nachweislich eine Verschiebung von kognitiv anspruchsvollen zu eher reflexiven Systemen hervorruft. Wir haben drei verschiedene duale Systeme im Bereich des Verstärkungslernens untersucht und die Anfälligkeit der Systeme und ihrer Komponenten für Stress und Stressmediatoren getestet. In Studie 1 untersuchten wir das Ausmaß, in dem adaptives Verhalten durch rein belohnungsgesteuertes, modellfreies Verstärkungslernen gesteuert wird im Vergleich zu einer modellbasierten Strategie, die eine Karte der Umgebung zur Steuerung von Entscheidungen einbezieht, während die Teilnehmer einer akuten Stressmanipulation ausgesetzt wurden. Obwohl angenommen wird, dass Stress präfrontale Funktionen beeinträchtigt, die mit modellbasiertem Verstärkungslernen assoziiert werden, nutzten die Teilnehmer der Stress- und der Kontrollgruppe beide Lernstrategien in einer Stimulus-Antwort-Assoziationsaufgabe mit einer allgemeinen Tendenz zu modellfreiem Verstärkungslernen. Unsere Ergebnisse aus der funktionellen Magnetresonanztomographie zeigten jedoch in der Stressgruppe eine Verringerung der Wertberechnungen sowohl von modellfreiem als auch von modellbasiertem Verstärkungslernen. In Studie 2 haben wir die Verarbeitung spezifischer Entscheidungskomponenten adressiert, die der Präferenz für die Nutzung bekannter, aber im Wert sinkender Ressourcen gegenüber der Erkundung unbekannter Optionen zugrunde liegen. In der Literatur wurden Dopamin und Noradrenalin als Vermittler dieser Abwägung identifiziert. Indem wir das eine oder das andere Neurotransmittersystem pharmakologisch blockiert haben, haben wir herausgefunden, dass keines per se Exploitation oder Exploration steuert. Vielmehr erfüllen sie funktionell unterschiedliche Rollen: Während Dopamin entscheidungsrelevante Merkmale signalisierte, ging Noradrenalin mit der Abkehr vom aktuellen Informationspfad einher. In Studie 3 untersuchten wir, wie die Systeme des Arbeitsgedächtnis bzw. des Belohnungslernens zum Erlernen von Stimulus-Antwort-Paaren beitragen und ob diese Beiträge Stresseffekten unterliegen. Unsere Ergebnisse zeigen ein kooperatives Zusammenspiel zwischen Arbeitsgedächtnis und Belohnungslernen, wobei Belohnungslernen das Verhalten steuert, wenn die Grenzen des Arbeitsgedächtnisses überschritten werden. Insgesamt stellen unsere Ergebnisse die traditionell in Dual-System-Theorien aufgestellten strikten Dichotomien in Frage und weisen auf ein nuancierteres Zusammenspiel kognitiver Komponenten von Lern- und Entscheidungsprozessen hin. Folglich trägt diese Arbeit zu einem tieferen Verständnis der adaptiven Natur menschlicher Kognition bei und bietet Implikationen für die Verbesserung von Entscheidungsstrategien in realen Szenarien. |
URL: | https://ediss.sub.uni-hamburg.de/handle/ediss/11211 | URN: | urn:nbn:de:gbv:18-ediss-121972 | Dokumenttyp: | Dissertation | Betreuer*in: | Schwabe, Lars |
Enthalten in den Sammlungen: | Elektronische Dissertationen und Habilitationen |
Dateien zu dieser Ressource:
Datei | Prüfsumme | Größe | Format | |
---|---|---|---|---|
dissertation.pdf | 4612b203e71a560e26a1abffdfddb3ff | 8.88 MB | Adobe PDF | Öffnen/Anzeigen |
Info
Seitenansichten
Letzte Woche
Letzten Monat
geprüft am null
Download(s)
Letzte Woche
Letzten Monat
geprüft am null
Werkzeuge