Interactive Natural Language Processing for Discourse Analysis

Fischer, Tim

Titel:	Interactive Natural Language Processing for Discourse Analysis
Sprache:	Englisch
Autor*in:	Fischer, Tim
Erscheinungsdatum:	2026
Tag der mündlichen Prüfung:	2026-04-27
Zusammenfassung:	Qualitative research methodologies, particularly the Sociology of Knowledge Approach to Discourse (SKAD), rooted in Grounded Theory and Hermeneutics, face limitations when confronted with the massive scale of digital data. This dissertation addresses this gap by developing and extending the Discourse Analysis Tool Suite (DATS), an open-source web application that integrates natural language processing (NLP) technologies with the iterative demands of discourse analysis. This work develops an interactive, NLP-based working environment to advance the digitalization of qualitative discourse analysis. It is structured around a multi-step iterative workflow (import, exploration, annotation, analysis, interpretation) derived from the SKAD methodology, with contributions designed to augment each phase. We first define a set of requirements, emphasizing scalability and adaptability, which serve as the guiding principles for DATS and its subsequent extensions. DATS is the foundation of this work by providing both a preprocessing pipeline that prepares multimodal data for analysis and basic functionalities such as search, manual annotation, count-based statistics, and memos for interpretation. The core of this thesis lies in developing several AI-augmented extensions to DATS that follow the human-in-the-loop paradigm. To facilitate exploration, we introduced Perspectives, an interactive clustering interface that leverages contextual embeddings. To align the visualization with researchers' emergent analytical perspective, we implement an iterative refinement process utilizing few-shot fine-tuning of the embedding model. This document clustering pipeline was evaluated on several datasets, confirming its effectiveness in steering analytical outcomes. Complementing this, the LLM Assistant was developed to streamline document organization, metadata extraction, and span annotation by employing zero-shot inference from large language models (LLMs). This approach was validated through a comprehensive benchmarking of open-weight LLMs across tasks in qualitative data analysis. Building on the LLM Assistant, we developed a three-stage Annotation Assistant for sequential sentence classification. This adaptive approach dynamically transitions between zero-shot prompting, few-shot prompting, and model fine-tuning to deliver optimal suggestions regardless of data scarcity. The strategy was evaluated on five datasets, confirming that performance scales with the number of examples. Furthermore, we integrated search and annotation into an analytical feature, the Concept Over Time Analysis (COTA). COTA uses an iterative feedback loop that leverages few-shot fine-tuning to rapidly adapt semantic search, enabling semi-automatic classification and visualization of concepts over time. This method was evaluated across three classification datasets to confirm its adaptability and concept-discrimination capabilities. Finally, we enhanced DATS' interpretation support by integrating Whiteboards for visual analysis. Whiteboards create an interactive working environment for interpretation by providing a 2D canvas for organizing and linking research artifacts (memos, codes, documents, and annotations). The utility of this feature was validated through multiple qualitative use cases developed in collaboration with social scientists. Qualitative Forschungsmethoden, insbesondere die auf der Grounded Theory und Hermeneutik basierende Wissenssoziologische Diskursanalyse (WDA), stoßen an ihre Grenzen, wenn sie mit großen Datenmengen konfrontiert werden. Diese Dissertation adressiert dieses Problem durch die Entwicklung und Erweiterung der Discourse Analysis Tool Suite (DATS), einer Open-Source-Webanwendung, die Natural Language Processing (NLP) Technologien mit den iterativen Anforderungen der Diskursanalyse vereint. Diese Arbeit entwickelt eine interaktive, NLP-basierte Arbeitsumgebung, um die Digitalisierung der qualitativen Diskursanalyse voranzutreiben. Sie ist um einen mehrstufigen iterativen Workflow (Import, Exploration, Annotation, Analyse, Interpretation) strukturiert, der auf der WDA-Methodik basiert. Wir definieren zunächst zentrale Anforderungen, insbesondere Skalierbarkeit und Anpassungsfähigkeit, die als Leitprinzipien für DATS und dessen Erweiterungen dienen. DATS ist die Grundlage dieser Arbeit und stellt sowohl die Vorverarbeitungspipeline, die multimodale Daten für Analysen aufbereitet, als auch Basisfunktionalitäten wie Suche, Annotation, Statistiken und Memos bereit. Der Kern dieser Arbeit liegt in der Entwicklung mehrerer KI-gestützter Erweiterungen für DATS im Sinne des Human-in-the-Loop-Paradigmas. Zur Erleichterung der Exploration entwickelten wir Perspectives, eine interaktive Clustering Anwendung, die kontextualisierte Embeddings nutzt. Um die Visualisierung an die analytischen Perspektiven der Forschenden anzupassen, wurde ein iterativer Verfeinerungsprozess mittels few-shot fine-tuning entwickelt. Diese Clustering-Pipeline wurde an mehreren Datensätzen evaluiert und die Wirksamkeit bei der Steuerung analytischer Ergebnisse bestätigt. Ergänzend dazu wurde der LLM Assistant entwickelt, um die Dokumentenorganisation, die Metadatenextraktion und die Annotation durch den Einsatz von Large Language Models (LLMs) zu erleichtern. Dieser zero-shot Ansatz wurde durch umfassendes Benchmarking offener LLMs für Aufgaben der qualitativen Datenanalyse validiert. Darauf aufbauend entwickelten wir einen 3-stufigen Annotation Assistant zur Satzklassifikation. Dessen adaptiver Ansatz wechselt dynamisch zwischen zero-shot prompting, few-shot prompting und Model fine-tuning, um abhängig von der verfügbaren Datenmenge optimale Vorschläge zu liefern. Die Strategie wurde an fünf Datensätzen evaluiert, wodurch ihre Leistungsskalierbarkeit bestätigt wurde. Darüber hinaus integrierten wir Suche und Annotation in eine analytische Funktion: Die Concept Over Time Analysis nutzt iteratives Feedback und few-shot fine-tuning, um semantische Suchen schnell anzupassen und so eine semi-automatische Klassifikation und Visualisierung von Konzepten über Zeit zu ermöglichen. Diese Methode wurde anhand von drei Datensätzen evaluiert, um ihre Anpassungsfähigkeit zu bestätigen. Schließlich erweiterten wir DATS um Whiteboards zur visuellen Analyse. Whiteboards schaffen eine interaktive 2D-Umgebung für Interpretationen, in der Forschungsartefakte (Memos, Codes, Dokumente und Annotationen) organisiert und verknüpft werden. Die Nützlichkeit wurde durch mehrere qualitative Anwendungsfälle validiert, die in Zusammenarbeit mit Sozialwissenschaftlern entwickelt wurden.
URL:	https://ediss.sub.uni-hamburg.de/handle/ediss/12369
URN:	urn:nbn:de:gbv:18-ediss-137409
Dokumenttyp:	Dissertation
Betreuer*in:	Biemann, Chris
Enthalten in den Sammlungen:	Elektronische Dissertationen und Habilitationen

Dateien zu dieser Ressource:

Datei	Beschreibung	Prüfsumme	Größe	Format
dissertation_final_print.pdf		ee7fb967dc47a14402cd77b76361fd70	15.33 MB	Adobe PDF	Öffnen/Anzeigen

Zur Langanzeige

Info

Seitenansichten

Letzte Woche

Letzten Monat

geprüft am null

Download(s)

Letzte Woche

Letzten Monat

geprüft am null

Werkzeuge

Google Scholar^TM

Prüfe

Dateien zu dieser Ressource:

Seitenansichten

Download(s)

Google ScholarTM

Google Scholar^TM