Unsupervised Induction of Domain Dependency Graphs - Extracting, Understanding and Visualizing Domain Knowledge

Kohail, Sarah

DC Element	Wert	Sprache
dc.contributor.advisor	Biemann, Chris (Prof. Dr.)
dc.contributor.author	Kohail, Sarah
dc.date.accessioned	2020-10-19T13:10:40Z	-
dc.date.available	2020-10-19T13:10:40Z	-
dc.date.issued	2019
dc.identifier.uri	https://ediss.sub.uni-hamburg.de/handle/ediss/6128	-
dc.description.abstract	The unstructured nature of text documents makes the task of processing and understanding it by machines very challenging, and transforming it into structured representation has become a pressing. Classical Bag-of-Words-based Vector Space Model (BoW-based VSM) represents documents as independent terms and only considers the document as a histogram of word occurrences, ignoring structural and semantic aspects of textual contents. This dissertation explores the utility of graph-based text representations as an alternative to classical text representation models. Specifically, we propose a new data-driven graph-theoretic approach to representing text by means of graphs, called Domain Dependency Graphs (DDGs). DDGs integrate the power of graph representation, as a way to preserve the dependency structure of a text, with topic modeling, as a way to uncover the hidden topical semantic structure of a text. In summary, DDGs generation process goes as follows: using topic modeling, we extract dominant topics from a corpus of documents. Then, source-side dependency structures of documents per topic are modeled as one coherent DDG, which maintains the inter-topic cohesiveness together with the structural aspect of a text. Later, an extra level of term and dependency weighting approach is applied to ensure the extraction of highly domain-specific words and relations. Our approach is completely unsupervised and needs no labeled training data or previous knowledge about the domains. In an effort to provide further understanding of the extracted DDGs, we develop DDGviz, an interactive open-source web-based visualization tool, which enables users to filter, analyze, search and easily interact with generated DDGs by adjusting various parameters and configurations. To demonstrate the effectiveness of the generated DDGs, we perform extrinsic evaluation by integrating several DDGs-based features, and graph mining and alignment approaches to improving the performance of relevant Natural Language Processing (NLP) tasks, namely Aspect-based Sentiment Analysis (ABSA) and Semantic Textual Similarity (STS), as follows: (1) We explore the effectiveness of DDGs-based features, like DDGs top domain words and DDGs identified aspects, in addition to distributional semantics features, for improving the performance of supervised models for different aspect-based sentiment analysis subtasks. We also propose a novel unsupervised graph-rule mining approach, which incorporates high level linguistic structural information to accurately identify the most compelling aspects of different entities (aspect identification) and extract opinion related expressions (OTE-sentiment extraction) from unstructured user-generated reviews. (2) We provide an unsupervised STS solution to finding similarities between two texts based on DDGs alignment. We introduce an approximate sub-graph alignment approach to find a dependency sub-graph in the candidate text dependency graph that is similar to a given query text dependency graph, allowing for node gaps and mismatches, where a certain word in one dependency graph cannot be mapped to any word in the query text graph, as well as graph structural differences. We also examine the impact of using DDGs similarity-based and coverage-based features to improve the identification and prediction of STS supervised models. Experiments on different benchmark datasets for different subtasks revealed that incorporating DDGs-based features show superior results compared to state-of-the-art approaches.	en
dc.description.abstract	Die Abwesenheit von Struktur in Texten führt bei der Verarbeitung und beim Verstehen durch Maschinen zu besonderen Herausforderungen und die Transformation von Text in eine strukturierte Repräsentation verlangt dringend nach einer Lösung. Klassische auf Bag-of-Words-basierende Vector Space Modelle (BoW-based VSM) betrachten ein Dokument lediglich als Histogramm von Worthäufigkeiten,was die strukturellen und semantischen Eigenschaften des Textinhalts ignoriert. Diese Dissertation erforscht den Nutzen von graphbasierten Textrepräsentationen als eine Alternative zu klassischen Textrepräsentationsmodellen. Im Besonderen stellen wir einen neuen datengetriebenen graphentheoretischen Ansatz zur Textrepräsentation durch Graphen mit dem Namen Domain Dependency Graphs (DDGs) vor. DDGs vereinen die Mächtigkeit der Graphenrepräsentation, als Möglichkeit zum Erhalt der Abhängigkeitsstruktur eines Texts, mit Topic Modeling, als Möglichkeit versteckte thematische Strukturen in Texten aufzudecken. Der Generierungsprozess von DDGs kann folgendermaßen zusammengefasst werden: Unter Verwendung von Topic Modeling extrahieren wir dominante Themen innerhalb eines Dokumentenkorpus. Dann werden Abhängigkeitsstrukturen (Dependenzen) der Dokumente für jedes Thema als kohärenter DDG modelliert, was den inter-thematischen Zusammenhalt mit der strukturellen Komponente des Texts erhält. Später wird auf einer zusätzlichen Ebene ein Vorgehen zur Ausdrucks- und Abhängigkeitsgewichtung angewendet, um die Extraktion von hoch domänenspezifischen Begriffen und Beziehungen sicherzustellen. Unser Ansatz ist komplett unüberwacht und benötigt keine gekennzeichneten Trainingsdaten oder vorheriges Wissen über die Domäne. In dem Bestreben weiteres Verständnis für die extrahierten DDGs zu schaffen, haben wir DDGviz entwickelt, welches ein open-source Web-basiertes Visualisierungswerkzeug ist, das einem Nutzer eine einfache Interaktion sowie mit Filtern, Analysieren und Durchsuchen von generierten DDGs durch Anpassung von verschiedenen Parametern und Konfigurationen erlaubt. Zur Demonstration der Effektivität der generierten DDGs führen wir eine extrinsische Evaluation unter Integration von verschiedenen DDG-basierenden Merkmalen, sowie Graph Mining und Abgleichansätzen durch, um die Leistung bei relevanten sprachtechnologischen Aufgaben, namentlich Aspect-based Sentiment Analysis (ABSA) und Semantic Textual Similarity (STS), wie folgt zu verbessern: (1) Wir erforschen die Effektivität von DDG-basierten Merkmalen wie die von DDGs identifizierten Top-Domänenbegriffe und Aspekte, zusätzlich zu Merkmalen der distributionellen Semantik zur Verbesserung der Leistung von überwachten Modellen verschiedener Aspekt-basierter Teilaufgaben der Stimmungsanalyse (Sentiment Analysis). Wir schlagen zudem ein neuartiges unüberwachtes Graph-Rule Mining Verfahren vor, welches linguistische Strukturinformation zur genauen Identifikation der überzeugendsten Aspekte unterschiedlicher Entitäten (Aspect Identification) sowie Opinion Target Expressions (OTE-sentiment Extraction) aus unstrukturierten nutzergenerierten Rezensionen beinhaltet. (2) Wir schlagen eine unüberwachte STS Lösung zum Aufspüren von Ähnlichkeiten zwischen zwei Texten basierend auf DDG-Abgleichen vor. Wir führen ein Verfahren zum approximativen Abgleich von Subgraphen ein, um einen Abhängigkeitsteilgraph im Abhängigkeitsgraphen des Kandidatentexts zu finden, welcher ähnlich zu einem gegebenen Abhängigkeitsgraphen eines Abfragetexts ist. Dies erlaubt das Auftreten von Knotenlücken und Nichtübereinstimmungen, bei denen ein bestimmtes Wort in einem Abhängigkeitsgraphen nicht auf ein Wort im Graphen des Abfragetexts zugeordnet werden kann, als auch Strukturunterschiede in den Graphen. Wir prüfen zudem den Einfluss der Verwendung von ähnlichkeitsbasierten und abdeckungsbasierten DDGMerkmalen zur Verbesserung der Identifikation und Vorhersage von überwachten STS Modellen. Experimente auf unterschiedlichen Benchmark-Datensätzen für unterschiedliche Teilaufgaben zeigten, dass die Integration von DDG-basierten Merkmalen zu besseren Ergebnissen im Vergleich zu zu aktuellen Ansätzen führt.	de
dc.language.iso	en	en
dc.publisher	Staats- und Universitätsbibliothek Hamburg Carl von Ossietzky
dc.rights	http://purl.org/coar/access_right/c_abf2
dc.subject	Abhängigkeitsgraphen	de
dc.subject	Computerlinguistik	de
dc.subject	Sentimentanalyse	de
dc.subject	Semantische Nähe	de
dc.subject	Text Zusammenfassen	de
dc.subject	Domain Dependency Graphs	en
dc.subject	Natural language processing	en
dc.subject	Sentiment Analysis	en
dc.subject	Semantic Similarity	en
dc.subject	Lexicon Expansion	en
dc.subject	Text Summarization	en
dc.subject.ddc	004 Informatik
dc.title	Unsupervised Induction of Domain Dependency Graphs - Extracting, Understanding and Visualizing Domain Knowledge	en
dc.title.alternative	Unüberwachte Induktion von Domäne Abhängigkeitsgraphen - Extrahieren, Verstehen und Visualisieren von Domänenwissen	de
dc.type	doctoralThesis
dcterms.dateAccepted	2019-12-10
dc.rights.cc	No license
dc.rights.rs	http://rightsstatements.org/vocab/InC/1.0/
dc.subject.bcl	54.72 Künstliche Intelligenz
dc.subject.bcl	54.75 Sprachverarbeitung
dc.subject.bcl	54.82 Textverarbeitung
dc.type.casrai	Dissertation	-
dc.type.dini	doctoralThesis	-
dc.type.driver	doctoralThesis	-
dc.type.status	info:eu-repo/semantics/publishedVersion
dc.type.thesis	doctoralThesis
tuhh.opus.id	10191
tuhh.opus.datecreation	2019-12-18
tuhh.type.opus	Dissertation	-
thesis.grantor.department	Informatik
thesis.grantor.place	Hamburg
thesis.grantor.universityOrInstitution	Universität Hamburg
dcterms.DCMIType	Text	-
tuhh.gvk.ppn	1686873158
dc.identifier.urn	urn:nbn:de:gbv:18-101911
item.grantfulltext	open	-
item.languageiso639-1	other	-
item.creatorOrcid	Kohail, Sarah	-
item.advisorGND	Biemann, Chris (Prof. Dr.)	-
item.creatorGND	Kohail, Sarah	-
item.fulltext	With Fulltext	-
Enthalten in den Sammlungen:	Elektronische Dissertationen und Habilitationen

Dateien zu dieser Ressource:

Datei	Beschreibung	Prüfsumme	Größe	Format
Dissertation.pdf		480e12de41cefcc7037220a15e75b757	6.27 MB	Adobe PDF	Öffnen/Anzeigen

Zur Kurzanzeige

Diese Publikation steht in elektronischer Form im Internet bereit und kann gelesen werden. Über den freien Zugang hinaus wurden durch die Urheberin / den Urheber keine weiteren Rechte eingeräumt. Nutzungshandlungen (wie zum Beispiel der Download, das Bearbeiten, das Weiterverbreiten) sind daher nur im Rahmen der gesetzlichen Erlaubnisse des Urheberrechtsgesetzes (UrhG) erlaubt. Dies gilt für die Publikation sowie für ihre einzelnen Bestandteile, soweit nichts Anderes ausgewiesen ist.

Info

Seitenansichten

803

Letzte Woche

Letzten Monat

geprüft am 15.07.2026

Download(s)

220

Letzte Woche

Letzten Monat

geprüft am 15.07.2026

Werkzeuge

Google Scholar^TM

Prüfe

Dateien zu dieser Ressource:

Seitenansichten

Download(s)

Google ScholarTM

Google Scholar^TM