Volltextdatei(en) vorhanden
DC ElementWertSprache
dc.contributor.advisorBiemann, Chris (Prof. Dr.)
dc.contributor.authorKohail, Sarah
dc.date.accessioned2020-10-19T13:10:40Z-
dc.date.available2020-10-19T13:10:40Z-
dc.date.issued2019
dc.identifier.urihttps://ediss.sub.uni-hamburg.de/handle/ediss/6128-
dc.description.abstractThe unstructured nature of text documents makes the task of processing and understanding it by machines very challenging, and transforming it into structured representation has become a pressing. Classical Bag-of-Words-based Vector Space Model (BoW-based VSM) represents documents as independent terms and only considers the document as a histogram of word occurrences, ignoring structural and semantic aspects of textual contents. This dissertation explores the utility of graph-based text representations as an alternative to classical text representation models. Specifically, we propose a new data-driven graph-theoretic approach to representing text by means of graphs, called Domain Dependency Graphs (DDGs). DDGs integrate the power of graph representation, as a way to preserve the dependency structure of a text, with topic modeling, as a way to uncover the hidden topical semantic structure of a text. In summary, DDGs generation process goes as follows: using topic modeling, we extract dominant topics from a corpus of documents. Then, source-side dependency structures of documents per topic are modeled as one coherent DDG, which maintains the inter-topic cohesiveness together with the structural aspect of a text. Later, an extra level of term and dependency weighting approach is applied to ensure the extraction of highly domain-specific words and relations. Our approach is completely unsupervised and needs no labeled training data or previous knowledge about the domains. In an effort to provide further understanding of the extracted DDGs, we develop DDGviz, an interactive open-source web-based visualization tool, which enables users to filter, analyze, search and easily interact with generated DDGs by adjusting various parameters and configurations. To demonstrate the effectiveness of the generated DDGs, we perform extrinsic evaluation by integrating several DDGs-based features, and graph mining and alignment approaches to improving the performance of relevant Natural Language Processing (NLP) tasks, namely Aspect-based Sentiment Analysis (ABSA) and Semantic Textual Similarity (STS), as follows: (1) We explore the effectiveness of DDGs-based features, like DDGs top domain words and DDGs identified aspects, in addition to distributional semantics features, for improving the performance of supervised models for different aspect-based sentiment analysis subtasks. We also propose a novel unsupervised graph-rule mining approach, which incorporates high level linguistic structural information to accurately identify the most compelling aspects of different entities (aspect identification) and extract opinion related expressions (OTE-sentiment extraction) from unstructured user-generated reviews. (2) We provide an unsupervised STS solution to finding similarities between two texts based on DDGs alignment. We introduce an approximate sub-graph alignment approach to find a dependency sub-graph in the candidate text dependency graph that is similar to a given query text dependency graph, allowing for node gaps and mismatches, where a certain word in one dependency graph cannot be mapped to any word in the query text graph, as well as graph structural differences. We also examine the impact of using DDGs similarity-based and coverage-based features to improve the identification and prediction of STS supervised models. Experiments on different benchmark datasets for different subtasks revealed that incorporating DDGs-based features show superior results compared to state-of-the-art approaches.en
dc.description.abstractDie Abwesenheit von Struktur in Texten führt bei der Verarbeitung und beim Verstehen durch Maschinen zu besonderen Herausforderungen und die Transformation von Text in eine strukturierte Repräsentation verlangt dringend nach einer Lösung. Klassische auf Bag-of-Words-basierende Vector Space Modelle (BoW-based VSM) betrachten ein Dokument lediglich als Histogramm von Worthäufigkeiten,was die strukturellen und semantischen Eigenschaften des Textinhalts ignoriert. Diese Dissertation erforscht den Nutzen von graphbasierten Textrepräsentationen als eine Alternative zu klassischen Textrepräsentationsmodellen. Im Besonderen stellen wir einen neuen datengetriebenen graphentheoretischen Ansatz zur Textrepräsentation durch Graphen mit dem Namen Domain Dependency Graphs (DDGs) vor. DDGs vereinen die Mächtigkeit der Graphenrepräsentation, als Möglichkeit zum Erhalt der Abhängigkeitsstruktur eines Texts, mit Topic Modeling, als Möglichkeit versteckte thematische Strukturen in Texten aufzudecken. Der Generierungsprozess von DDGs kann folgendermaßen zusammengefasst werden: Unter Verwendung von Topic Modeling extrahieren wir dominante Themen innerhalb eines Dokumentenkorpus. Dann werden Abhängigkeitsstrukturen (Dependenzen) der Dokumente für jedes Thema als kohärenter DDG modelliert, was den inter-thematischen Zusammenhalt mit der strukturellen Komponente des Texts erhält. Später wird auf einer zusätzlichen Ebene ein Vorgehen zur Ausdrucks- und Abhängigkeitsgewichtung angewendet, um die Extraktion von hoch domänenspezifischen Begriffen und Beziehungen sicherzustellen. Unser Ansatz ist komplett unüberwacht und benötigt keine gekennzeichneten Trainingsdaten oder vorheriges Wissen über die Domäne. In dem Bestreben weiteres Verständnis für die extrahierten DDGs zu schaffen, haben wir DDGviz entwickelt, welches ein open-source Web-basiertes Visualisierungswerkzeug ist, das einem Nutzer eine einfache Interaktion sowie mit Filtern, Analysieren und Durchsuchen von generierten DDGs durch Anpassung von verschiedenen Parametern und Konfigurationen erlaubt. Zur Demonstration der Effektivität der generierten DDGs führen wir eine extrinsische Evaluation unter Integration von verschiedenen DDG-basierenden Merkmalen, sowie Graph Mining und Abgleichansätzen durch, um die Leistung bei relevanten sprachtechnologischen Aufgaben, namentlich Aspect-based Sentiment Analysis (ABSA) und Semantic Textual Similarity (STS), wie folgt zu verbessern: (1) Wir erforschen die Effektivität von DDG-basierten Merkmalen wie die von DDGs identifizierten Top-Domänenbegriffe und Aspekte, zusätzlich zu Merkmalen der distributionellen Semantik zur Verbesserung der Leistung von überwachten Modellen verschiedener Aspekt-basierter Teilaufgaben der Stimmungsanalyse (Sentiment Analysis). Wir schlagen zudem ein neuartiges unüberwachtes Graph-Rule Mining Verfahren vor, welches linguistische Strukturinformation zur genauen Identifikation der überzeugendsten Aspekte unterschiedlicher Entitäten (Aspect Identification) sowie Opinion Target Expressions (OTE-sentiment Extraction) aus unstrukturierten nutzergenerierten Rezensionen beinhaltet. (2) Wir schlagen eine unüberwachte STS Lösung zum Aufspüren von Ähnlichkeiten zwischen zwei Texten basierend auf DDG-Abgleichen vor. Wir führen ein Verfahren zum approximativen Abgleich von Subgraphen ein, um einen Abhängigkeitsteilgraph im Abhängigkeitsgraphen des Kandidatentexts zu finden, welcher ähnlich zu einem gegebenen Abhängigkeitsgraphen eines Abfragetexts ist. Dies erlaubt das Auftreten von Knotenlücken und Nichtübereinstimmungen, bei denen ein bestimmtes Wort in einem Abhängigkeitsgraphen nicht auf ein Wort im Graphen des Abfragetexts zugeordnet werden kann, als auch Strukturunterschiede in den Graphen. Wir prüfen zudem den Einfluss der Verwendung von ähnlichkeitsbasierten und abdeckungsbasierten DDGMerkmalen zur Verbesserung der Identifikation und Vorhersage von überwachten STS Modellen. Experimente auf unterschiedlichen Benchmark-Datensätzen für unterschiedliche Teilaufgaben zeigten, dass die Integration von DDG-basierten Merkmalen zu besseren Ergebnissen im Vergleich zu zu aktuellen Ansätzen führt.de
dc.language.isoenen
dc.publisherStaats- und Universitätsbibliothek Hamburg Carl von Ossietzky
dc.rightshttp://purl.org/coar/access_right/c_abf2
dc.subjectAbhängigkeitsgraphende
dc.subjectComputerlinguistikde
dc.subjectSentimentanalysede
dc.subjectSemantische Nähede
dc.subjectText Zusammenfassende
dc.subjectDomain Dependency Graphsen
dc.subjectNatural language processingen
dc.subjectSentiment Analysisen
dc.subjectSemantic Similarityen
dc.subjectLexicon Expansionen
dc.subjectText Summarizationen
dc.subject.ddc004 Informatik
dc.titleUnsupervised Induction of Domain Dependency Graphs - Extracting, Understanding and Visualizing Domain Knowledgeen
dc.title.alternativeUnüberwachte Induktion von Domäne Abhängigkeitsgraphen - Extrahieren, Verstehen und Visualisieren von Domänenwissende
dc.typedoctoralThesis
dcterms.dateAccepted2019-12-10
dc.rights.ccNo license
dc.rights.rshttp://rightsstatements.org/vocab/InC/1.0/
dc.subject.bcl54.72 Künstliche Intelligenz
dc.subject.bcl54.75 Sprachverarbeitung
dc.subject.bcl54.82 Textverarbeitung
dc.type.casraiDissertation-
dc.type.dinidoctoralThesis-
dc.type.driverdoctoralThesis-
dc.type.statusinfo:eu-repo/semantics/publishedVersion
dc.type.thesisdoctoralThesis
tuhh.opus.id10191
tuhh.opus.datecreation2019-12-18
tuhh.type.opusDissertation-
thesis.grantor.departmentInformatik
thesis.grantor.placeHamburg
thesis.grantor.universityOrInstitutionUniversität Hamburg
dcterms.DCMITypeText-
tuhh.gvk.ppn1686873158
dc.identifier.urnurn:nbn:de:gbv:18-101911
item.creatorOrcidKohail, Sarah-
item.grantfulltextopen-
item.creatorGNDKohail, Sarah-
item.languageiso639-1other-
item.fulltextWith Fulltext-
item.advisorGNDBiemann, Chris (Prof. Dr.)-
Enthalten in den Sammlungen:Elektronische Dissertationen und Habilitationen
Dateien zu dieser Ressource:
Datei Beschreibung GrößeFormat  
Dissertation.pdf6.27 MBAdobe PDFÖffnen/Anzeigen
Zur Kurzanzeige

Diese Publikation steht in elektronischer Form im Internet bereit und kann gelesen werden. Über den freien Zugang hinaus wurden durch die Urheberin / den Urheber keine weiteren Rechte eingeräumt. Nutzungshandlungen (wie zum Beispiel der Download, das Bearbeiten, das Weiterverbreiten) sind daher nur im Rahmen der gesetzlichen Erlaubnisse des Urheberrechtsgesetzes (UrhG) erlaubt. Dies gilt für die Publikation sowie für ihre einzelnen Bestandteile, soweit nichts Anderes ausgewiesen ist.

Info

Seitenansichten

5
Letzte Woche
Letzten Monat
geprüft am 27.11.2020

Download(s)

3
Letzte Woche
Letzten Monat
geprüft am 27.11.2020
Werkzeuge

Google ScholarTM

Prüfe