Zur bedeutungsorientierten Auflösung von Wortmehrdeutigkeiten -  Vorschlag einer Methodik

Winnemöller, Ronald

Titel:	Zur bedeutungsorientierten Auflösung von Wortmehrdeutigkeiten - Vorschlag einer Methodik
Sonstige Titel:	On Word Sense Disambiguation - Proposal of a semantics-oriented Approach
Sprache:	Deutsch
Autor*in:	Winnemöller, Ronald
GND-Schlagwörter:	Ambiguität Semantischer Bereich Pragmatik Adaptives System Linguistische Datenverarbeitung
Erscheinungsdatum:	2009
Tag der mündlichen Prüfung:	2009-05-13
Zusammenfassung:	In dieser Arbeit wird die Frage behandelt, wie die Leistung bestimmter textverarbeitender Systeme verbessert werden kann. Konkretisiert wird das Thema über die Referenzproblematik der Auflösung von Wortmehrdeutigkeiten (engl. Word Sense Disambiguation, abgek. WSD), da diese Basisproblem der semantischen Textverarbeitung und gleichzeitig Gegenstand aktueller Forschungsbestrebungen ist. Ein wesentliches Problem beim Verstehen der Sachverhalte, d.h. bei der Feststellung der Textbedeutung, besteht in der Mehrdeutigkeit vieler sprachlicher Ausdrücke. Einige dieser Unklarheiten können mit einfachen Regeln oder Annahmen aufgelöst werden, in vielen Fällen jedoch können Mehrdeutigkeiten nur durch Anwendung von Hintergrundwissen über die Welt oder von situativem Wissen aufgelöst werden. Damit stellt sich die Frage nach der Natur derartigen (semantischpragmatischen) Wissens: der Philosoph Ludwig Wittgenstein charakterisiert die „Familienähnlichkeit“ zwischen Begriffen, die Zuordnung zu „semantischen Ka- tegorien“ und die Bestimmung der Wortbedeutung über ihren Gebrauch als sinnvolle Alternative zu herkömmlichen Semantiktheorien. Diese Basis führt über die sog. Prototypensemantik, in der die prototypische Auffassung der Wortbedeutung als „Grad der Repräsentativität eines Objektes“ vorherrscht — und weiter zu der in dieser Arbeit entwickelten TSR-Semantik, in der verschiedene Arten von „Zentralität“ und ein Anwendungsbereich, der durch eine Gebrauchskategorisierung bestimmt wird. Die TSR-Semantik dient hierbei nicht lediglich der theoretischen Auseinandersetzung, sondern vielmehr Zwecken der konkreten Problemlösung, d.h. zur Anwendung praktikabler, repräsentierender Objekte führt. Schwerpunkt der Arbeit ist der vom Verfasser entwickelte Vorschlag einer Repräsentation gebrauchsorientierter Aspekte der Textbedeutung, der TSR-Ansatz. Kernobjekte des TSR-Ansatzes sind die TSR-Bäume oder einfach TSRs, die die o.a. Semantikvorstellungen realisieren und auf der Datenbasis eines Internetverzeichnisses basieren. Zudem werden verschiedene Funktionen und Operationen auf diesen Strukturen definiert, die für die eigentliche Nutzbarkeit des Ansatzes wesentlich sind. Weil der TSR-Ansatz seine Eignung als praktikables Lösungsverfahren für die WSD-Problematik belegen soll, wurde in diesem Sinne ein prototypisches System realisiert.Über eine Reihe von Experimenten wurde festgestellt, ob durch die TSR-Methodik im Bereich der Auflösung von Wortmehrdeutigkeiten signifikant bessere Ergebnisse erbracht werden können als über vergleichbare herkömmliche Methoden. Hierbei wurde die Verwendung von Wortvektoren als Repräsentant konventioneller Methoden gewählt, da sie eine Grundlage der meisten im S ENSEVAL English Lexical Sample Wettbewerb (einem Quasi–Standardevaluationsverfahren) bewerteten Systeme darstellt. Hierfür wurden fünf Testszenarien mit unterschiedlichem Grad der Vorverarbeitung konstruiert und geprüft. Insgesamt kann gezeigt werden, daß durch die Erarbeitung einer »aspekt-basierten« Semantik semantische und pragmatische Aspekte durch Bezug zum Weltwissen genutzt und erfolgreich im WSD-Anwendungskontext eingesetzt werden können. Hierbei wird zudem eine Beobachtung verschiedener semantischer Sprachvorgänge ermöglicht, da das TSR-Verfahren im Gegensatz zu z.B. statistischen Methoden keine „black box“ ist. Über die Anwendbarkeit des Komposi- tionalitätsprinzipes auf beliebiger textueller Granularitätsebene durch Wort-TSRs, Chunk-TSRs, Satz-TSRs etc. kann weiter von der reinen „Wortbedeutung“ auf eine „Textbedeutung“ (im Sinne der TSR-Semantik) abstrahiert werden. Schließlich bestehen Integrationmöglichkeiten in bestehende NLP-Anwendungen über eine Transformation der TSRs in Indexvektoren. In this work, we will elaborate on how to improve natural language processing (NLP) systems effectiveness by improving word sense disambiguation methodology (WSD). WSD is a particularly interesting topic in this sense, because it is both a fundamental problem of NLP and object of current research efforts. Many ambiguous expressions can be resolved by applying simpe heuristics or formulas – but yet many others need application of world, domain or situated knowledge. It is therefore vital to discuss the nature of such (semantic and pragmatic) knowledge: the philosopher Ludwig Wittgenstein used the notions of „family resemblance“, „semantic categories“ and the definition of word meaning through word use in order to characterize an alternative understanding of text meaning. His work, as well as the so-called „prototype semantics“ theory, which in turn is based on the prototypical properties of notions and their respective „centrality“, forms the grounds of the semantic theory, proposed in this work. This „TSR-semantics“ is subsequently used for practical application on WSD by creating a realistic system architecture based on it. This architecture is formed around so–called TSR trees, graphical representations of „meaning aspects“ in the sense of the above mentioned understanding of semantics. The TSR trees are derived from actual internet directories by transforming their textual and structural information appropriately. Apart from the trees themselves, a number of operations based on them were defined and implemented in a concrete prototype system, thus enabling the TSR–proposal to be evaluated. A number of experiments, most of them based on the „SENSEVAL English Lexical Sample“ Task (a quasi standard evaluation procedure for WSD) were carried out in order to verify the first claim that TSRs are more effective on WSD than conventional methods – in this case, word vectors were used as representatives of such methods. The Evaluation included testing five different scenarios and showed that the application of the TSR-methodology, and therefore the application of aspectbased semantics and pragmatics, indeed can be justified in the WSD context. Furthermore, because the TSR-approach is not a „black box“ principle – as many statistical methodologies are – certain linguistic operations can be observed and monitored. Because of the differences to conventional semantic theories, the principle of compositionality can be applied on TSRs, moving from mere wordmeaning to general text meaning analysis. Lastly, because of the opportunity to transform TSR trees into index vectors, TSR based systems can be integrated into exisiting third party architectures with very little effort.
URL:	https://ediss.sub.uni-hamburg.de/handle/ediss/2608
URN:	urn:nbn:de:gbv:18-41666
Dokumenttyp:	Dissertation
Betreuer*in:	Habel, Christopher (Prof. Dr.)
Enthalten in den Sammlungen:	Elektronische Dissertationen und Habilitationen

Dateien zu dieser Ressource:

Datei	Beschreibung	Prüfsumme	Größe	Format
2009_Dissertation_Winnemoeller.Publikation.pdf		043950712156c22a913f8631779088c0	1.79 MB	Adobe PDF	Öffnen/Anzeigen

Zur Langanzeige

Diese Publikation steht in elektronischer Form im Internet bereit und kann gelesen werden. Über den freien Zugang hinaus wurden durch die Urheberin / den Urheber keine weiteren Rechte eingeräumt. Nutzungshandlungen (wie zum Beispiel der Download, das Bearbeiten, das Weiterverbreiten) sind daher nur im Rahmen der gesetzlichen Erlaubnisse des Urheberrechtsgesetzes (UrhG) erlaubt. Dies gilt für die Publikation sowie für ihre einzelnen Bestandteile, soweit nichts Anderes ausgewiesen ist.

Info

Seitenansichten

242

Letzte Woche

Letzten Monat

geprüft am 15.04.2024

Download(s)

85

Letzte Woche

Letzten Monat

geprüft am 15.04.2024

Werkzeuge

Google Scholar^TM

Prüfe

Dateien zu dieser Ressource:

Seitenansichten

Download(s)

Google ScholarTM

Google Scholar^TM