FAQ
© 2015 Staats- und Universitätsbibliothek
Hamburg, Carl von Ossietzky

Öffnungszeiten heute09.00 bis 24.00 Uhr alle Öffnungszeiten

Eingang zum Volltext in OPUS

Hinweis zum Urheberrecht

Dissertation zugänglich unter
URN: urn:nbn:de:gbv:18-41666
URL: http://ediss.sub.uni-hamburg.de/volltexte/2009/4166/


Zur bedeutungsorientierten Auflösung von Wortmehrdeutigkeiten - Vorschlag einer Methodik

On Word Sense Disambiguation - Proposal of a semantics-oriented Approach

Winnemöller, Ronald

Originalveröffentlichung: (2009) Winnemöller, R. (2001). Organisation von e-mails. Master's thesis, Universität Hamburg, Hamburg. Winnemöller, R. (2004). Constructing text sense representations. In G. Hirst & S. Nirenburg (Eds.), ACL 2004: Second Workshop on Text Meaning and Interpretation (pp. 17-24). Barcelona, Spain: Association for Computational Linguistics. Winnemöller, R. (2005). Knowledge based feature engineering using text sense representation trees. In International Conference RANLP - 2005 Borovets, Bulgaria. Winnemöller, R. (2008). Using meaning aspects for word sense disambiguation. In 9th International Conference on Intelligent Text Processing and Computational Linguistics (CICLing) Haifa, Israel.
pdf-Format:
 Dokument 1.pdf (1.792 KB) 


SWD-Schlagwörter: Ambiguität , Semantischer Bereich , Pragmatik , Adaptives System , Linguistische Datenverarbeitung
Basisklassifikation: 54.75
Institut: Informatik
DDC-Sachgruppe: Informatik
Dokumentart: Dissertation
Hauptberichter: Habel, Christopher (Prof. Dr.)
Sprache: Deutsch
Tag der mündlichen Prüfung: 13.05.2009
Erstellungsjahr: 2009
Publikationsdatum: 23.06.2009
Kurzfassung auf Deutsch: In dieser Arbeit wird die Frage behandelt, wie die Leistung bestimmter textverarbeitender Systeme verbessert werden kann.
Konkretisiert wird das Thema über die
Referenzproblematik der Auflösung von Wortmehrdeutigkeiten (engl. Word Sense Disambiguation, abgek. WSD), da diese Basisproblem der semantischen Textverarbeitung und gleichzeitig Gegenstand aktueller Forschungsbestrebungen ist.
Ein wesentliches Problem beim Verstehen der Sachverhalte, d.h. bei der Feststellung der Textbedeutung, besteht in der Mehrdeutigkeit vieler sprachlicher Ausdrücke. Einige dieser Unklarheiten können mit einfachen Regeln oder Annahmen
aufgelöst werden, in vielen Fällen jedoch können Mehrdeutigkeiten nur durch Anwendung von Hintergrundwissen über die Welt oder von situativem Wissen aufgelöst werden. Damit stellt sich die Frage nach der Natur derartigen (semantischpragmatischen) Wissens: der Philosoph Ludwig Wittgenstein charakterisiert die „Familienähnlichkeit“ zwischen Begriffen, die Zuordnung zu „semantischen Ka-
tegorien“ und die Bestimmung der Wortbedeutung über ihren Gebrauch als sinnvolle Alternative zu herkömmlichen Semantiktheorien. Diese Basis führt über die
sog. Prototypensemantik, in der die prototypische Auffassung der Wortbedeutung als „Grad der Repräsentativität eines Objektes“ vorherrscht — und weiter zu der in dieser Arbeit entwickelten TSR-Semantik, in der verschiedene Arten von „Zentralität“ und ein Anwendungsbereich, der durch eine Gebrauchskategorisierung bestimmt wird. Die TSR-Semantik dient hierbei nicht lediglich der theoretischen Auseinandersetzung, sondern vielmehr Zwecken der konkreten Problemlösung, d.h. zur Anwendung praktikabler, repräsentierender Objekte führt.
Schwerpunkt der Arbeit ist der vom Verfasser entwickelte Vorschlag einer Repräsentation gebrauchsorientierter Aspekte der Textbedeutung, der TSR-Ansatz. Kernobjekte des TSR-Ansatzes sind die TSR-Bäume oder einfach TSRs, die die o.a. Semantikvorstellungen realisieren und auf der Datenbasis eines Internetverzeichnisses basieren. Zudem werden verschiedene Funktionen und Operationen auf diesen Strukturen definiert, die für die eigentliche Nutzbarkeit des Ansatzes wesentlich sind.
Weil der TSR-Ansatz seine Eignung als praktikables Lösungsverfahren für die WSD-Problematik belegen soll, wurde in diesem Sinne ein prototypisches System
realisiert.Über eine Reihe von Experimenten wurde festgestellt, ob durch die TSR-Methodik im Bereich der Auflösung von Wortmehrdeutigkeiten signifikant bessere Ergebnisse erbracht werden können als über vergleichbare herkömmliche Methoden. Hierbei wurde die Verwendung von Wortvektoren als Repräsentant konventioneller Methoden gewählt, da sie eine Grundlage der meisten im S ENSEVAL English Lexical Sample Wettbewerb (einem Quasi–Standardevaluationsverfahren) bewerteten Systeme darstellt. Hierfür wurden fünf Testszenarien mit unterschiedlichem Grad der Vorverarbeitung konstruiert und geprüft.
Insgesamt kann gezeigt werden, daß durch die Erarbeitung einer »aspekt-basierten« Semantik semantische und pragmatische Aspekte durch Bezug zum Weltwissen genutzt und erfolgreich im WSD-Anwendungskontext eingesetzt werden können. Hierbei wird zudem eine Beobachtung verschiedener semantischer Sprachvorgänge ermöglicht, da das TSR-Verfahren im Gegensatz zu z.B. statistischen Methoden keine „black box“ ist. Über die Anwendbarkeit des Komposi-
tionalitätsprinzipes auf beliebiger textueller Granularitätsebene durch Wort-TSRs, Chunk-TSRs, Satz-TSRs etc. kann weiter von der reinen „Wortbedeutung“ auf eine „Textbedeutung“ (im Sinne der TSR-Semantik) abstrahiert werden. Schließlich bestehen Integrationmöglichkeiten in bestehende NLP-Anwendungen über eine Transformation der TSRs in Indexvektoren.
Kurzfassung auf Englisch: In this work, we will elaborate on how to improve natural language processing (NLP) systems effectiveness by improving word sense disambiguation methodology (WSD). WSD is a particularly interesting topic in this sense, because it is both a fundamental problem of NLP and object of current research efforts.
Many ambiguous expressions can be resolved by applying simpe heuristics or formulas – but yet many others need application of world, domain or situated knowledge. It is therefore vital to discuss the nature of such (semantic and pragmatic) knowledge: the philosopher Ludwig Wittgenstein used the notions of „family resemblance“, „semantic categories“ and the definition of word meaning through
word use in order to characterize an alternative understanding of text meaning. His work, as well as the so-called „prototype semantics“ theory, which in turn is based on the prototypical properties of notions and their respective „centrality“, forms the grounds of the semantic theory, proposed in this work. This „TSR-semantics“ is
subsequently used for practical application on WSD by creating a realistic system architecture based on it.
This architecture is formed around so–called TSR trees, graphical representations of „meaning aspects“ in the sense of the above mentioned understanding of semantics. The TSR trees are derived from actual internet directories by transforming their textual and structural information appropriately. Apart from the trees themselves, a number of operations based on them were defined and implemented in a
concrete prototype system, thus enabling the TSR–proposal to be evaluated.
A number of experiments, most of them based on the „SENSEVAL English Lexical Sample“ Task (a quasi standard evaluation procedure for WSD) were carried out in order to verify the first claim that TSRs are more effective on WSD than conventional methods – in this case, word vectors were used as representatives of such methods. The Evaluation included testing five different scenarios and showed that
the application of the TSR-methodology, and therefore the application of aspectbased semantics and pragmatics, indeed can be justified in the WSD context.
Furthermore, because the TSR-approach is not a „black box“ principle – as many statistical methodologies are – certain linguistic operations can be observed and monitored. Because of the differences to conventional semantic theories, the principle of compositionality can be applied on TSRs, moving from mere wordmeaning to general text meaning analysis.
Lastly, because of the opportunity to transform TSR trees into index vectors, TSR based systems can be integrated into exisiting third party architectures with very
little effort.

Zugriffsstatistik

keine Statistikdaten vorhanden
Legende