Volltextdatei(en) vorhanden
Titel: Dealing with Spelling Variation in Non-Standard Texts
Sprache: Englisch
Autor*in: Barteld, Fabian
Schlagwörter: Spelling variation; Non-standard texts; Lemmatization; POS tagging
GND-Schlagwörter: Natürliche SpracheGND
ComputerlinguistikGND
Maschinelles LernenGND
MittelniederdeutschGND
MittelhochdeutschGND
Erscheinungsdatum: 2021
Tag der mündlichen Prüfung: 2022-03-07
Zusammenfassung: 
In this thesis, we introduce and analyze ways to deal with spelling variation for the automatic processing of texts. Spelling variation is the phenomenon that words are written differently throughout a text, which appears frequently in so-called non-standard texts. We concentrate on dialectal historical German texts from between 1050 and 1650 as an example for non-standard texts.

Spelling variation complicates the automatic processing of texts. Such processing includes the annotation of texts with parts of speech (POS) and lemmas but also simply searching in these texts. Since non-standard texts have received increasing attention in computational linguistics, there has also been a rising interest in automatically dealing with spelling variation in recent years. What sets the approaches presented in this thesis apart from the approaches in most of the literature is that spelling variation is dealt with without resorting to a given standard. This is helpful for non-standard data without closely related standard data.

We look at two approaches to spelling variation: simplification and spelling variant detection. We evaluate our approaches in two evaluation settings that we have designed to approximate the utility of approaches for searching in non-standard texts and for applying Natural Language Processing (NLP) tools to the texts.

Simplification aims to map different spelling variants to the same word form such that the overall variation in the texts is reduced. Differing from normalization, the results of the mapping do not need to be existing word forms from a standardized language. For simplification, we propose a rule-based approach in which the rules are derived from pairs of equivalent characters or a character and a character bi-gram. These pairs can either be manually created or learned from known spelling variants.

The goal of spelling variant detection is to find spelling variants for a given word form. For this, we propose a pipeline in which candidates for spelling variants are first generated using string similarity. These candidates are then filtered to remove falsely generated candidates. For this, we train a Machine Learning (ML) algorithm to distinguish spelling variants from pairs of word forms that are not spelling variants. The features used for this are the surface differences between the two word forms as well as the contexts in which they appear.

Regarding NLP, we look into the tasks of POS tagging and lemmatization in more detail. For both tasks, we use statistical tools that have been developed with standard data in mind and adapt them for non-standard data. We show that by slightly adapting the ML approach but also by using the automatic spelling variant detection presented in this thesis, the performance of such tools on non-standard texts can be improved without the need for additional data.

With the presented approaches, we show examples of how dealing with spelling variation is possible without the usage of a defined standard. These techniques allow to improve the automatic processing for historical but also other kinds of non-standard texts and are helpful when either no closely related standard or no training data for normalization is available.

In dieser Arbeit präsentieren und analysieren wir Möglichkeiten zum Umgang mit Schreibvariation für die automatische Verarbeitung von Texten. Schreibvariation ist das Phänomen, dass Wörter in einem Text unterschiedlich geschrieben werden. Dies tritt häufig in sogenannten Nicht-Standard-Texten auf. Wir konzentrieren uns auf dialektale historische deutsche Texte aus der Zeit zwischen 1050 und 1650 als Beispiel für solche Texte.

Schreibvariation erschwert die automatische Verarbeitung von Texten. Verarbeitung umfasst sowohl die Annotation von Texten mit Wortarten - parts of speech (POS) - und Lemmata, aber auch das einfache Durchsuchen solcher Texte. Da Nicht-Standard-Texte zunehmende Aufmerksamkeit in der Computerlinguistik gefunden haben, hat auch das Interesse an der automatischen Verarbeitung von Schreibvariation in den letzten Jahren zugenommen. Die in dieser Arbeit vorgestellten Ansätze unterscheiden sich von den üblichen Ansätzen dadurch, dass auf die Variation der Schreibweise eingegangen wird ohne Bezug zu einem vorgegebenen Standard. Dies ist hilfreich für Nicht-Standard-Daten ohne engen Bezug zu Standarddaten.

Wir betrachten zwei Ansätze zur Verarbeitung von Schreibvariation: Vereinfachung (simplification) und Erkennung von Schreibvarianten (spelling variant detection). Wir evaluieren unsere Ansätze auf zwei unterschiedlche Arten, um einerseits den Nutzen der Ansätze für die Suche in Nicht-Standard-Texten und andererseits für die Anwendung von Werkzeugen zur automatischen Sprachverarbeitung - Natural Language Processing (NLP) - abzuschätzen.

Bei der Vereinfachung wird darauf abgezielt, verschiedene Schreibvarianten derselben Wortform zuzuordnen, wodurch die Variation in den Texten reduziert wird. Abweichend von Normalisierung muss bei der Vereinfachung das Ergebnis des Mappings keine existierende Wortform aus einer Standardsprache sein. Für die Vereinfachung schlagen wir einen regelbasierten Ansatz vor, bei dem die Regeln aus Paaren äquivalenter Zeichen oder einem Zeichen und einem Zeichen-Bigramm abgeleitet werden. Solche Paare können entweder manuell erstellt oder aus bekannten Schreibvarianten gelernt werden.

Das Ziel der Erkennung von Schreibvarianten ist es, für eine gegebene Wortform Schreibvarianten zu finden. Dazu schlagen wir eine Pipeline vor, in der Kandidaten für Schreibvarianten zunächst unter Verwendung der Ähnlichkeit von Zeichenketten erzeugt werden. Diese Kandidaten werden dann gefiltert um falsch generierte Kandidaten zu entfernen. Dafür wenden wir Methoden des maschinellen Lernens - Machine Learning (ML) - an. Wir trainieren einen Algorithmus, um Schreibvarianten von anderen Paaren zu unterscheiden. Die hierfür verwendeten Features sind einerseits die Oberflächenunterschiede zwischen den beiden Wortformen sowie die Kontexte, in denen sie auftreten.

Bezüglich NLP betrachten wir POS-Tagging und Lemmatisierung ausführlicher. Für beide Aufgaben verwenden wir statistische Tools, die unter Berücksichtigung von Standarddaten entwickelt wurden und die wir für Nicht-Standard-Daten angepasst haben. Wir zeigen, dass durch eine leichte Anpassung des Machine-Learning-Ansatzes, aber auch durch die Verwendung von der in dieser Arbeit vorgestellten automatischen Erkennung von Schreibvarianten, die Qualität der mit solchen Tools erstellten Annotationen bei Nicht-Standard-Texten verbessert werden kann, ohne dass zusätzliche Daten oder Annotationen nötig sind.

Mit den vorgestellten Ansätzen zeigen wir Beispiele für den Umgang mit Schreibvariation die ohne die Verwendung eines definierten Standards auskommen. Diese Techniken ermöglichen eine Verbesserung der automatischen Verarbeitung von historischen, aber auch andere Arten von Nicht-Standard-Texten, für die entweder kein eng verwandter Standard existiert oder keine Trainingsdaten für die Normalisierung vorhanden sind.
URL: https://ediss.sub.uni-hamburg.de/handle/ediss/10462
URN: urn:nbn:de:gbv:18-ediss-111810
Dokumenttyp: Dissertation
Betreuer*in: Biemann, Chris
Zinsmeister, Heike
Enthalten in den Sammlungen:Elektronische Dissertationen und Habilitationen

Dateien zu dieser Ressource:
Datei Beschreibung Prüfsumme GrößeFormat  
Fabian_Barteld__Dealing_with_Spelling_Variation_in_Non-Standard_Texts.pdfadd4496e1a4068567724d8d319b2dac42.89 MBAdobe PDFÖffnen/Anzeigen
Zur Langanzeige

Diese Publikation steht in elektronischer Form im Internet bereit und kann gelesen werden. Über den freien Zugang hinaus wurden durch die Urheberin / den Urheber keine weiteren Rechte eingeräumt. Nutzungshandlungen (wie zum Beispiel der Download, das Bearbeiten, das Weiterverbreiten) sind daher nur im Rahmen der gesetzlichen Erlaubnisse des Urheberrechtsgesetzes (UrhG) erlaubt. Dies gilt für die Publikation sowie für ihre einzelnen Bestandteile, soweit nichts Anderes ausgewiesen ist.

Info

Seitenansichten

Letzte Woche
Letzten Monat
geprüft am null

Download(s)

Letzte Woche
Letzten Monat
geprüft am null
Werkzeuge

Google ScholarTM

Prüfe