Volltextdatei(en) vorhanden
Titel: Data Selection for Statistical Machine Translation
Sprache: Englisch
Autor*in: Duma, Mirela-Stefania
Schlagwörter: Machine Translation; Data Selection; Domain Adaptation
GND-Schlagwörter: Translation <Linguistik>GND
Erscheinungsdatum: 2021
Tag der mündlichen Prüfung: 2021-12-01
Zusammenfassung: 
Machine Translation (MT) is a current topic in the Computational Linguistics (CL) community. Training an MT model on a domain and using it on another domain does not yield the expected performance due to the syntactic and semantic differences between the two domains. Thus, domain adaptation is necessary. Data selection, which is the topic of this thesis, is a corpus-driven domain adaptation method. Given a general domain corpus and an in-domain, each sentence from the general domain corpus is scored according to its similarity to the in-domain. The most similar sentences to an in-domain are selected as pseudo in-domain and used later on in the training of domain-focused MT systems.

There are two challenges that arise with data selection: which method to use to determine the most similar sentences from the general domain to a given in-domain and how many of the general domain sentences to select as pseudo in-domain. In this thesis, data selection methods that address both challenges are presented. I developed several scoring methods and compared them with a method I developed that automatically determines the ratio of sentences to select.

Data selection is crucial for MT systems that aim to translate domain-specific texts. The data selection SMT models presented in this thesis were trained faster in comparison with training using full general domain data, had a smaller size, and performed on a par or better than the models trained using the full training data.
URL: https://ediss.sub.uni-hamburg.de/handle/ediss/9721
URN: urn:nbn:de:gbv:18-ediss-101970
Dokumenttyp: Dissertation
Betreuer*in: Menzel, Wolfgang
Vertan, Cristina
von Hahn, Walther
Enthalten in den Sammlungen:Elektronische Dissertationen und Habilitationen

Dateien zu dieser Ressource:
Datei Beschreibung Prüfsumme GrößeFormat  
Dissertation_SD.pdfd8161f69b7f99455391477cb4b23072a2.66 MBAdobe PDFÖffnen/Anzeigen
Zur Langanzeige

Diese Publikation steht in elektronischer Form im Internet bereit und kann gelesen werden. Über den freien Zugang hinaus wurden durch die Urheberin / den Urheber keine weiteren Rechte eingeräumt. Nutzungshandlungen (wie zum Beispiel der Download, das Bearbeiten, das Weiterverbreiten) sind daher nur im Rahmen der gesetzlichen Erlaubnisse des Urheberrechtsgesetzes (UrhG) erlaubt. Dies gilt für die Publikation sowie für ihre einzelnen Bestandteile, soweit nichts Anderes ausgewiesen ist.

Info

Seitenansichten

906
Letzte Woche
Letzten Monat
geprüft am 04.05.2024

Download(s)

142
Letzte Woche
Letzten Monat
geprüft am 04.05.2024
Werkzeuge

Google ScholarTM

Prüfe