Fachbibliotheken SUB-Homepage SUB-Homepage UHH-Homepage

beluga-Katalog

Campus-Katalog

E-Zeitschriften

Datenbanken

Digitalisierte Bestände

Website

Kontakt:

Hochschulschriften

Abgabe im Informationszentrum Mo-Fr 9-21, Sa 10-18

Software

Viewer für PDF und Postscript

Eingang zum Volltext in OPUS

Hinweis zum Urheberrecht

Dissertation zugänglich unter
URN: urn:nbn:de:gbv:18-57583
URL: http://ediss.sub.uni-hamburg.de/volltexte/2012/5758/


Improving Recombination in a Linear EBMT System by Use of Constraints

Verbesserung der Rekombination eines linearen beispielbasierten maschinellen Übersetzungssystems durch Verwendung von Wortstellungsbeschränkungen

Gavrila, Monica Roxana

pdf-Format:
 Dokument 1.pdf (2.094 KB) 


SWD-Schlagwörter: Maschinelle Übersetzung , Constraint <Künstliche Intelligenz>, Computerlinguistik
Freie Schlagwörter (Deutsch): beispielbasierte maschinelle Übersetzung , Moses , Lin-EBMT System , SRILM , Sprachverarbeitung
Freie Schlagwörter (Englisch): example-based machine translation , Moses , Lin-EBMT , SRILM , natural language processing
Basisklassifikation: 54.72 , 54.75
Institut: Informatik
DDC-Sachgruppe: Informatik
Dokumentart: Dissertation
Hauptberichter: Hahn, Walther von (Prof. Dr.)
Sprache: Englisch
Tag der mündlichen Prüfung: 01.02.2012
Erstellungsjahr: 2011
Publikationsdatum: 24.07.2012
Kurzfassung auf Englisch: (Automatic) machine translation (MT) is one of the most challenging domains in Natural Language Processing (NLP) and plays an important role in ensuring global communication, especially in a multilingual world with access to large amounts of Internet resources. As rule-based MT approaches need manually developed resources, new MT directions have been developed over the last twenty years, such as corpus-based machine translation (CBMT): statistical MT (SMT) and example-based machine translation (EBMT). These new directions are based mainly on the existence of a parallel aligned corpus and, therefore, can be easily employed for lower-resourced languages.
In this dissertation we showed how EBMT systems behave when a lower-resourced inflecting language (i.e. Romanian) is involved in the translation process. For this purpose we built an EBMT baseline system based only on surface forms (the Lin-EBMT system). One of our main goals was to investigate the impact of word-order constraints on the translation results: we integrated constraints extracted from generalized examples (i.e. templates) in Lin-EBMT and built an extended system: Lin- EBMTREC+. Although constraints represent a well-known method which is employed quite often in NLP, the use of word-order constraints in an EBMT system is an innovative approach which can open new paths in the domain of example-based MT. We run our experiments for two language-pairs in both directions of translation: Romanian-German and Romanian-English. This aspect raises interesting questions, as Romanian and German present language specific characteristics, which make the translation process even more challenging. Both EBMT systems developed are easily adaptable for other language-pairs. They are platform and language-pair independent, provided that a parallel aligned corpus for the language-pair exists and that the tools used for obtaining the needed intermediate information (e.g. word alignment) are available. As a side question, we studied how EBMT reacts in comparison to SMT. We compared the EBMT results obtained to results provided by a Moses-based SMT system and the Google Translate on-line system. To provide a complete view on CBMT, the performance of each MT system was assessed in several experimental settings, using different corpora (type and size), various system settings and additional part-of-speech (POS) information. We evaluated the translation results by means of three automatic evaluation metrics: BLEU, NIST and TER. A subset of the results was manually analyzed for a better overview on the translation quality.
Our experiments showed that constraints improve translation results, although a clear decision which constraint-combination works best could not be taken. Although the SMT system outperformed the EBMT system in all experiments, the manual analysis provided cases in which EBMT offered more accurate results. The behavior of the systems while changing the experimental settings confirmed that (training and test) data have a substantial impact on both MT approaches. The difference between the results of the two MT approaches decreased when a more restricted corpus was used. As expected, both CBMT approaches worked better for shorter sentences.
Kurzfassung auf Deutsch: Die automatische maschinelle Übersetzung (MÜ) ist einer der kompliziertesten Bereiche in der Sprachverarbeitung. Die MÜ spielt eine wichtige Rolle bei der Gewährleistung der globalen Kommunikation in der mehrsprachigenWelt, die vor allem von Internetressourcen gestützt wird. Da regelbasierte MÜ-Ansätze manuell entwickelte Ressourcen benötigen, wurden neue MÜ-Richtungen entwickelt, wie zum Beispiel die korpusbasierte maschinelle Übersetzung (KMÜ): die statistische MÜ (SMÜ) und die beispielbasierte maschinelle Übersetzung (BMÜ). Der Vorteil dieser neuen MÜ-Richtungen ist, dass sie auch für Sprachen eingesetzt werden können, für die weniger Ressourcen zur Verfügung stehen.
In dieser Dissertation zeigen wir wie BMÜ-Systeme reagieren, wenn eine flektierende Sprache mit weniger Ressourcen (d.h. Rumänisch) in die Übersetzung einbezogen wird.
Zu diesem Zweck erstellen wir ein BMÜ-Grundsystem, das nur auf der Oberflächenform der Wörter basiert (das Lin-EBMT System). Darüber hinaus untersuchen wir den Einfluss der Wortstellungsbeschränkungen (Constraints) auf die Übersetzungsergebnisse. Wir extrahieren diese Constraints aus allgemeinen Beispielen (d.h. Templates) und integrieren sie in Lin-EBMT: das Lin-EBMTREC+ System. Obwohl die Verwendung von Constraints eine bekannte Methode in der Sprachverarbeitung ist, ist die Verwendung der Wortstellungsconstraints in einem BMÜ-System ein innovatives Konzept, das neue Wege in dem BMÜ-Bereich öffnen könnte. Wir führen unsere Experimente für zwei Sprachpaare in beide Richtungen der Übersetzung durch: Rumänisch-Deutsch und Rumänisch-Englisch. Dieser Aspekt beinhaltet interessante Fragen, weil Rumänisch und Deutsch spezifische Spracheigenschaften haben, die den Übersetzungsprozess noch komplizierter machen können. Die beiden entwickelten BMÜ-Systeme lassen sich sehr einfach an andere Sprachpaare anpassen. Die Systeme sind plattform- und sprachpaarunabhängig, vorausgesetzt ein Textkorpus von zweisprachigen Texten existiert und die Werkzeuge für die Beschaffung der erforderlichen Informationen (zB Wort-Alignment) vorhanden sind. Als Nebenfrage untersuchen wir, wie BMÜ im Vergleich zu SMÜ reagiert. Daher vergleichen wir die BMÜ-Ergebnisse mit denen eines Moses-basierten SMÜ-Systems und denen des Google Translate Online-Systems.
Die Leistung jedes MÜ-Systems wird in mehreren experimentellen Einstellungen untersucht. Wir verwenden verschiedene Korpora (sowohl Typ, als auch Größe), verschiedene Systemeinstellungen sowie zusätzliche Wortartinformationen. Wir evaluieren die Übersetzungsergebnisse automatisch mit BLEU, NIST und TER. Ein Teil der Ergebnisse wird manuell analysiert, um einen besseren Überblick über die Qualität der Übersetzung zu erhalten. Unsere Experimente zeigen, dass Constraints die Übersetzungsergebnisse verbessern können, obwohl eine klare Entscheidung dar über, welche der Constraint-Kombinationen am besten funktioniert, nicht getroffen werden kann. Obwohl das SMÜ-System in allen Versuchen besser als das BMÜ-System ist, entdecken wir in der manuellen Analyse Fälle, in denen BMÜ-Systeme besser als das SMÜ-System funktionieren. Das Verhalten der Systeme bestätigt während des Wechsels der experimentellen Einstellungen, dass (Trening- und Test-) Daten einen hohen Einfluss auf beide MÜ-Ansätze haben. Der Unterschied zwischen den Ergebnissen der beiden MÜ-Ansätze verringert sich, wenn ein eingeschränktes Korpus verwendet wird. Wie schon erwartet, sind beide KMÜ-Ansätze besser, wenn kürzere Sätze übersetzt werden.

Zugriffsstatistik

keine Statistikdaten vorhanden
Legende

Home | Suchen
Fragen und Anregungen an die Hochschulschriftenstelle
Letzte Änderung: 21.11.13