FAQ
© 2015 Staats- und Universitätsbibliothek
Hamburg, Carl von Ossietzky

Öffnungszeiten heute09.00 bis 24.00 Uhr alle Öffnungszeiten

Eingang zum Volltext in OPUS

Hinweis zum Urheberrecht

Dissertation zugänglich unter
URN: urn:nbn:de:gbv:18-48489
URL: http://ediss.sub.uni-hamburg.de/volltexte/2010/4848/


Morphology-Based Language Modeling for Amharic

Morphologie-basierte Sprachmodellierung für Amharic

Tachbelie, Martha Yifiru

Originalveröffentlichung: (2010) 1.Capturing Word-level Dependencies in Morpheme-based Language Modeling. In the proceedings of the 2nd workshop on African Language Technologies AfLaT 2010. 2.Morpheme-based Automatic Speech Recognition for a Morphologically Rich Language – Amharic. In the proceedings of the 2nd workshop on spoken language technologies for under-resourced languages SLTU 2010. 3.Morpheme-based Language Modeling for Amharic Speech Recognition. In the proceedings of the 4th Language Technology Conference LTC 2009. 4.Amharic Part-of-Speech Tagger for Factored Language Modeling. In proceeding of RANLP 2009. 5.Morpheme-based Language Modeling for an Inflectional Language - Amharic. In Nicolas Nicolov and Galia Angelova, editors, Recent Advances in Natural Language Processing , Current Issues in Linguistic Theory 2009. 6.Sub-Word Based Language Modeling for Amharic. In proceeding of RANLP 2007.
pdf-Format:
 Dokument 1.pdf (966 KB) 


Freie Schlagwörter (Deutsch): Morphologie-basierte Sprachmodellierung, Sub-Wort basierte Sprachmodellierung, Morphem-basierte Sprachmodellierung, Spracherkennung, Amharisch
Freie Schlagwörter (Englisch): morphology-based language modeling , sub-word based language modeling , morpheme-based language modeling , speech recognition , Amharic
Basisklassifikation: 54.75 , 54.80
Institut: Informatik
DDC-Sachgruppe: Informatik
Dokumentart: Dissertation
Hauptberichter: Menzel, Wolfgang (Prof. Dr.)
Sprache: Englisch
Tag der mündlichen Prüfung: 31.08.2010
Erstellungsjahr: 2010
Publikationsdatum: 18.11.2010
Kurzfassung auf Englisch: Language models are fundamental for many natural language processing applications. The most widely used type of language models are the corpus-based probabilistic ones. These models provide an estimate of the probability of a word sequence W based on training data. Therefore, large amounts of training data are required in order to ensure statistical significance. But even if the training data are very large, it is impossible to avoid the problems of data sparseness and out-of-vocabulary (OOV) words. These problems are particularly serious for languages with a rich morphology, which are characterized with high vocabulary growth rate and a correspondingly high perplexity of their language models. Since the vocabulary size directly affects system complexity, a promising direction is towards the use of sub-word units in language modeling.

This study explored different ways of language modeling for Amharic, a morphologically rich Semitic language, using morphemes as units. Morpheme-based language models have been trained on automatically and manually segmented data using the SRI Language Modeling toolkit (SRILM). The quality of these models has been assessed in terms of perplexity, the probability they assign to the test set, and the improvement in word recognition accuracy obtained as a result of using them in a speech recognition task. The results show that the morpheme-based language models trained on manually segmented data always have a higher quality.

A comparison with word-based models reveals that the word-based models fared better in terms of the probability they assigned to the test set. In terms of word recognition accuracy, however, interpolated (morpheme- and word-based) models achieved the best results. In addition, the morpheme-based models reduced the OOV rate considerably.

Since using morpheme-based language models in a lattice rescoring framework does not solve the OOV problem, speech recognition experiments in which morphemes are used as dictionary entries and language modeling units have been conducted. The use of morphemes highly reduced the OOV rate and consequently boosted the word recognition accuracy of the 5k vocabulary morpheme-based speech recognition system. However, as morpheme-based recognition systems suffer from acoustic confusability and limited n-gram language model scope, their performance with a larger morph vocabulary was not as expected.

When morphemes are used as units in language modeling, word-level dependencies might be lost. As a solution to this problem we have investigated root-based language models in the framework of factored language modeling. Although this produced far better test set probabilities, the much weaker predictions of a root-based model resulted in a loss in word recognition accuracy. In addition to the morpheme-based language models, several factored language models that integrate morphological information into word based models have also been developed. The results show that integrating morphological information leads to better models.

In summary, the study showed that using morphemes in modeling morphologically rich languages is advantageous, especially in reducing the OOV rate. This, consequently, improves word recognition accuracy of small vocabulary morpheme-based speech recognition systems. Moreover, using morpheme-based language models as a complementary tool to the word-based models is fruitful. The study has also confirmed that the best way of evaluating a language model is by applying it to the application for which it was intended. Currently, this is the only way to reliably determine the actual contribution of the model to the performance of the target application.
Kurzfassung auf Deutsch: Sprachmodelle sind eine wichtige Grundlagen für viele Anwendungen der Verarbeitung natürlicher Sprache. Am weitesten verbreitet sind hierbei die korpus-basierten probabilistischen Ansätze. Diese Modelle erlauben es, die Wahrscheinlichkeit einer Wortsequenz W auf der Grundlage von Trainingsdaten abzuschätzen. Dazu werden große Mengen an Trainingsdaten benötigt, um die statistische Signifikanz sicherzustellen. Allerdings lässt sich auch beim Vorhandensein sehr großer Datenmengen das Problem der Datenknappheit und der lexikalischen Unvollständigkeit (out-of-vocabulary, OOV) nicht vollständig vermeiden.

Diese Probleme sind besonders gravierend für Sprachen mit einer reichhaltigen Morphologie, in denen der Wortschatz stark anwächst und zu Sprachmodellen mit hoher Perplexität führt. Da die Größe des Lexikons nicht beliebig gesteigert werden kann, besteht ein vielversprechender Ansatz in der Verwendung von Wortbestandteilen.

Diese Arbeit hat sich das Ziel gestellt, einen optimalen Weg zur Modellierung der amharischen Sprache, einer morphologisch reichhaltigen semitischen Sprache, zu finden, wobei als Wortuntereinheiten Morpheme verwendet werden. Mit Hilfe des SRI Language Modeling toolkit (SRILM) wurde eine Reihe morphem-basierter Sprachmodelle sowohl auf automatisch als auch auf manuell segmentierten Korpusdaten trainiert. Der Vergleich dieser Modelle erfolgt hinsichtlich ihrer Perplexität, der für eine Testdatenmenge geschätzten Wahrscheinlichkeit, sowie der Steigerung der Worterkennungsrate, die sich durch ihre Verwendung in einem Spracherkenner erzielen lässt.

Die automatisierte Ermittlung der Wortsegmentierung erfolgt mit Hilfe einer unüberwacht trainierten, korpus-basierten morphologischen Analyse (Morfessor). Die Resultate zeigen jedoch, dass die Sprachmodelle auf der Basis manuell segmentierter Daten generell besser sind.

Die morphem-basierten Sprachmodelle wurden auch mit wort-basierten Modellen verglichen. Dabei zeigt sich, dass die wort-basierten Modelle hinsichtlich der Testdatenwahrscheinlichkeit besser abschneiden. Im Hinblick auf die Gemauigkeit der Spracherkennung ergeben jedoch interpolierte (morphem- und wort-basierten) Modelle die besten Ergebnisse durch Neubewertung von Worthypothesegraphen. Darüberhinaus waren die morphem-basierten Models in der Lage, die OOV-Rate drastisch zu reduzieren.

Da sich durch die Verwendung morphem-basierter Sprachmodelle zur Neubewertung von Worthypothesegraphen das OOV-Problem nicht lösen lässt, wurden auch Experimente mit einem Spracherkennungssystem durchgeführt, das die Morpheme direkt als Wörterbucheintragung und als Basiseinheit zur Sprachmodellierung verwendet. Dabei wurde durch die Verwendung der Morphemes die OOV-Rate erheblich reduziert und die Morphemerkennungsrate auf den 5k Evaluationsdaten deutlich gesteigert. Allerdings bringen morphem-basierte Erkenner auch eine höhere akustische Verwechselbarkeit der Erkennungseinheiten, sowie eine Reduktion der effektiven Reichweite statistischer n-gramm-Modelle mit sich, sodass die Qualität bei größeren Morphinventaren unter den Erwartungen blieb.

Wenn Morpheme als Basiseinheiten zur Sprachmodellierung verwendet werden, können Abhängigkeiten auf der Wortebene verloren gehen. Als Lösung für dieses Problem wurden Modelle auf der Basis der Wortwurzel (root) im Rahmen von faktorisierten Sprachmodellen untersucht. Zwar ergeben sich auf dieser Modellierungsgrundlage erheblich bessere Werte für die Testdatenwahrscheinlichkeit, wegen der schwächeren Vorhersagekraft konnte eine Verbesserung der Worterkennungsrate aber nicht erreicht werden.

Zusätzlich zu den rein morphem-basierten Sprachmodellen wurden verschiedene faktorisierte Sprachmodelle entwickelt, die es gestatten, wort-basierte Modelle durch unterschiedliche morphologische Information anzureichern. Die Ergebnisse zeigen, dass die Verwendung solcher zusätzlicher Prädiktoren zu qualitativ besseren Modellen führt.

Mit der Arbeit konnte gezeigt werden, dass die Verwendung von Morphemen zur Modellierung morphologisch reichhaltiger Sprachen vorteilhaft ist und insbesondere zu einer Reduktion der OOV-Rate führt. In der Folge ergeben sich auch verbesserte Werte für die Worterkennungsrate von Spracherkennungssystemen mit kleinem Morpheminventar. Es hat sich herausgestellt, dass die Verwendung morphem-basierter Sprachmodelle als Zusatzkomponente in wort-basierten Modellen nutzbringend ist. Die Arbeit hat auch bestätigt, dass die Evaluation von Sprachmodellen stets durch Einbettung in diejenigen Anwendung erfolgen sollte für die es entwickelt wurde. Nur so kann derzeit zuverlässig ermittelt werden, ob das Modell tatsächlich eine Verbesserung erbringt.

Zugriffsstatistik

keine Statistikdaten vorhanden
Legende