Bruce Mayo

A Computational Model of Derivational Morphology

Dem Fachbereich Informatik der Universität Hamburg vorgelegt


Diese Arbeit stellt ein computerlinguistisches Modell des Sprachverstehens vor, das Lösungsvorschläge für einige Probleme an der Schnittstelle zwischen Morphologie und Satzanalyse liefert.  Sie übernimmt zentrale Annahmen und den formalen Apparat der Lexikalisch-Funktionalen Grammatik (LFG).  Die Entwicklung des Modells folgt der Vorgehensweise eines Engineering-Vorhabens: Sie schließt eine Anforderungsanalyse, eine formale Spezifikation, und eine kurze Beschreibung einer Implementierung des Modells ein.

Herkömmliche computerlinguistische Modelle des Sprachverstehens setzen einen Satzparser und einen lexikalischen Analysator voraus. Der Analysator gibt die aus den Wörtern eines Eingabesatzes gewonnenen Tokens an den Satzparser weiter. Diese Wort-Tokens werden als Merkmalsbündel dargestellt, welche die Flexions-,  Derivations- und andere Merkmale eines komplexen Eingabewortes abstrakt codieren. Eine Grammatik für ein solches Modell kann als ein deklaratives, unifikationsbasiertes Regelsystem formuliert werden. Der morphologische Teil der Grammatik wird als eine Menge von Regeln für den lexikalischen Analysator dargestellt. Die Grammatik verläßt sich auf die Semantik des Formalismus, um Steuerungsangelegenheiten wie z. B. Suchfolge und Mustervergleich zu entscheiden.

Die Ergebnisse verschiedener statistischer, psychologischer und linguistischer Untersuchungen, die in der Arbeit zusammengefasst und diskutiert werden, haben manchmal widersprüchliche Implikationen für ein solches Modell. Diese Ergebnisse zeigen einerseits, dass häufig vorkommende flektierte Wörter als atomare Einträge im mentalen Lexikon repräsentiert sein können. Andererseits können aber die Stämme von komplexen Wörtern niedriger Frequenz im Lexikon fehlen; bei neugebildeten Stämmen muss dies auch der Fall sein. Zu Laufzeit müssen solche 'virtuellen' Stämme analysiert werden, aber bezüglich Semantik und Argumentstruktur ist es nicht immer möglich, die Ergebnisse der Wortanalyse mittels des syntaktischen Apparats in die Satzstruktur zu integrieren.  Maschinelle Sprachverarbeitungssysteme mit großer Sprachabdeckung werden aber auch solche Wörter verarbeiten müssen.

Die vorgestellte Lösung schlägt eine Schnittstelle zwischen Syntax und Lexikon vor, die eine gleichzeitige zweifache Repräsentation lexikalischer und virtueller Wörter erlaubt, während sie zugleich die strenge Trennung von Wort- und Satzanalyse beibehält, die der linguistischen Forderung nach Lexikalischer Integrität entspricht. Die lexikalische Analyse segmentiert alle potentiell komplexen Wörter in einer frühen Verarbeitungsphase. Sie kann ein segmentiertes Wort unmittelbar im Lexikon identifizieren, falls es da verzeichnet ist, ohne weitere morphologische Analyse. Lexikalisch nicht verzeichnete Formen - auch Stämme - durchlaufen die Wortsegmentierung und eine anschließende morphotaktische Analyse. Bei derivierten Wörtern löst der Versuch, das Wort in den Satz einzufügen, eine Ausnahme aus; die Ausnahme-Routine muss aus der Wortstruktur einen neuen Lexikoneintrag berechnen. Diese Berechnung schließt zunächst eine konzeptuelle Evaluierung einer semantischen Formel ein, die aus der Wortstruktur abgeleitet wurde. Danach erfolgt ein Verarbeitungsschritt, in dem eine enger spezifizierte Semantik, eine lexikalische Form, eine mapping-Relation, und andere notwendige Attribute eines vollständigen Lexikoneintrags erstellt werden.  Dieser Lexikoneintrag wird zunächst in einem lexikalischen Pufferbereich abgelegt, wo er wie jeder andere Eintrag für die Syntax verfügbar ist.  Eine Speicherverwaltung sorgt dafür, dass häufig abgelegte Formen nicht gelöscht werden (least-recently-used purging). Nach einer bestimmten Zeit werden sie Teil des dauerhaften, statischen lexikalischen Speichers.

Eine probabilistische Erklärung morphologischer Produktivität und diachronischer Lexikalisierung ist Bestandteil des Modells, wurde aber nicht implementiert.

Inhalt:

  1. Requirements Engineering and Computational Modeling
  2. Corpus Statistics and Word Formation
  3. Word Access and Representation Linguistic
  4. Data on Word Formation
  5. Tools for Formal Specification of Morphology
  6. Segmentation
  7. The KLU Implementation
  8. Summary and Outlook