Volltextdatei(en) vorhanden
Titel: A Computational Model for the Influence of Cross-Modal Context upon Syntactic Parsing
Sonstige Titel: Ein computationelles Modell für den Einfluss von cross-modalem Kontext auf syntaktisches Parsing
Sprache: Englisch
Autor*in: McCrae, Patrick
Schlagwörter: Cross-modale Interaktion; Syntax-Parsing; Semantisches Parsing; Syntax-Semantik Schnittstelle; Kontext-Integration; Cross-Modal Interaction; Syntax Parsing; Semantic Parsing; Syntax-Semantics Interface; Vision-Language Interaction
Erscheinungsdatum: 2010
Tag der mündlichen Prüfung: 2010-07-06
Zusammenfassung: 
Ambiguität ist eine inhärente Eigenschaft natürlicher Sprache, deren häufigste Ausprägungen syntaktische oder strukturelle Ambiguität, lexikalische Ambiguität, Scopus-Ambiguität und referenzielle Ambiguität umfassen. In Anbetracht der großen Häufigkeit, mit der Ambiguität in natürlicher Sprache vorkommt, ist es verwunderlich, wie selten Ambiguität tatsächlich Missverständnisse verursacht. Die meisten Ambiguitäten in menschlicher Kommunikation werden nicht einmal bemerkt, vorwiegend weil die menschliche Kognition automatisch und unbewusst versucht, Ambiguitäten aufzulösen. Einen zentralen Beitrag zu dieser automatischen und unbewussten Disambiguierung leistet die Integration von nicht-sprachlichen Informationen aus kognitiv zugänglichen Quellen wie Weltwissen, Diskurskontext oder visuellem Szenenkontext. Während eine Vielzahl von verhaltenspsychologischen Untersuchungen zu Interaktionen zwischen Sehen und Sprache vorliegen, wurde bisher nur eine vergleichsweise geringe Zahl von computationellen Modellen beschrieben.
Der Kern dieser Arbeit beinhaltet die Motivation, Spezifizierung und Validierung eines computationellen Modells für den cross-modalen Einfluss von visuellem Szenenkontext auf das Verstehen natürlicher Sprache im Allgemeinen --- und den
Prozess des syntaktischen Parsings im Besonderen. Wir stellen ein computationelles Modell vor, das cross-modale Referenzbeziehungen zwischen Worten im sprachlichen Input und Entitäten im visuellen Kontext herstellt. Die cross-modalen Referenzbeziehungen werden dabei zugewiesen basierend auf der Konzeptkompatibilität zwischen den sprachlich aktivierten Konzepten und den Konzepten, die im visuellen Kontext instanziiert wurden. Das vorgestellte Modell nutzt thematische Relationen im visuellen Szenenkontext, um Anbindungen der sprachlichen Analyse zu beeinflussen.
Im Gegensatz zu der Mehrzahl der bestehenden computationellen Modelle ist unser Modell durch eine umfassende Theorie der menschlichen Kognition motiviert. Die Architektur unseres Modells basiert auf dem kognitiven Framework der Konzeptuellen Semantik ('Conceptual Semantics'), einer weitreichenden Theorie zu Kognition und Sprachverarbeitung von Ray Jackendoff. In unserem Modell folgen wir der zentralen Annahme der Konzeptuellen Semantik, dass alle cross-modalen Interaktionen von nicht-sprachlichen Modalitäten mit Sprache durch die Konzeptuelle Struktur (Conceptual Structure') vermittelt werden. Bei der Konzeptuellen Struktur handelt es sich um die zentrale Repräsentation sprachlicher und nicht-sprachlicher Semantik. Die Konzeptuelle Struktur reicht den Einfluss der nicht-sprachlichen Modalitäten in die syntaktische Repräsentation über eine Schnittstelle zwischen Syntax und Semantik weiter. Die Aufgabe dieser Schnittstelle ist es, syntaktische und semantische Repräsentationen über Korrespondenzbeziehungen aufeinander abzubilden.
Unser Modell implementiert zentrale Aspekte der kognitiven Architektur aus der Konzeptuellen Semantik. Wir repräsentieren die semantische Information aller Entitäten, seien sie sprachlicher oder nicht-sprachlicher Natur, auf ein und derselben Repräsentationsebene. Insbesondere werden der semantische Teil der sprachlichen Analyse sowie visuelle Szeneninformationen in dieser Repräsentation abgebildet. Die semantischen Präferenzen, die sich aus dem visuellen Kontext ergeben, beschränken den semantischen Teil der sprachlichen Analyse. Der semantische Teil der sprachlichen Analyse wiederum beschränkt die syntaktische Analyse über die Syntax-Semantik-Schnittstelle. Auf diese Weise erzielt unser Modell die semantisch vermittelte Propagation nicht-sprachlicher visueller Szeneninformation in die syntaktische Repräsentation.
Wir validieren das Verhalten des vorgestellten Modells hinsichtlich der Integration von kontextueller Information unter verschiedenen experimentellen Bedingungen. Die Integration von visuellem Szenenkontext als harte Beschränkung der sprachlichen Analyse erzwingt eine absolute Dominanz der visuellen Kontextinformation über die sprachliche Analyse. Wir beobachten, dass die harte Integration zu einer kontextualisierten Analyse des sprachlichen Inputs führen kann, die Regeln sprachlicher Wohlgeformtheit verletzt, um semantische Kompatibilität mit dem modellierten visuellen Kontext zu erzielen. Die Integration von visueller Kontextinformation als weiche Beschränkung der sprachlichen Analyse hingegen ergibt kognitiv plausiblere Resultate. Weiche Integration gestattet konfligierende sprachliche und kontextuelle Präferenzen basierend auf ihrer Gewichtung gegeneinander abzuwägen. Weiche Integration eröffnet in unserem Modell auch die Möglichkeit der Diagnose, um festzustellen, welche Aspekte der sprachlichen Analyse mit der visuellen Kontextinformation im Konflikt stehen. Die Fähigkeit zur Diagnose ist eine wichtige kognitive Fähigkeit natürlicher Systeme im Rahmen von kontextuell eingebundener Wahrnehmung und Interaktion. Diagnose ermöglicht zu erkennen, welche Teile eines kognitiven Inputs inkorrekt, inkonsistent oder inkompatibel mit bestehenden Top-Down-Erwartungen ist, und ermöglicht so, angemessen und effektiv auf diesen Input zu reagieren. Wir demonstrieren weiterhin die Robustheit unseres Modells gegenüber konzeptueller Unterspezifikation in der Repräsentation von visuellem Kontext. Unsere Experimente zeigen, dass die Integration von konzeptuell unterspezifizierten Kontextrepräsentationen dennoch wertvolle Informationen liefern kann, um den Prozess der syntaktischen Disambiguierung zu unterstützen. Die Fähigkeit, konzeptuell unterspezifizierte semantische Information verarbeiten zu können, ist eine wichtige Systemeigenschaft für die Modellierung von perzeptueller Unsicherheit und perzeptueller Mehrdeutigkeit.
Im Mittelpunkt der Implementierung des Modells steht WCDG2, ein Dependenzparser des Deutschen auf Basis eines gewichteten Constraint-Formalismus. Situationsunabhängiges semantisches Wissen wie semantisches lexikalisches Wissen und Weltwissen sind durch Konzepte abgebildet, die die Konzepthierarchie einer OWL-Ontologie definieren. Situationsspezifische Szeneninformation bilden wir in Kontextmodellen ab, die Instanziierungen der Konzepte aus der Ontologie und thematische Relationen zwischen diesen Konzeptinstanzen beinhalten. Die kontextuellen Präferenzen, die sich aus dem modellierten visuellen Szenenkontext ergeben, werden dem Parser in Form von Bewertungsvorhersagen für die Zuweisung von semantischen Dependenzen in der sprachlichen Analyse übergeben. Diese Bewertungsvorhersagen werden von einer Prädiktor-Komponente vor der Parsezeit berechnet; der Parser greift dann zur Parsezeit auf diese Bewertungsvorhersagen zu. Die Berechnung der Vorhersagen durch den Prädiktor erfolgt basierend auf dem eingegebenen Satz und der visuellen Szeneninformation im Kontextmodell. Die Hauptaufgabe des Prädiktors ist es dabei, all jene semantischen Dependenzen durch Vergabe schlechter Bewertungen zu verbieten, die inkompatibel mit der visuellen Kontextinformation sind.
Die Implementierung unseres Modells für den cross-modalen Einfluss von visuellem Szenenkontext auf die sprachliche Verarbeitung unterliegt auch einer Vielzahl von nicht unerheblichen Einschränkungen. Aus unserer Sicht sind drei dieser Einschränkungen hinsichtlich des Modellierungszieles besonders schwerwiegend:
1) die Unidirektionalität der implementierten Sehen-Sprache-Interaktion,
2) das Fehlen von Inkrementalität in der sprachlichen Verarbeitung und
3) die begrenzte sprachliche Abdeckung im semantischen Teil der sprachlichen Analyse.
Wir diskutieren diese Einschränkungen im Detail und zeigen Ansätze auf, diesen Einschränkungen im Rahmen weiterführender Forschungsansätze zu begegnen.
Zusammenfassend kann gesagt werden, dass diese Arbeit das Resultat eines interdisziplinären Forschungsansatzes darstellt, dessen Hauptziel es war, eine geeignete Theorie der cross-modalen Kognition mit entsprechenden Methoden der Sprachtechnologie zusammen zu führen. Auch wenn diese Arbeit nicht den Anspruch erhebt, dieses Ziel in vollem Umfang erreicht zu haben, so sind die vorgestellten Ergebnisse doch vielversprechende erste Schritte in Richtung der Erreichung dieses ehrgeizigen Gesamtzieles. Das Ergebnis dieser Arbeit ist die Implementierung eines kognitiv motivierten Modells, das anhand von visuellem Szenenkontext in der Lage ist, selektiv syntaktische Anbindungen zu beeinflussen. Die Beeinflussung der syntaktischen Verarbeitung erfolgt dabei durch Vermittlung einer zentralen Repräsentation von sprachlicher und nicht-sprachlicher Semantik.

Ambiguity is an inherent property of natural language. Its most prominent manifestations comprise syntactic ambiguity, lexical ambiguity, scope ambiguity and referential ambiguity. Considering the high frequency with which ambiguity occurs in unrestricted natural language, it is surprising how seldom ambiguity causes misunderstandings. Most linguistic ambiguities in inter-human communication even pass unnoticed, mainly because human cognition automatically and unconsciously attempts to resolve ambiguity. A central contribution to this automatic and unconscious disambiguation is made by the integration of non-linguistic information from cognitively readily available sources such as world knowledge, discourse context or visual scene context. While a large body of behavioural investigations into the interactions between vision and language has been accumulated, comparatively few computational models of those interactions have been reported.
The focus of this thesis is to motivate, specify and validate a computational model for the cross-modal influence of visual scene context upon natural language understanding and the process of syntactic parsing, in particular. We argue for a computational model that establishes cross-modal referential links between words in the linguistic input and entities in a visual scene context. Cross-modal referential links are assigned on the basis of conceptual compatibility between the concepts activated in the linguistic modality and the concepts instantiated in visual context. The proposed model utilises the thematic relations in the visual scene context to modulate attachments in the linguistic analysis.
In contrast to the majority of extant computational models for the interaction between vision and language, our model is motivated by an integrated theory of cognition. We base our model architecture on the cognitive framework of Conceptual Semantics, an overarching theory of cognition and language processing by Ray Jackendoff. In our model, we adopt the central tennet of Conceptual Semantics that all cross-modal interactions of non-linguistic modalities with language are mediated by Conceptual Structure, a single, uniform representation of linguistic and non-linguistic semantics. Conceptual Structure propagates the influence of the non-linguistic modalities into syntactic representation via a syntax-semantics interface. The purpose of this interface is to map between the syntactic and the semantic representation by means of representational correspondence rules.
Our model implements central aspects of the cognitive architecture in Conceptual Semantics. We encode the semantic information for all entities, be they linguistic or non-linguistic in nature, on a single level of semantic representation. In particular, the semantic part of linguistic analysis and visual scene information are included in this representation. The semantic preferences arising from visual context constrain the semantic part of linguistic analysis. The semantic part of linguistic analysis, in turn, constrains syntactic analysis via the syntax-semantics interface. In this way, our model achieves a semantically mediated propagation of non-linguistic visual scene information into syntactic representation.
We validate our model's context integration behaviour under a range of experimental conditions. The integration of visual scene context as a hard constraint on linguistic analysis enforces an absolute dominance of visual context information over linguistic analysis. As a result, hard integration can lead to a contextualised linguistic analysis that violates linguistic well-formedness preferences in order to be semantically compatible with the modelled visual context. Integrating visual context information as a soft constraint on linguistic analysis affords cognitively more plausible results. Soft integration permits to achieve a balance between conflicting linguistic and contextual preferences based on the strength of the individual preferences. Under soft integration, our model also diagnoses which aspects of linguistic analysis are in conflict with visual context information. Diagnosis constitutes an important cognitive capability in the situated cognition of natural systems.
The ability to diagnose cognitive input permits the effective identification of which parts of that input are incorrect, inconsistent or incompatible with pre-existing top-down expectations and thus enables a more specific and adequate response to that input. We further demonstrate our model's robustness to conceptual underspecification in the contextual representation. Our experiments show that the integration of conceptually underspecified context representations still provides valuable information to support the process of syntactic disambiguation. The capability of processing conceptually underspecified semantic information is a relevant feature with regards to the handling of perceptual uncertainty and perceptual ambiguity.
The implementation of our model centres around WCDG2, a weighted-constraint dependency parser for German. We encode situation-invariant semantic knowledge including semantic lexical knowledge and world knowledge in terms of concepts
in an OWL ontology (A-Box). Situation-specific visual scene information is encoded in context models that assert instantiations of concepts from the ontology joined by thematic relations. The contextual constraints upon the semantic part of linguistic analysis are communicated to the parser in the form of score predictions for semantic dependency assignments in the linguistic analysis. These score predictions are computed by a predictor component prior to parse time and are accessed by the parser at parse time. The predictor computes its prediction scores based on the input sentence and the visual scene information in the context model. The primary objective of the predictor component is to veto all semantic dependencies in the input sentence that are incompatible with the asserted visual context information.
The implementation of our model for the cross-modal influence of visual scene context upon linguistic processing is also subject to a number of significant limitations. The most severe of these with regards to the objective of modelling vision-language interaction are the unidirectionality of the implemented vision-language interaction, our non-incremental approach to linguistic processing and the limited scope of the semantic part of linguistic analysis. We discuss these limitations in detail and point out directions for further research to address them.
In summary, the model presented in this thesis is the result of an interdisciplinary research effort whose main objective was to bring together a suitable theory of cross-modal cognition and methods of natural language engineering. While this work cannot claim to have bridged the gap between the disciplines in its entirety, the presented results constitute an encouraging first step towards achieving the ambitious overall goal. The outcome of this research is a cognitively motivated model implementation that achieves selective modulations of syntactic attachments based on representations of visual scene context by mediation of a single shared representation of linguistic and non-linguistic semantics.
URL: https://ediss.sub.uni-hamburg.de/handle/ediss/3778
URN: urn:nbn:de:gbv:18-48005
Dokumenttyp: Dissertation
Betreuer*in: Menzel, Wolfgang (Prof. Dr.-Ing.)
Enthalten in den Sammlungen:Elektronische Dissertationen und Habilitationen

Dateien zu dieser Ressource:
Datei Beschreibung Prüfsumme GrößeFormat  
Patrick.McCrae_PhD.Thesis.pdf7437cfc7d0b34d3aacb748b814f733ee2.98 MBAdobe PDFÖffnen/Anzeigen
Zur Langanzeige

Diese Publikation steht in elektronischer Form im Internet bereit und kann gelesen werden. Über den freien Zugang hinaus wurden durch die Urheberin / den Urheber keine weiteren Rechte eingeräumt. Nutzungshandlungen (wie zum Beispiel der Download, das Bearbeiten, das Weiterverbreiten) sind daher nur im Rahmen der gesetzlichen Erlaubnisse des Urheberrechtsgesetzes (UrhG) erlaubt. Dies gilt für die Publikation sowie für ihre einzelnen Bestandteile, soweit nichts Anderes ausgewiesen ist.

Info

Seitenansichten

272
Letzte Woche
Letzten Monat
geprüft am 27.03.2024

Download(s)

59
Letzte Woche
Letzten Monat
geprüft am 27.03.2024
Werkzeuge

Google ScholarTM

Prüfe