115 research outputs found

    Exploiting multi-word units in history-based probabilistic generation

    Get PDF
    We present a simple history-based model for sentence generation from LFG f-structures, which improves on the accuracy of previous models by breaking down PCFG independence assumptions so that more f-structure conditioning context is used in the prediction of grammar rule expansions. In addition, we present work on experiments with named entities and other multi-word units, showing a statistically significant improvement of generation accuracy. Tested on section 23 of the PennWall Street Journal Treebank, the techniques described in this paper improve BLEU scores from 66.52 to 68.82, and coverage from 98.18% to 99.96%

    Exploiting multi-word units in statistical parsing and generation

    Get PDF
    Syntactic parsing is an important prerequisite for many natural language processing (NLP) applications. The task refers to the process of generating the tree of syntactic nodes with associated phrase category labels corresponding to a sentence. Our objective is to improve upon statistical models for syntactic parsing by leveraging multi-word units (MWUs) such as named entities and other classes of multi-word expressions. Multi-word units are phrases that are lexically, syntactically and/or semantically idiosyncratic in that they are to at least some degree non-compositional. If such units are identified prior to, or as part of, the parsing process their boundaries can be exploited as islands of certainty within the very large (and often highly ambiguous) search space. Luckily, certain types of MWUs can be readily identified in an automatic fashion (using a variety of techniques) to a near-human level of accuracy. We carry out a number of experiments which integrate knowledge about different classes of MWUs in several commonly deployed parsing architectures. In a supplementary set of experiments, we attempt to exploit these units in the converse operation to statistical parsing---statistical generation (in our case, surface realisation from Lexical-Functional Grammar f-structures). We show that, by exploiting knowledge about MWUs, certain classes of parsing and generation decisions are more accurately resolved. This translates to improvements in overall parsing and generation results which, although modest, are demonstrably significant

    Finding common ground: towards a surface realisation shared task

    Get PDF
    In many areas of NLP reuse of utility tools such as parsers and POS taggers is now common, but this is still rare in NLG. The subfield of surface realisation has perhaps come closest, but at present we still lack a basis on which different surface realisers could be compared, chiefly because of the wide variety of different input representations used by different realisers. This paper outlines an idea for a shared task in surface realisation, where inputs are provided in a common-ground representation formalism which participants map to the types of input required by their system. These inputs are derived from existing annotated corpora developed for language analysis (parsing etc.). Outputs (realisations) are evaluated by automatic comparison against the human-authored text in the corpora as well as by human assessors

    Automatic evaluation of generation and parsing for machine translation with automatically acquired transfer rules

    Get PDF
    This paper presents a new method of evaluation for generation and parsing components of transfer-based MT systems where the transfer rules have been automatically acquired from parsed sentence-aligned bitext corpora. The method provides a means of quantifying the upper bound imposed on the MT system by the quality of the parsing and generation technologies for the target language. We include experiments to calculate this upper bound for both handcrafted and automatically induced parsing and generation technologies currently in use by transfer-based MT systems

    Treebank-based acquisition of Chinese LFG resources for parsing and generation

    Get PDF
    This thesis describes a treebank-based approach to automatically acquire robust,wide-coverage Lexical-Functional Grammar (LFG) resources for Chinese parsing and generation, which is part of a larger project on the rapid construction of deep, large-scale, constraint-based, multilingual grammatical resources. I present an application-oriented LFG analysis for Chinese core linguistic phenomena and (in cooperation with PARC) develop a gold-standard dependency-bank of Chinese f-structures for evaluation. Based on the Penn Chinese Treebank, I design and implement two architectures for inducing Chinese LFG resources, one annotation-based and the other dependency conversion-based. I then apply the f-structure acquisition algorithm together with external, state-of-the-art parsers to parsing new text into "proto" f-structures. In order to convert "proto" f-structures into "proper" f-structures or deep dependencies, I present a novel Non-Local Dependency (NLD) recovery algorithm using subcategorisation frames and f-structure paths linking antecedents and traces in NLDs extracted from the automatically-built LFG f-structure treebank. Based on the grammars extracted from the f-structure annotated treebank, I develop a PCFG-based chart generator and a new n-gram based pure dependency generator to realise Chinese sentences from LFG f-structures. The work reported in this thesis is the first effort to scale treebank-based, probabilistic Chinese LFG resources from proof-of-concept research to unrestricted, real text. Although this thesis concentrates on Chinese and LFG, many of the methodologies, e.g. the acquisition of predicate-argument structures, NLD resolution and the PCFG- and dependency n-gram-based generation models, are largely language and formalism independent and should generalise to diverse languages as well as to labelled bilexical dependency representations other than LFG

    Prozedurale Anforderungen an die maschinelle Sprachverarbeitung : Workshop während der Jahrestagung KI-94 Saarbrücken

    Get PDF
    Die Verarbeitung gesprochener Sprache stellt besondere Anforderungen an die Architektur und die Gestaltung einzelner Komponenten in Systemen zur maschinelle Sprachverarbeitung Der Workshop thematisiert die Konsequenzen, die sich aus der Forderung nach inkrementeller und zeitsynchroner Verarbeitung, sowie aus der inhärenten Unsicherheit bei der Interpretation des Sprachsignals ergeben. Sprachliche Kommunikation, insbesondere in natürlichen Dialogsituationen, unterliegt einer Reihe von einschneidenden prozeduralen Anforderungen. Solche Anforderungen ergeben sich zum einen aus der strikten Bindung von Sprachperzeption und -produktion an die zeitliche Dimension des Sprachsignals. Die prinzipielle Begrenztheit der menschlichen (und maschinellen) Verarbeitungskapazität setzt hierbei zwangsläufig eine hocheffiziente Organisation der Verarbeitungsprozesse voraus, um auch unter dem Einfluß von Streßfaktoren ein Schritthalten der Verarbeitung mit den Erfordernissen der jeweiligen Kommunikationssituation gewährleisten zu können. Prozedurale Anforderungen resultieren zum anderen aus der erheblichen intra- und interindividuellen Varianz des Sprachsignals. Sie stellt eine wesentliche Quelle von Erkennungsunsicherheit dar und hat zur Folge, dass jedwede interpretierende Beschreibung des sprachlichen Inputs nur Hypothesencharakter tragen kann. Im Bereich der Schriftsprache ist die Zeitdimension auf Anordnungsrelationen zwischen sprachlichen Zeichen reduziert. Erkennungsunsicherheit spielt - zumindest bei der tastaturgebundenen Eingabe - keine entscheidende Rolle. Nur aufgrund dieser Abstraktionen ist es letztendlich auch möglich, eine Verarbeitungsaufgabe vollständig auf der Basis rein deklarativer Spezifikationen zu beschreiben und von einem kombinatorischen und atemporalen Deduktionsmechanismus verarbeiten zu lassen. Wenn nunmehr in diesem Workshop gerade die prozeduralen Aspekte der zeitlichen Strukturierung und der Verwaltung konkurrierender Hypothesen in den Mittelpunkt gestellt werden, so versteht sich das keineswegs als Absage an die Verwendung deklarativer Repräsentationsformalismen. Vielmehr wird hierbei gerade zu klären sein, auf welche Weise deklarative Spezifikationen in eine geeignete Verarbeitungsarchitektur eingebetet werden können, um auf dieser Grundlage die gewünschten Verarbeitungscharakteristika zu erzielen. Als Ausgangspunkt, Vergleichsmaßstab und Inspirationsquelle bietet sich naturgemäß das menschliche Vorbild an, ist es doch bisher einzig der Mensch der über Sprachverarbeitungskapazitäten der angestrebten Art verfügt. Eine wesentliche Eigenschaft natürlicher Sprachverarbeitung ist ihre Inkrementalität. Teilabschnitte einer sprachlichen Äußerung werden dabei auf den verschiedenen Ebenen zeitlich parallel und praktisch verzögerungsfrei bearbeitet Insbesondere schließt inkrementelle Verarbeitung ausdrücklich das traditionell dominierende Verarbeitungsmodell aus, das vom Vorliegen vollständiger Eingabedaten schon bei Verarbeitungsbeginn ausgeht. Zum einen ermöglicht erst eine inkrementelle Verarbeitung ein natürliches Dialogverhalten, das sich etwa durch unmittelbare Reaktionen auf die Beiträge der Dialogpartner, sowie die Fähigkeit zur Übernahme der Dialoginitiative auszeichne. Zum anderen ist sie Voraussetzung für die dynamische Generierung von Diskurserwartungen, dem wohl wirksamsten Mittel zur Suchraumbeschränkung beim Sprachverstehen. Die Forderung nach inkrementeller Verarbeitung besteht für ein Sprachverarbeitungssystem in seiner Gesamtheit Inkrementalität kann in ihren Vorzügen nur dann voll zur Wirkung kommen, wenn sie auf allen Ebenen des Verarbeitungsprozesses durchgängig realisiert ist. Nicht zuletzt aus diesem Grunde sind auf dem Workshop Beiträge zu inkrementellen Verfahren in so unterschiedlichen Bereichen wie der Worterkennung, der syntaktischen Analyse und der Generierung vertreten. Menschliche Sprachverarbeitung verläuft in ihren wesentlichen Zügen zeitsynchron. Eine solche Forderung auch auf maschinelle Sprachverarbeitungssysteme zu übertragen, scheint auf den ersten Blick nahe liegend, ist aber angesichts der kombinatorischen Eigenschaften der üblichen Verarbeitungsalgorithmen durchaus nicht selbstverständlich und schon gar nicht trivial. Die Anpassung der Verarbeitungsprozesse an den aktuell gegebenen zeitlichen Verarbeitungsdruck erfordert ein explizites und zeitsensitives Scheduling für die vorhandenen Verarbeitungskapazitäten Fragen der Aufmerksamkeitsfokussierung und des systematischen Vergessens von Teilergebnissen werden zwangsläufig eine wichtige Rolle spielen. Grundlage dafür sind Relevanzabschätzungen, die mit der erforderlichen Zuverlässigkeit wiederum nur vor dem Hintergrund von aussagekräftigen Diskurserwartungen getroffen werden können. Zu all diesen Fragestellungen befindet sich die Forschung noch ganz am Anfang

    Bare-Bones Dependency Parsing — A Case for Occam's Razor?

    Get PDF
    Proceedings of the 18th Nordic Conference of Computational Linguistics NODALIDA 2011. Editors: Bolette Sandford Pedersen, Gunta Nešpore and Inguna Skadiņa. NEALT Proceedings Series, Vol. 11 (2011), 6-11. © 2011 The editors and contributors. Published by Northern European Association for Language Technology (NEALT) http://omilia.uio.no/nealt . Electronically published at Tartu University Library (Estonia) http://hdl.handle.net/10062/16955

    Prozedurale Anforderungen an die maschinelle Sprachverarbeitung : Workshop während der Jahrestagung KI-94 Saarbrücken

    Get PDF
    Die Verarbeitung gesprochener Sprache stellt besondere Anforderungen an die Architektur und die Gestaltung einzelner Komponenten in Systemen zur maschinelle Sprachverarbeitung Der Workshop thematisiert die Konsequenzen, die sich aus der Forderung nach inkrementeller und zeitsynchroner Verarbeitung, sowie aus der inhärenten Unsicherheit bei der Interpretation des Sprachsignals ergeben. Sprachliche Kommunikation, insbesondere in natürlichen Dialogsituationen, unterliegt einer Reihe von einschneidenden prozeduralen Anforderungen. Solche Anforderungen ergeben sich zum einen aus der strikten Bindung von Sprachperzeption und -produktion an die zeitliche Dimension des Sprachsignals. Die prinzipielle Begrenztheit der menschlichen (und maschinellen) Verarbeitungskapazität setzt hierbei zwangsläufig eine hocheffiziente Organisation der Verarbeitungsprozesse voraus, um auch unter dem Einfluß von Streßfaktoren ein Schritthalten der Verarbeitung mit den Erfordernissen der jeweiligen Kommunikationssituation gewährleisten zu können. Prozedurale Anforderungen resultieren zum anderen aus der erheblichen intra- und interindividuellen Varianz des Sprachsignals. Sie stellt eine wesentliche Quelle von Erkennungsunsicherheit dar und hat zur Folge, dass jedwede interpretierende Beschreibung des sprachlichen Inputs nur Hypothesencharakter tragen kann. Im Bereich der Schriftsprache ist die Zeitdimension auf Anordnungsrelationen zwischen sprachlichen Zeichen reduziert. Erkennungsunsicherheit spielt - zumindest bei der tastaturgebundenen Eingabe - keine entscheidende Rolle. Nur aufgrund dieser Abstraktionen ist es letztendlich auch möglich, eine Verarbeitungsaufgabe vollständig auf der Basis rein deklarativer Spezifikationen zu beschreiben und von einem kombinatorischen und atemporalen Deduktionsmechanismus verarbeiten zu lassen. Wenn nunmehr in diesem Workshop gerade die prozeduralen Aspekte der zeitlichen Strukturierung und der Verwaltung konkurrierender Hypothesen in den Mittelpunkt gestellt werden, so versteht sich das keineswegs als Absage an die Verwendung deklarativer Repräsentationsformalismen. Vielmehr wird hierbei gerade zu klären sein, auf welche Weise deklarative Spezifikationen in eine geeignete Verarbeitungsarchitektur eingebetet werden können, um auf dieser Grundlage die gewünschten Verarbeitungscharakteristika zu erzielen. Als Ausgangspunkt, Vergleichsmaßstab und Inspirationsquelle bietet sich naturgemäß das menschliche Vorbild an, ist es doch bisher einzig der Mensch der über Sprachverarbeitungskapazitäten der angestrebten Art verfügt. Eine wesentliche Eigenschaft natürlicher Sprachverarbeitung ist ihre Inkrementalität. Teilabschnitte einer sprachlichen Äußerung werden dabei auf den verschiedenen Ebenen zeitlich parallel und praktisch verzögerungsfrei bearbeitet Insbesondere schließt inkrementelle Verarbeitung ausdrücklich das traditionell dominierende Verarbeitungsmodell aus, das vom Vorliegen vollständiger Eingabedaten schon bei Verarbeitungsbeginn ausgeht. Zum einen ermöglicht erst eine inkrementelle Verarbeitung ein natürliches Dialogverhalten, das sich etwa durch unmittelbare Reaktionen auf die Beiträge der Dialogpartner, sowie die Fähigkeit zur Übernahme der Dialoginitiative auszeichne. Zum anderen ist sie Voraussetzung für die dynamische Generierung von Diskurserwartungen, dem wohl wirksamsten Mittel zur Suchraumbeschränkung beim Sprachverstehen. Die Forderung nach inkrementeller Verarbeitung besteht für ein Sprachverarbeitungssystem in seiner Gesamtheit Inkrementalität kann in ihren Vorzügen nur dann voll zur Wirkung kommen, wenn sie auf allen Ebenen des Verarbeitungsprozesses durchgängig realisiert ist. Nicht zuletzt aus diesem Grunde sind auf dem Workshop Beiträge zu inkrementellen Verfahren in so unterschiedlichen Bereichen wie der Worterkennung, der syntaktischen Analyse und der Generierung vertreten. Menschliche Sprachverarbeitung verläuft in ihren wesentlichen Zügen zeitsynchron. Eine solche Forderung auch auf maschinelle Sprachverarbeitungssysteme zu übertragen, scheint auf den ersten Blick nahe liegend, ist aber angesichts der kombinatorischen Eigenschaften der üblichen Verarbeitungsalgorithmen durchaus nicht selbstverständlich und schon gar nicht trivial. Die Anpassung der Verarbeitungsprozesse an den aktuell gegebenen zeitlichen Verarbeitungsdruck erfordert ein explizites und zeitsensitives Scheduling für die vorhandenen Verarbeitungskapazitäten Fragen der Aufmerksamkeitsfokussierung und des systematischen Vergessens von Teilergebnissen werden zwangsläufig eine wichtige Rolle spielen. Grundlage dafür sind Relevanzabschätzungen, die mit der erforderlichen Zuverlässigkeit wiederum nur vor dem Hintergrund von aussagekräftigen Diskurserwartungen getroffen werden können. Zu all diesen Fragestellungen befindet sich die Forschung noch ganz am Anfang

    Learning Efficient Disambiguation

    Get PDF
    This dissertation analyses the computational properties of current performance-models of natural language parsing, in particular Data Oriented Parsing (DOP), points out some of their major shortcomings and suggests suitable solutions. It provides proofs that various problems of probabilistic disambiguation are NP-Complete under instances of these performance-models, and it argues that none of these models accounts for attractive efficiency properties of human language processing in limited domains, e.g. that frequent inputs are usually processed faster than infrequent ones. The central hypothesis of this dissertation is that these shortcomings can be eliminated by specializing the performance-models to the limited domains. The dissertation addresses "grammar and model specialization" and presents a new framework, the Ambiguity-Reduction Specialization (ARS) framework, that formulates the necessary and sufficient conditions for successful specialization. The framework is instantiated into specialization algorithms and applied to specializing DOP. Novelties of these learning algorithms are 1) they limit the hypotheses-space to include only "safe" models, 2) are expressed as constrained optimization formulae that minimize the entropy of the training tree-bank given the specialized grammar, under the constraint that the size of the specialized model does not exceed a predefined maximum, and 3) they enable integrating the specialized model with the original one in a complementary manner. The dissertation provides experiments with initial implementations and compares the resulting Specialized DOP (SDOP) models to the original DOP models with encouraging results.Comment: 222 page
    corecore