622 research outputs found

    Acquiring Word-Meaning Mappings for Natural Language Interfaces

    Full text link
    This paper focuses on a system, WOLFIE (WOrd Learning From Interpreted Examples), that acquires a semantic lexicon from a corpus of sentences paired with semantic representations. The lexicon learned consists of phrases paired with meaning representations. WOLFIE is part of an integrated system that learns to transform sentences into representations such as logical database queries. Experimental results are presented demonstrating WOLFIE's ability to learn useful lexicons for a database interface in four different natural languages. The usefulness of the lexicons learned by WOLFIE are compared to those acquired by a similar system, with results favorable to WOLFIE. A second set of experiments demonstrates WOLFIE's ability to scale to larger and more difficult, albeit artificially generated, corpora. In natural language acquisition, it is difficult to gather the annotated data needed for supervised learning; however, unannotated data is fairly plentiful. Active learning methods attempt to select for annotation and training only the most informative examples, and therefore are potentially very useful in natural language applications. However, most results to date for active learning have only considered standard classification tasks. To reduce annotation effort while maintaining accuracy, we apply active learning to semantic lexicons. We show that active learning can significantly reduce the number of annotated examples required to achieve a given level of performance

    Natural language software registry (second edition)

    Get PDF

    Tabulation for multi-purpose partial parsing

    Get PDF
    Efficient partial parsing systems (chunkers) are urgently required by various natural language application areas as these parsers always produce partially parsed text even when the text does not fully fit existing lexica and grammars. Availability of partially parsed corpora is absolutely necessary for extracting various kinds of information that may then be fed into those systems, increasing their processing power. In this paper, we propose an efficient partial parsing scheme based on chart parsing that is flexible enough to support both normal parsing tasks and diagnosis in previously obtained partial parses of possible causes (kinds of faults) that led to those partial parses instead of complete parses. Through the use of the built-in tabulation capabilites of the DyALog system, we implemented a partial parser that runs as fast as the best non-deterministic parsers. In this paper we ellaborate on the implementation of two different grammar formalisms: Definite Clause Grammars (DCG) extended with head declarations and Bound Movement Grammars (BMG)

    Computing Information by Equation Solving

    Get PDF
    Assuming that representation is a crucial issue for Computational Semantics, I will show in this paper that equation solving is a very simple and elegant way or computing meaning representations or information structures conveyed by the use o

    FrameNet CNL: a Knowledge Representation and Information Extraction Language

    Full text link
    The paper presents a FrameNet-based information extraction and knowledge representation framework, called FrameNet-CNL. The framework is used on natural language documents and represents the extracted knowledge in a tailor-made Frame-ontology from which unambiguous FrameNet-CNL paraphrase text can be generated automatically in multiple languages. This approach brings together the fields of information extraction and CNL, because a source text can be considered belonging to FrameNet-CNL, if information extraction parser produces the correct knowledge representation as a result. We describe a state-of-the-art information extraction parser used by a national news agency and speculate that FrameNet-CNL eventually could shape the natural language subset used for writing the newswire articles.Comment: CNL-2014 camera-ready version. The final publication is available at link.springer.co

    A Logic Grammar Foundation for Document Representation and Document Layout

    Get PDF
    We present a powerful grammar-based paradigm for electronic document markup: coordinated definite clause translation grammars. This markup is of a declarative character, being, in effect, a collection of constraints on the logical and physical structure of documents. To the best of our knowledge, coordinated grammars and their parsers can accommodate all of the descriptive and layout processing functionality enjoyed by extant electronic markup languages. We describe an operational prototype that demonstrates the feasibility of a syntax-directed basis for formalizing and realizing document layout

    DFKI publications : the first four years ; 1990 - 1993

    Get PDF

    Domain-specific Language for Data-driven Design Time Analyses and Result Mappings for Logic Programs

    Get PDF
    In der vernetzten Welt von Heute ist der Austausch von Daten für viele Anwendungen unerlässlich. Mit der zunehmenden Vernetzung und dem wachsenden Datenaufkommen wird die Gewährleistung von Sicherheit, Datenschutz und die Einhaltung rechtlicher Vorgaben immer wichtiger. Um diesen Anforderungen frühzeitig gerecht zu werden, können Datenflussanalysen zur Entwurfszeit eingesetzt werden. Durch explizite Modellierung der Daten und ihrer Eigenschaften kann das Architekturmodell automatisch gegen Datenflussbeschränkungen getestet werden. Diese Verifikationsansätze transformieren die modellierte Architektur in ihnen zugrunde liegende Formalismen wie z.B. logische Programme. Um die Aussagekraft der Beschränkungen zu erhöhen, müssen diese oft ebenfalls unter Nutzung des Formalismus ausgedrückt werden. Dies erfordert von den Architekten Kenntnisse über den Formalismus, die transformierte Architektur und die Verifikationsumgebung. Unser Ziel ist es, die Lücke zwischen der architektonischen Domäne und dem zugrundeliegenden Formalismus zu schließen, die bei der Formulierung von Datenflussbeschränkungen auftritt. Wir schlagen eine domänenspezifische Sprache (DSL) vor, die es Architekten ermöglicht, Einschränkungen bereits während der Definition der Architektur festzulegen. Durch die Verwendung der selben Terminologie, die auch zur Modellierung der Architektur eingesetzt wird, können individualisierte Beschränkungen ohne Kenntnisse des Überprüfungsprozesses formuliert werden. Zusätzlich stellen wir eine Abbildung der in unserer DSL formulierten Einschränkungen von der Architekturdomäne in den Formalismus vor. Analyseergebnisse werden in die Architekturdomäne zurück abgebildet, um deren Interpretation zu erleichtern. Die DSL basiert auf der Sammlung und Generalisierung bestehender Einschränkungen aus realen Fallstudien. Wir bewerten die Aussagekraft, Nutzbarkeit und Kompaktheit der DSL für Datenflussbeschränkungen unterschiedlicher Größe. Ungefähr 75% der untersuchten Beschränkungen können mit der ersten Version unserer DSL ausgedrückt werden, wobei bis zu 10-mal weniger Quelltext benötigt wird. Neben den Grundlagen der Datenflussmodellierung und Wissen über die Modellierungsumgebung sind keine weiteren Kenntnisse über den Transformations- oder Verifikationsmechanismus erforderlich. Zusätzlich untersuchen wir die Äquivalenz der Analyseergebnisse von Beschränkungen, die in unserer DSL formuliert wurden mit Beschränkungen, welche direkt unter Nutzung des Formalismus ausgedrückt wurden. In unseren Tests erreichen Beschränkungen, welche mit Hilfe unserer DSL formuliert wurden, eine 100%ige Ausbeute bei einer Präzision von 90%
    corecore