645 research outputs found

    Target-Side Context for Discriminative Models in Statistical Machine Translation

    Get PDF
    Discriminative translation models utilizing source context have been shown to help statistical machine translation performance. We propose a novel extension of this work using target context information. Surprisingly, we show that this model can be efficiently integrated directly in the decoding process. Our approach scales to large training data sizes and results in consistent improvements in translation quality on four language pairs. We also provide an analysis comparing the strengths of the baseline source-context model with our extended source-context and target-context model and we show that our extension allows us to better capture morphological coherence. Our work is freely available as part of Moses.Comment: Accepted as a long paper for ACL 201

    Proceedings of the Seventh International Conference Formal Approaches to South Slavic and Balkan languages

    Get PDF
    Proceedings of the Seventh International Conference Formal Approaches to South Slavic and Balkan Languages publishes 17 papers that were presented at the conference organised in Dubrovnik, Croatia, 4-6 Octobre 2010

    Learning Language from a Large (Unannotated) Corpus

    Full text link
    A novel approach to the fully automated, unsupervised extraction of dependency grammars and associated syntax-to-semantic-relationship mappings from large text corpora is described. The suggested approach builds on the authors' prior work with the Link Grammar, RelEx and OpenCog systems, as well as on a number of prior papers and approaches from the statistical language learning literature. If successful, this approach would enable the mining of all the information needed to power a natural language comprehension and generation system, directly from a large, unannotated corpus.Comment: 29 pages, 5 figures, research proposa

    Why languages differ : variation in the conventionalization of constraints on inference

    Get PDF
    Sperber and Wilson (1996) and Wilson and Sperber (1993) have argued that communication involves two processes, ostension and inference, but they also assume there is a coding-decoding stage of communication and a functional distinction between lexical items and grammatical marking (what they call 'conceptual' vs. 'procedural' information). Sperber and Wilson have accepted a basically Chomskyan view of the innateness of language structure and Universal Grammar

    Cross-Lingual Induction and Transfer of Verb Classes Based on Word Vector Space Specialisation

    Full text link
    Existing approaches to automatic VerbNet-style verb classification are heavily dependent on feature engineering and therefore limited to languages with mature NLP pipelines. In this work, we propose a novel cross-lingual transfer method for inducing VerbNets for multiple languages. To the best of our knowledge, this is the first study which demonstrates how the architectures for learning word embeddings can be applied to this challenging syntactic-semantic task. Our method uses cross-lingual translation pairs to tie each of the six target languages into a bilingual vector space with English, jointly specialising the representations to encode the relational information from English VerbNet. A standard clustering algorithm is then run on top of the VerbNet-specialised representations, using vector dimensions as features for learning verb classes. Our results show that the proposed cross-lingual transfer approach sets new state-of-the-art verb classification performance across all six target languages explored in this work.Comment: EMNLP 2017 (long paper

    Comparing Czech and English AMRs

    Get PDF
    This paper compares Czech and English annotation using Abstract Meaning Represantation formalism

    The ditransitive alternation in present-day German : a corpus-based analysis

    Get PDF
    The ditransitive alternation in present-day German A corpus-based study Hilde De Vaere The study is a corpus-based analysis of the ditransitive alternation in present-day German with 17 noncomplex and complex verbs, viz. geben, schicken, senden; abgeben, preisgeben, übergeben, vergeben, weitergeben, zurückgeben; einschicken, einsenden, übersenden, zurückschicken, zurücksenden; ausleihen, verleihen and verkaufen. The alternating constructions are the Indirect Object Construction (IOC) and the Prepositional Object Construction (POC). Both alternants contain a trivalent transfer verb in combination with three arguments: an AGENT in the nominative, a THEME in the accusative and a RECIPIENT-like argument. The RECIPIENT-like argument can either be realised as a dative Noun Phrase or as a Prepositional Phrase introduced by an + accusative (or, alternatively, zu + dative with the verbs schicken and senden and their complex counterparts), resulting in IOC or POC, respectively. Statistical analyses of 7400 sentences retrieved from the IDS Mannheim’s DeReKo corpus and taken from German, Swiss, Austrian and Wikipedia sources show that the alternation is associated with multiple factors that are assumed to operate simultaneously. A major conclusion of the investigation is that predictors pertaining to the principle of Harmonic Alignment of the arguments (according to which animate, pronominal, definite, given, short arguments precede inanimate, nominal, indefinite, new and long arguments) play a role in the alternation, but that other predictors are involved as well and, hence, Harmonic Alignment only partly accounts for the German data. Apart from factors such as Case Syncretism and Propernounhood of the RECIPIENT argument, which relate to a tendency towards greater transparency associated with POC, properties specifically pertaining to the verb, the three denotational classes (viz. concrete, abstract, propositional) and various senses turn out to be important factors in view of a comprehensive account of the alternation. The alternation moreover proves to be stongly verb-dependent. The two alternating constructions IOC and POC are thus shown to relate to the semantics/pragmatics interface, which requires a careful analysis of the encoded and inferred meanings that ground the alternation. Apart from the Probabilistic Approach utilised to analyse the data, the theoretical framework in which the study is embedded is an Integrative Approach which takes into account both constructionist and projectionist assumptions in the analysis of morphosyntax and alternating constructions. With regard to the issues of meaning and sense, the analysis is couched in a Three-Layer Approach to meaning, in which a difference is made between encoded linguistic content (semantics proper) and inferred linguistic content (the domain of pragmatics). Importantly, the pragmatic level is further differentiated to account for the partly highly conventionalised variation in form and meaning at the intermediate level of ‘normal language use’, in line with the theories of meaning developed by E. Coseriu and S. Levinson. IOC and POC are thus not considered two encoded constructions in their own right in German grammar, but rather as two pragmatically defined ‘allostructions’ of an overarching general ‘constructeme’, which is termed the AGENT-THEME-GOAL construction. Both the verbs and the AGENT-THEME-GOAL construction contribute to the alternation with their general, underspecified meanings but they are varyingly enriched by encyclopaedic knowledge and a range of factors that pertain to pragmatics. IOC or POC can thus be shown to be associated with a large set of statistically significant factors that interact with each other and with the AGENT-THEME-GOAL construction, i.e. the ‘constructeme’ that underpins both IOC and POC. Samenvatting De studie is een corpusgebaseerde analyse van de ditransitieve alternantie in hedendaags Duits met een selectie van 17 non-complexe en complexe werkwoorden, meer bepaald: geben, schicken, senden; abgeben, preisgeben, übergeben, vergeben, weitergeben, zurückgeben; einschicken, einsenden, übersenden, zurückschicken, zurücksenden; ausleihen, verleihen en verkaufen. De alternantie doet zich voor tussen de zgn. ‘Indirect Object Constructie’ (IOC) en de ‘Prepositioneel Object Constructie’ (POC). Beide alternanten bevatten een trivalent werkwoord dat een transfer uitdrukt in combinatie met drie argumenten: een AGENS in de nominatief, een THEMA in de accusatief en een RECIPIENS-achtig (“ONTVANGER”) argument. Het laatstgenoemde argument kan ofwel in de datief gerealiseerd worden, of door middel van een voorzetselconstituent ingeleid door an + accusatief (of ook zu + datief met de werkwoorden schicken en senden en hun complexe tegenhangers), wat respectievelijk resulteert in IOC of POC. Statistische analyses van 7400 zinnen uit DeReKo (IDS Mannheim), opgevraagd uit Duitse, Zwitserse en Oostenrijkse bronnen en uit Wikipedia, tonen aan dat de alternantie geassocieerd kan worden met een samenspel van meerdere factoren die gelijktijdig de alternantie beïnvloeden. Een belangrijke conclusie van het onderzoek is dat predictoren met betrekking tot het principe van “Harmonic Alignment” van de argumenten (volgens welke animate, pronominale, definiete, gegeven, korte argumenten voorafgaan aan inanimate, nominale, indefiniete, nieuwe en lange argumenten) met zekerheid een rol spelen in de alternantie, maar de analyse brengt ook aan het licht dat andere predictoren eveneens van belang zijn en dat “Harmonic Alignment” de Duitse data slechts gedeeltelijk kan verklaren. Afgezien van factoren zoals Casussyncretisme en Proprialiteit (d.i. eigennaam vs. soortnaam) van de ONTVANGER-rol, die te maken hebben met een tendens tot grotere transparantie in POC, zijn er eigenschappen, meer specifiek met betrekking tot het werkwoord, de drie denotationele klassen (concreet, abstract, propositioneel) en diverse gebruiksbetekenissen (Eng. “senses”), die belangrijk zijn voor een omvattende verklaring van de alternantie tussen IOC en POC. De alternantie blijkt bovendien in sterke mate werkwoordspecifiek te zijn. De studie toont op die manier aan dat de twee alternanten gesitueerd moeten worden op het raakvlak van semantiek en pragmatiek, wat een nauwkeurige analyse van de gecodeerde en geïnfereerde betekenissen vereist waarop de alternantie gebaseerd is. Naast de Probabilistische Aanpak die gebruikt wordt voor de analyse van de data, is het theoretisch kader van de studie een Integrale Aanpak, die in de analyse van morfosyntaxis en alternerende constructies zowel met constructionele als met projectionistische principes rekening houdt. Met het oog op betekenis (Engels “meaning” en “senses”) wordt een analyse volgens drie betekenisniveaus voorgesteld, waarin een verschil gemaakt wordt tussen gecodeerde inhouden (de semantiek stricto sensu) en geïnfereerde inhouden (het domein van de pragmatiek). Belangrijk is dat het pragmatische niveau verder gedifferentieerd wordt om de deels sterk geconventionaliseerde variatie in vorm en betekenis op het intermediaire niveau van ‘normaal taalgebruik’ te verklaren, in overeenstemming met de betekenistheorieën ontwikkeld door E. Coseriu en S. Levinson. IOC en POC worden niet beschouwd als twee op zich gecodeerde constructies in de Duitse grammatica, maar als twee pragmatisch gedefinieerde ‘allostructies’ van een overkoepelend algemeen ‘constructeem’, dat de AGENS-THEMA-DOEL-constructie genoemd wordt. Zowel de werkwoorden als het ‘constructeem’ dragen bij tot de alternantie met hun algemene, ondergespecificeerde betekenissen, maar ze worden op verschillende manieren verrijkt met encyclopedische kennis en een reeks factoren die tot de pragmatiek behoren. Op die manier wordt er aangetoond dat IOC en POC in verband gebracht kunnen worden met een groot aantal statistisch significante factoren die interageren met elkaar en met de AGENS-THEMA-DOEL-constructie, het ‘constructeem’ dat aan de grondslag van IOC en POC ligt

    A Rose is a Rose is a Rose

    Get PDF
    corecore