3,505 research outputs found

    Treebank-based acquisition of a Chinese lexical-functional grammar

    Get PDF
    Scaling wide-coverage, constraint-based grammars such as Lexical-Functional Grammars (LFG) (Kaplan and Bresnan, 1982; Bresnan, 2001) or Head-Driven Phrase Structure Grammars (HPSG) (Pollard and Sag, 1994) from fragments to naturally occurring unrestricted text is knowledge-intensive, time-consuming and (often prohibitively) expensive. A number of researchers have recently presented methods to automatically acquire wide-coverage, probabilistic constraint-based grammatical resources from treebanks (Cahill et al., 2002, Cahill et al., 2003; Cahill et al., 2004; Miyao et al., 2003; Miyao et al., 2004; Hockenmaier and Steedman, 2002; Hockenmaier, 2003), addressing the knowledge acquisition bottleneck in constraint-based grammar development. Research to date has concentrated on English and German. In this paper we report on an experiment to induce wide-coverage, probabilistic LFG grammatical and lexical resources for Chinese from the Penn Chinese Treebank (CTB) (Xue et al., 2002) based on an automatic f-structure annotation algorithm. Currently 96.751% of the CTB trees receive a single, covering and connected f-structure, 0.112% do not receive an f-structure due to feature clashes, while 3.137% are associated with multiple f-structure fragments. From the f-structure-annotated CTB we extract a total of 12975 lexical entries with 20 distinct subcategorisation frame types. Of these 3436 are verbal entries with a total of 11 different frame types. We extract a number of PCFG-based LFG approximations. Currently our best automatically induced grammars achieve an f-score of 81.57% against the trees in unseen articles 301-325; 86.06% f-score (all grammatical functions) and 73.98% (preds-only) against the dependencies derived from the f-structures automatically generated for the original trees in 301-325 and 82.79% (all grammatical functions) and 67.74% (preds-only) against the dependencies derived from the manually annotated gold-standard f-structures for 50 trees randomly selected from articles 301-325

    Dependency parsing resources for French: Converting acquired lexical functional grammar F-Structure annotations and parsing F-Structures directly

    Get PDF
    Recent years have seen considerable success in the generation of automatically obtained wide-coverage deep grammars for natural language processing, given reliable and large CFG-like treebanks. For research within Lexical Functional Grammar framework, these deep grammars are typically based on an extended PCFG parsing scheme from which dependencies are extracted. However, increasing success in statistical dependency parsing suggests that such deep grammar approaches to statistical parsing could be streamlined. We explore this novel approach to deep grammar parsing within the framework of LFG in this paper, for French, showing that best results (an f-score of 69.46) for the established integrated architecture may be obtained for French

    ANNOTATION MODEL FOR LOANWORDS IN INDONESIAN CORPUS: A LOCAL GRAMMAR FRAMEWORK

    Get PDF
    There is a considerable number for loanwords in Indonesian language as it has been, or even continuously, in contact with other languages. The contact takes place via different media; one of them is via machine readable medium. As the information in different languages can be obtained by a mouse click these days, the contact becomes more and more intense. This paper aims at proposing an annotation model and lexical resource for loanwords in Indonesian. The lexical resource is applied to a corpus by a corpus processing software called UNITEX. This software works under local grammar framewor

    Chinese Causative Resultative V-Vs and Their Acquisition by L1 European Portuguese Learners

    Get PDF
    The Chinese Causative Resultative V-Vs (CR V-Vs) express caused-result events, with the component denoting the Manner (causing eventuality) and the one encoding the Result in adjacency. They constitute an interesting construction since they exhibit both lexical and syntactic properties, show thematic flexibility, and sometimes are semantically ambiguous. In previous studies, authors generally fell into one of the following two groups: some claim that CR V-Vs are formed on the lexical level, while others claim that CR V-Vs are formed on the syntactic level. In this study, within the framework of the Minimalist Program and under the assumptions of Distributed Morphology, we attempt to provide an account that can explain CR V-Vs’ properties holistically, including lexical properties such as V-V integrity and the “small size” constraint, and syntactic properties such as productivity and semantic compositionality, as well as other observed constraints such as the semantic constraint on V2 and the constraints related to causative alternation. More importantly, the syntactic structure we propose can account for the thematic flexibility and the semantic ambiguity of some CR V-Vs, which have attracted a lot of attention and imposed difficulty for explanation in the literature. In particular, we propose that Chinese CR V-Vs involve the head vCAUSE. The Mannerdenoting root conflates to it as an adjunct, and the Result-denoting root is incorporated to it as its Complement. Contrastingly, Portuguese does not allow either Manner Conflation or rootselecting vCAUSE. Therefore, for L1 Portuguese learners to acquire L2 Chinese CR V-Vs, parameter resetting will be required. To find out the accessibility of Universal Grammar (UG), the role of L1, and the attainability of parameter resetting in L2 acquisition, we conducted an experiment with 27 L1 Portuguese speakers learning Chinese as L2 (intermediate to advanced level) and 27 Chinese native speakers. The experiment includes three tasks: a semi-elicited production task (SPT), a grammaticality judgment task (GJT), and a comprehension task (CT). Results show a general positive developmental trend in CR V-Vs’ production and comprehension and successful acquisition of some CR V-V constraints, which is a strong argument for UG access. Nativelike performance is observed in some L2 learners’ responses in the SPT and CT, showing the attainability of parameter resetting. L1 transfer of both lexical properties and functional categories has been detected. However, some apparent evidence of L1 transfer of functional category properties is ambiguous because they can also be interpreted as evidence of UG access (similar to L1 acquisition). In general, the results of our study support an argument in favor of the Full Transfer Full Access hypothesis (Schwartz & Sprouse, 1994, 1996) of L2 acquisition. Nevertheless, the results of our study are not exclusively successful. We find that different aspects of the L2 grammars form a hierarchy of acquisition difficulty. While the L2 learners were successful in acquiring properties such as the V2 constraint, the V-V integrity, and the causative alternation constraints, they did not show sensitivity to constraints such as the V-V adjacency, and proficiency effect was not detected. It seems that parameter resetting does not guarantee successful acquisition. We attribute the L2 grammar variations to factors such as the Feature Reassembly (Lardiere, 2005, 2008, 2009a, b), processing difficulties, and the input quality. The L2 acquisition process is more complicated than selecting the correct values for parameters. The learners should also learn how the bundles of features are realized in L2, namely, the Feature Reassembly. Moreover, since frequency plays an important role in efficient acquisition (see Yang, 2010), the processing difficulty and the ambiguous input may complicate the acquisition process and decrease the acquisition efficiency. When the natural input quality is poor, explicit instruction may be needed to help. Furthermore, we hypothesize that the Bottleneck Hypothesis (Slabakova, 2009, 2014, 2016, 2019) and the distinction between macroparameters and microparameters (Baker, 2008; Slabakova, 2019; Tsimpli, 2014) may also provide an explanation: the acquisition of microparameters is more difficult than that of the macroparameters; the core syntax and semantics come easily, but the functional morphology imposes the most difficulties.As sequências de verbos Causativos Resultativos V-V em Chinês (CR V-Vs) expressam eventos resultado-causado, com o componente que denota a Maneira (que causa eventualidade) e aquele que codifica o Resultado a ocorrem em adjacência. É uma construção interessante, uma vez que exibe propriedades lexicais e sintáticas particulares, mostra flexibilidade temática e às vezes é semanticamente ambígua. Em estudos anteriores, os autores dividiram-se geralmente em dois grupos: alguns afirmam que os CR V-Vs são formados no léxico, enquanto outros defendem que os CR V-Vs são formados na sintaxe. Neste estudo, dentro do quadro teórico do Programa Minimalista e sob os pressupostos da Morfologia Distribuída, tentamos fornecer uma abordagem que pode explicar as propriedades CR V-Vs de forma holística, incluindo propriedades lexicais, como a integridade e a restrição de “tamanho”, e propriedades sintáticas, como a produtividade e a composicionalidade semântica, bem como outras restrições observadas, tal como a restrição semântica sobre V2 e as restrições relacionadas com a alternância causativa. Além disso, a nossa proposta pode explicar a flexibilidade temática e a ambiguidade semântica de alguns CR V-Vs, que sido objeto de amplo debate na literatura. Em particular, propomos que os CR V-Vs chineses envolvem o núcleo vCAUSE. A raiz (root) que denota Maneira funde-se (Conflate) com vCAUSE como um adjunto e a raiz que denota Resultado é incorporada (Incorporate) em vCAUSE como seu Complemento. Em contraste, o português não permite Manner Conflation nem a opção root-selecting de vCAUSE. Portanto, para que os alunos de L1 português e L2 chinês adquiram os CR V-Vs, será necessário refixar os parâmetros. Para explorar as questões de acessibilidade à Gramática Universal (GU), o papel da L1 e a possibilidade de refixação de parâmetros na aquisição de L2, levámos a cabo um experiência com 27 falantes de L1 português aprendentes de chinês como L2 (nível intermédio a avançado) e 27 falantes nativos de chinês. A experiência inclui três tarefas: uma Tarefa de Produção Semi- Induzida (SPT), uma Tarefa de Julgamento de Grammaticidade (GJT) e uma Tarefa de Compreensão (CT). Os resultados mostram, na generalidade, uma tendência de desenvolvimento positivo na produção e compreensão dos CR V-Vs e a aquisição de algumas restrições das construções CR V-Vs, o que é um forte argumento a favor da acessibilidade à UG. Observa-se um desempenho semelhante ao dos nativos nas respostas dos aprendentes L2 na SPT e na CT, o que favorece a hipótese de refixação de parâmetros. A transferência das propriedades lexicais e das categorias funcionais da L1 foi detectada. No entanto, algumas evidências aparentes de transferência L1 de propriedades das categorias funcionais são ambíguas porque também podem ser interpretadas como evidências de acesso à UG (semelhante à aquisição de L1). Em geral, os resultados do nosso estudo constituem um argumento a favor da hipótese Full Transfer Full Access (Schwartz & Sprouse, 1994, 1996) da aquisição de L2. Contudo, os resultados do nosso estudo não apontam todos para uma aquisição com sucesso. Descobrimos que diferentes aspectos da gramática da L2 formam uma hierarquia de dificuldade de aquisição. Enquanto os aprendentes da L2 foram bem sucedidos na aquisição de propriedades como a restrição V2, a integridade V-V e as restrições de alternância causativas, não mostraram sensibilidade a restrições como a adjacência V-V, e nao foi detectado qualquer efeito de proficiência (entre o nível intermédio e o avançado). É possível que a refixação de parâmetros não garanta uma aquisição bem sucedida. Atribuímos as variações da gramática L2 a fatores como a reconfiguração de traços (Feature Reassembly Hypothesis, Lardiere, 2005, 2008, 2009a, b), dificuldades de processamento e a qualidade do input. O processo de aquisição da L2 é mais complicado do que apenas selecionar os valores corretos para os parâmetros. Os aprendentes também devem aprender como são configurados os traços na L2, nomeadamente, tendo em conta a Feature Reassembly Hypothesis. Além disso, uma vez que a frequência desempenha um papel importante na aquisição (veja-se Yang, 2010), a dificuldade de processamento e o input ambíguo podem tornar complexo o processo e diminuir a eficácia da aquisição. Quando a qualidade do input natural é deficiente, as instruções explícitas podem ajudar. Além disso, a Bottleneck Hypothesis (Slabakova, 2009, 2014, 2016, 2019) e a distinção entre macroparâmetros e microparâmetros (Baker, 2008; Slabakova, 2019; Tsimpli, 2014) também podem fornecer uma explicação: a aquisição de microparâmetros é mais difícil que a de macroparâmetros; a sintaxe e a semântica essenciais adquirem-se facilmente, mas a morfologia funcional impõe maiores dificuldades
    corecore