2,345 research outputs found

    Patrixa: A unification-based parser for Basque and its application to the automatic analysis of verbs

    Get PDF
    In this chapter we describe a computational grammar for Basque, and the first results obtained using it in the process of automatically acquiring subcategorization information about verbs and their associated sentence elements (arguments and adjuncts).In section 1 we describe the Basque syntax and the grammar we have developed for its treatment. The grammar is partial in the sense that it cannot recognize every sentence in real texts, but it is capable of describing the main syntactic elements, such as noun-phrases (NPs), prepositional phrases (PPs), and subordinate and simple sentences. This can be useful for several applications.In section 2 we explain the syntactic analyzer (or parser) used to automatically acquire information on verbal subcategorization from texts. The results will later be used by a linguist or processed by statistical filters.This work has been done by the IXA Natural Language Processing research group, centered on the application of automatic methods to the analysis of Basque

    D6.2 Integrated Final Version of the Components for Lexical Acquisition

    Get PDF
    The PANACEA project has addressed one of the most critical bottlenecks that threaten the development of technologies to support multilingualism in Europe, and to process the huge quantity of multilingual data produced annually. Any attempt at automated language processing, particularly Machine Translation (MT), depends on the availability of language-specific resources. Such Language Resources (LR) contain information about the language\u27s lexicon, i.e. the words of the language and the characteristics of their use. In Natural Language Processing (NLP), LRs contribute information about the syntactic and semantic behaviour of words - i.e. their grammar and their meaning - which inform downstream applications such as MT. To date, many LRs have been generated by hand, requiring significant manual labour from linguistic experts. However, proceeding manually, it is impossible to supply LRs for every possible pair of European languages, textual domain, and genre, which are needed by MT developers. Moreover, an LR for a given language can never be considered complete nor final because of the characteristics of natural language, which continually undergoes changes, especially spurred on by the emergence of new knowledge domains and new technologies. PANACEA has addressed this challenge by building a factory of LRs that progressively automates the stages involved in the acquisition, production, updating and maintenance of LRs required by MT systems. The existence of such a factory will significantly cut down the cost, time and human effort required to build LRs. WP6 has addressed the lexical acquisition component of the LR factory, that is, the techniques for automated extraction of key lexical information from texts, and the automatic collation of lexical information into LRs in a standardized format. The goal of WP6 has been to take existing techniques capable of acquiring syntactic and semantic information from corpus data, improving upon them, adapting and applying them to multiple languages, and turning them into powerful and flexible techniques capable of supporting massive applications. One focus for improving the scalability and portability of lexical acquisition techniques has been to extend exiting techniques with more powerful, less "supervised" methods. In NLP, the amount of supervision refers to the amount of manual annotation which must be applied to a text corpus before machine learning or other techniques are applied to the data to compile a lexicon. More manual annotation means more accurate training data, and thus a more accurate LR. However, given that it is impractical from a cost and time perspective to manually annotate the vast amounts of data required for multilingual MT across domains, it is important to develop techniques which can learn from corpora with less supervision. Less supervised methods are capable of supporting both large-scale acquisition and efficient domain adaptation, even in the domains where data is scarce. Another focus of lexical acquisition in PANACEA has been the need of LR users to tune the accuracy level of LRs. Some applications may require increased precision, or accuracy, where the application requires a high degree of confidence in the lexical information used. At other times a greater level of coverage may be required, with information about more words at the expense of some degree of accuracy. Lexical acquisition in PANACEA has investigated confidence thresholds for lexical acquisition to ensure that the ultimate users of LRs can generate lexical data from the PANACEA factory at the desired level of accuracy

    Metaphor and Senses

    Get PDF
    The book deals with the synesthetic metaphors in Synamet – a semantically and grammatically annotated corpus. The texts included in the corpus are excerpted from blogs devoted to, among others, perfume, wine, beer, music, art, massage and wellness. The thesis presents a Conceptual Metaphor Theory (CMT) and frame-based analysis of synesthetic metaphors in Polish. Using data from the corpus, the book provides ample empirical support for embodiment in metaphor and internal logic of mappings between frames. The study proposes new models of verbal synesthesia in the corpus and calls into question a universality of hierarchy of senses. This book should be of interest to researchers working within cognitive linguistics, in particular metaphor theory, frame semantics, corpus linguistics, and sensory science

    The marker yypothesis: a constructivist theory of language acquisition

    Get PDF
    This thesis presents a theory of the early stages of first language acquisition. Language is characterised as constituting an instructional environment - diachronic change in language serves to maintain and enhance sources of structural marking which act as salient cues that guide the development of linguistic representations in the child's brain. Language learning is characterised as a constructivist process in which the underlying grammatical representation and modular structure arise out of developmental processes. In particular, I investigate the role of closed-class elements in language which obtain salience through their high occurrence frequency and which serve to both label and segment useful grammatical units. I adopt an inter-disciplinary approach which encompasses analyses of child language and agrammatic speech, psycholinguistic data, the development of a developmental linguistic theory based on the Dependency Grammar formalism, and a number of computational investigations of spoken language corpora. I conclude that language development is highly interactionist and that in trying to understand the processes involved in learning we must begin with the child and not with the end-point of adult linguistic competence

    Hope For Syntactic Bootstrapping

    Get PDF
    We explore children’s use of syntactic distribution in the acquisition of attitude verbs, such as think, want, and hope. Because attitude verbs refer to concepts that are opaque to observation but have syntactic distributions predictive of semantic properties, we hypothesize that syntax may serve as an important cue to learning their meanings. Using a novel methodology, we replicate previous literature showing an asymmetry between acquisition of think and want, and we additionally demonstrate that interpretation of a less frequent attitude verb, hope, patterns with type of syntactic complement. This supports the view that children treat syntactic frame as informative about an attitude verb’s meaning

    Max Planck Institute for Psycholinguistics: Annual report 1996

    No full text

    Can humain association norm evaluate latent semantic analysis?

    Get PDF
    This paper presents the comparison of word association norm created by a psycholinguistic experiment to association lists generated by algorithms operating on text corpora. We compare lists generated by Church and Hanks algorithm and lists generated by LSA algorithm. An argument is presented on how those automatically generated lists reflect real semantic relations

    The Meaning of constructions : the Cognitive denial of the lexicon-syntax division

    Get PDF
    Niniejsza praca poświęcona jest analizie konstrukcji gramatycznych w ramach kognitywnego modelu Gramatyki Konstrukcji (Construction Grammar). Celem pracy jest wykazanie, że tradycyjny podział na leksykon i składnię (oraz na wyrazy leksykalne i funkcyjne) podany w wątpliwość w wielu najnowszych modelach językoznawczych, jest nadal aktualny i nie musi być sprzeczny z założeniami językoznawstwa kognitywnego. Opracowanie rewiduje przesłanki, którymi kierują się obecnie językoznawcy odrzucający podział na leksykon i składnię. Jedną z tych przesłanek, którą kwestionuje niniejsze opracowanie, jest rozmycie granic między leksykonem i składnią. Ważnym argumentem przemawiającym za odrzuceniem podziału są spostrzeżenia płynące z kognitywnych analiz konstrukcji gramatycznych, które wskazują na zdolność schematycznych konstrukcji do wyrażania złożonych i bogatych treści semantycznych. Takie zdolności semantyczne są sprzeczne z przyjętą charakterystyką form funkcyjnych, w myśl której formy te są ubogie w znaczenia albo wręcz ich pozbawione, ponieważ ich głównym zadaniem jest spełnianie funkcji gramatycznych. W ostatnich latach, autorzy wielu opisów konstrukcji gramatycznych przekonywali, że konstrukcje gramatyczne mają właśnie znaczenia typowe dla wyrazów leksykalnych. Niniejsza praca skupia się na szeregu konstrukcji gramatycznych i wykazuje, że najnowsze analizy konstrukcji, takich jak „x’s way” czy „time away,” przypisywały im przesadnie bogate znaczenia. Powtórna analiza zachowania tych form skłania do wniosku, że zawartość semantyczna konstrukcji jest dokładnie tak uboga i schematyczna, jak przewiduje to tradycyjna charakterystyka wyrazów funkcyjnych, podczas gdy bogate znaczenia obserwowane w ostatnich analizach są jedynie efektami pragmatycznymi wynikającymi ze specyfiki konkretnych kontekstów. Główna teza opracowania uzasadniona jest dyskusją o następującej strukturze. W rozdziałach 1 i 2, omówiony jest tradycyjny podział na leksykon i składnię, po czym przytoczone są argumenty autorów proponujących jego podważenie. Następnie dokonany jest przegląd cech odróżniających wyrazy leksykalne od funkcyjnych, przy założeniu, że znaczna liczba różnic między tymi grupami wskazuje na prawdziwość podziału na leksykon i składnię. Rozdział 3 zawiera krótkie opisy konstrukcji, z których kilka było już wcześniej analizowanych w literaturze kognitywno‑lingwistycznej. Niniejsza analiza dowodzi jednak, że konstrukcje nie wykazują się wyjątkowo bogatymi znaczeniami przypisywanymi im w dotychczasowych opracowaniach. W rozdziałach 4 i 5 przedstawione są dwie konstrukcje (t.j. manner of obtainment i x’s way), które opisane są pod kątem aspektualnej struktury ich znaczenia. Tutaj celem jest wykazanie, że treściwość konstrukcji nie wychodzi poza ramy możliwości złożeń schematów zdarzeniowych (event schemas). Rozdział 6 skupia się na przykładach sekwencji składniowych, które charakteryzują się wyjątkowo ciekawymi znaczeniami, dość nietypowymi dla skonwencjonalizowanych konstrukcji schematycznych, a zatem będącymi problemem dla głównej tezy opracowania. Jednak, zawarta w rozdziale analiza prowadzi do wniosku, że przedstawione przykłady nie są konstrukcjami gramatycznymi. Różnice między przypadkami omówionymi tutaj a konstrukcjami gramatycznymi pokazują, że formy, które na pierwszy rzut oka wydają się być wyjątkiem od reguły, w ostatecznym rozrachunku są jej potwierdzeniem
    corecore