2,345 research outputs found
Patrixa: A unification-based parser for Basque and its application to the automatic analysis of verbs
In this chapter we describe a computational grammar for Basque, and the first results obtained using it in the process of automatically acquiring subcategorization information about verbs and their associated sentence elements (arguments and adjuncts).In section 1 we describe the Basque syntax and the grammar we have developed for its treatment. The grammar is partial in the sense that it cannot recognize every sentence in real texts, but it is capable of describing the main syntactic elements, such as noun-phrases (NPs), prepositional phrases (PPs), and subordinate and simple sentences. This can be useful for several applications.In section 2 we explain the syntactic analyzer (or parser) used to automatically acquire information on verbal subcategorization from texts. The results will later be used by a linguist or processed by statistical filters.This work has been done by the IXA Natural Language Processing research group, centered on the application of automatic methods to the analysis of Basque
D6.2 Integrated Final Version of the Components for Lexical Acquisition
The PANACEA project has addressed one of the most critical bottlenecks that threaten the development of technologies to support multilingualism in Europe, and to process the huge quantity of multilingual data produced annually. Any attempt at automated language processing, particularly Machine Translation (MT), depends on the availability of language-specific resources. Such Language Resources (LR) contain information about the language\u27s lexicon, i.e. the words of the language and the characteristics of their use. In Natural Language Processing (NLP), LRs contribute information about the syntactic and semantic behaviour of words - i.e. their grammar and their meaning - which inform downstream applications such as MT. To date, many LRs have been generated by hand, requiring significant manual labour from linguistic experts. However, proceeding manually, it is impossible to supply LRs for every possible pair of European languages, textual domain, and genre, which are needed by MT developers. Moreover, an LR for a given language can never be considered complete nor final because of the characteristics of natural language, which continually undergoes changes, especially spurred on by the emergence of new knowledge domains and new technologies. PANACEA has addressed this challenge by building a factory of LRs that progressively automates the stages involved in the acquisition, production, updating and maintenance of LRs required by MT systems. The existence of such a factory will significantly cut down the cost, time and human effort required to build LRs. WP6 has addressed the lexical acquisition component of the LR factory, that is, the techniques for automated extraction of key lexical information from texts, and the automatic collation of lexical information into LRs in a standardized format. The goal of WP6 has been to take existing techniques capable of acquiring syntactic and semantic information from corpus data, improving upon them, adapting and applying them to multiple languages, and turning them into powerful and flexible techniques capable of supporting massive applications. One focus for improving the scalability and portability of lexical acquisition techniques has been to extend exiting techniques with more powerful, less "supervised" methods. In NLP, the amount of supervision refers to the amount of manual annotation which must be applied to a text corpus before machine learning or other techniques are applied to the data to compile a lexicon. More manual annotation means more accurate training data, and thus a more accurate LR. However, given that it is impractical from a cost and time perspective to manually annotate the vast amounts of data required for multilingual MT across domains, it is important to develop techniques which can learn from corpora with less supervision. Less supervised methods are capable of supporting both large-scale acquisition and efficient domain adaptation, even in the domains where data is scarce. Another focus of lexical acquisition in PANACEA has been the need of LR users to tune the accuracy level of LRs. Some applications may require increased precision, or accuracy, where the application requires a high degree of confidence in the lexical information used. At other times a greater level of coverage may be required, with information about more words at the expense of some degree of accuracy. Lexical acquisition in PANACEA has investigated confidence thresholds for lexical acquisition to ensure that the ultimate users of LRs can generate lexical data from the PANACEA factory at the desired level of accuracy
Metaphor and Senses
The book deals with the synesthetic metaphors in Synamet – a semantically and grammatically annotated corpus. The texts included in the corpus are excerpted from blogs devoted to, among others, perfume, wine, beer, music, art, massage and wellness. The thesis presents a Conceptual Metaphor Theory (CMT) and frame-based analysis of synesthetic metaphors in Polish. Using data from the corpus, the book provides ample empirical support for embodiment in metaphor and internal logic of mappings between frames. The study proposes new models of verbal synesthesia in the corpus and calls into question a universality of hierarchy of senses. This book should be of interest to researchers working within cognitive linguistics, in particular metaphor theory, frame semantics, corpus linguistics, and sensory science
The marker yypothesis: a constructivist theory of language acquisition
This thesis presents a theory of the early stages of first language acquisition. Language is
characterised as constituting an instructional environment - diachronic change in language
serves to maintain and enhance sources of structural marking which act as salient cues that
guide the development of linguistic representations in the child's brain. Language learning is
characterised as a constructivist process in which the underlying grammatical representation
and modular structure arise out of developmental processes. In particular, I investigate the
role of closed-class elements in language which obtain salience through their high occurrence
frequency and which serve to both label and segment useful grammatical units. I adopt an
inter-disciplinary approach which encompasses analyses of child language and agrammatic
speech, psycholinguistic data, the development of a developmental linguistic theory based on
the Dependency Grammar formalism, and a number of computational investigations of
spoken language corpora. I conclude that language development is highly interactionist and
that in trying to understand the processes involved in learning we must begin with the child
and not with the end-point of adult linguistic competence
Hope For Syntactic Bootstrapping
We explore children’s use of syntactic distribution in the acquisition of attitude verbs, such as think, want, and hope. Because attitude verbs refer to concepts that are opaque to observation but have syntactic distributions predictive of semantic properties, we hypothesize that syntax may serve as an important cue to learning their meanings. Using a novel methodology, we replicate previous literature showing an asymmetry between acquisition of think and want, and we additionally demonstrate that interpretation of a less frequent attitude verb, hope, patterns with type of syntactic complement. This supports the view that children treat syntactic frame as informative about an attitude verb’s meaning
Can humain association norm evaluate latent semantic analysis?
This paper presents the comparison of word association norm created by a psycholinguistic experiment to association lists generated by algorithms operating on text corpora. We compare lists generated by Church and Hanks algorithm and lists generated by LSA algorithm. An argument is presented on how those automatically generated lists reflect real semantic relations
The Meaning of constructions : the Cognitive denial of the lexicon-syntax division
Niniejsza praca poświęcona jest analizie konstrukcji gramatycznych w ramach kognitywnego
modelu Gramatyki Konstrukcji (Construction Grammar). Celem pracy jest
wykazanie, że tradycyjny podział na leksykon i składnię (oraz na wyrazy leksykalne
i funkcyjne) podany w wątpliwość w wielu najnowszych modelach językoznawczych,
jest nadal aktualny i nie musi być sprzeczny z założeniami językoznawstwa kognitywnego.
Opracowanie rewiduje przesłanki, którymi kierują się obecnie językoznawcy
odrzucający podział na leksykon i składnię. Jedną z tych przesłanek, którą kwestionuje
niniejsze opracowanie, jest rozmycie granic między leksykonem i składnią. Ważnym
argumentem przemawiającym za odrzuceniem podziału są spostrzeżenia płynące
z kognitywnych analiz konstrukcji gramatycznych, które wskazują na zdolność schematycznych
konstrukcji do wyrażania złożonych i bogatych treści semantycznych. Takie
zdolności semantyczne są sprzeczne z przyjętą charakterystyką form funkcyjnych,
w myśl której formy te są ubogie w znaczenia albo wręcz ich pozbawione, ponieważ ich
głównym zadaniem jest spełnianie funkcji gramatycznych. W ostatnich latach, autorzy
wielu opisów konstrukcji gramatycznych przekonywali, że konstrukcje gramatyczne
mają właśnie znaczenia typowe dla wyrazów leksykalnych. Niniejsza praca skupia się
na szeregu konstrukcji gramatycznych i wykazuje, że najnowsze analizy konstrukcji,
takich jak „x’s way” czy „time away,” przypisywały im przesadnie bogate znaczenia.
Powtórna analiza zachowania tych form skłania do wniosku, że zawartość semantyczna
konstrukcji jest dokładnie tak uboga i schematyczna, jak przewiduje to tradycyjna
charakterystyka wyrazów funkcyjnych, podczas gdy bogate znaczenia obserwowane
w ostatnich analizach są jedynie efektami pragmatycznymi wynikającymi ze specyfiki
konkretnych kontekstów.
Główna teza opracowania uzasadniona jest dyskusją o następującej strukturze.
W rozdziałach 1 i 2, omówiony jest tradycyjny podział na leksykon i składnię, po
czym przytoczone są argumenty autorów proponujących jego podważenie. Następnie
dokonany jest przegląd cech odróżniających wyrazy leksykalne od funkcyjnych, przy
założeniu, że znaczna liczba różnic między tymi grupami wskazuje na prawdziwość
podziału na leksykon i składnię. Rozdział 3 zawiera krótkie opisy konstrukcji, z których
kilka było już wcześniej analizowanych w literaturze kognitywno‑lingwistycznej.
Niniejsza
analiza dowodzi jednak, że konstrukcje nie wykazują się wyjątkowo bogatymi
znaczeniami przypisywanymi im w dotychczasowych opracowaniach. W rozdziałach 4
i 5 przedstawione są dwie konstrukcje (t.j. manner of obtainment i x’s way), które opisane są pod kątem aspektualnej struktury ich znaczenia. Tutaj celem jest wykazanie, że
treściwość konstrukcji nie wychodzi poza ramy możliwości złożeń schematów zdarzeniowych
(event schemas). Rozdział 6 skupia się na przykładach sekwencji składniowych,
które charakteryzują się wyjątkowo ciekawymi znaczeniami, dość nietypowymi dla
skonwencjonalizowanych konstrukcji schematycznych, a zatem będącymi problemem
dla głównej tezy opracowania. Jednak, zawarta w rozdziale analiza prowadzi do
wniosku, że przedstawione przykłady nie są konstrukcjami gramatycznymi. Różnice
między przypadkami omówionymi tutaj a konstrukcjami gramatycznymi pokazują, że
formy, które na pierwszy rzut oka wydają się być wyjątkiem od reguły, w ostatecznym
rozrachunku są jej potwierdzeniem
- …