42 research outputs found
Patrixa: A unification-based parser for Basque and its application to the automatic analysis of verbs
In this chapter we describe a computational grammar for Basque, and the first results obtained using it in the process of automatically acquiring subcategorization information about verbs and their associated sentence elements (arguments and adjuncts).In section 1 we describe the Basque syntax and the grammar we have developed for its treatment. The grammar is partial in the sense that it cannot recognize every sentence in real texts, but it is capable of describing the main syntactic elements, such as noun-phrases (NPs), prepositional phrases (PPs), and subordinate and simple sentences. This can be useful for several applications.In section 2 we explain the syntactic analyzer (or parser) used to automatically acquire information on verbal subcategorization from texts. The results will later be used by a linguist or processed by statistical filters.This work has been done by the IXA Natural Language Processing research group, centered on the application of automatic methods to the analysis of Basque
Euskarako ezagutza-base lexiko-semantikoaren eredu-hautaketa eta garapena: EuskalWordNet
Natural Language Processing techniques need to develop lexical-semantic knowledge bases (LSKB) in order to perform semantic interpretation. The IXA group decided to develop a Basque LSKB called EuskalWordNet for this reason. EuskalWordNet is based on WordNet and its multilingual counterparts EuroWordNet and the Multilingual Central Repository (MCR). This paper reviews the theoretical and practical aspects of the EuskalWordNet LSKB, as well as the steps followed in its construction
EDBL: a General Lexical Basis for the Automatic Processing of Basque
EDBL (Euskararen Datu-Base Lexikala) is a general-purpose lexical database used in Basque text-processing tasks. It is a large repository of lexical knowledge (currently around 80,000 entries) that acts as basis and support in a number of different NLP tasks, thus providing lexical information for several language tools: morphological analysis, spell checking and correction, lemmatization and tagging, syntactic analysis, and so on. It has been designed to be neutral in relation to the different linguistic formalisms, and flexible and open enough to accept new types of information. A browser-based user interface makes the job of consulting the database, correcting and updating entries, adding new ones, etc. easy to the lexicographer. The paper presents the conceptual schema and the main features of the database, along with some problems encountered in its design and implementation in a commercial DBMS. Given the diversity of the lexical entities and the complex relationships existing among them, three total specializations have been defined under the main class of the hierarchy that represents the conceptual schema. The first one divides all the entries in EDBL into Basque standard and non-standard entries. The second divides the units in the database into dictionary entries (classified into the different parts-of-speech) and other entries (mainly non-independent morphemes and irregularly inflected forms). Finally, another total specialization has been established between single-word entries and multiword lexical units; this permits us to describe the morphotactics of single-word entries, and the constitution and surface realization schemas of multiword lexical units.A hierarchy of typed feature structures (FS) has been designed to map the entities and relationships in the database conceptual schema. The FSs are coded in TEI-conformant SGML, and Feature Structure Declarations (FSD) have been made for all the types of the hierarchy. Feature structures are used as a delivery format to export the lexical information from the database. The information coded in this way is subsequently used as input by the different language analysis tools
Euskarako ezagutza-base lexiko-semantikoaren eredu-hautaketa eta garapena: EuskalWordNet
Natural Language Processing techniques need to develop lexical-semantic knowledge bases (LSKB) in order to perform semantic interpretation. The IXA group decided to develop a Basque LSKB called EuskalWordNet for this reason. EuskalWordNet is based on WordNet and its multilingual counterparts EuroWordNet and the Multilingual Central Repository (MCR). This paper reviews the theoretical and practical aspects of the EuskalWordNet LSKB, as well as the steps followed in its construction
A methodology for the semiautomatic annotation of EPEC-RolSem, a basque corpus labeled at predicative level following the PropBank-Verb Net model
In this article we describe the methodology developed for the semiautomatic annotation of EPEC-RolSem, a Basque corpus labeled at predicate level following the PropBank-VerbNet model. The methodology presented is the product of detailed theoretical study of the semantic nature of verbs in Basque and of their similarities and differences with verbs in other languages. As part of the proposed methodology, we are creating a Basque lexicon on the PropBank-VerbNet model that we have named the Basque Verb Index (BVI). Our work thus dovetails the general trend toward building lexicons from tagged corpora that is clear in work conducted for other languages. EPEC-RolSem and BVI are two important resources for the computational semantic processing of Basque; as far as the authors are aware, they are also the first resources of their kind developed for Basque. In addition, each entry in BVI is linked to the corresponding verb-entry in well-known resources like PropBank, VerbNet, WordNet, Levin’s Classification and FrameNet. We have also implemented several automatic processes to aid in creating and annotating the BVI, including processes designed to facilitate the task of manual annotation.Lan honetan, EPEC-RolSem corpusa etiketatzeko jarraitu dugun metodologia deskribatuko dugu. EPEC-RolSem corpusa PropBank-VerbNet ereduari jarraiki predikatu-mailan etiketatutako euskarazko corpusa da. Etiketatze-lana aurrera eramateko euskal aditzen izaera semantikoa aztertu eta ingeleseko aditzekin konparatu dugu, azterketa horren emaitza da lan honetan proposatzen dugun metodologia. Metodologiaren atal bat PropBank-VerbNet eredura sortutako euskal aditzen lexikoiaren osaketa izan da, lexikoi hau Basque Verb Index (BVI) deitu dugu. Gure lanak alor honetan beste hizkuntzetan dagoen joera nagusia jarraitzen du, hau da, etiketatutako corpusetatik lexikoiak sortzea. EPEC-RolSem eta BVI oso baliabide garrantzitsuak dira euskararen semantika konputazionalaren alorrean, izan ere, euskararako sortutako mota honetako lehen baliabideak dira. Honetaz guztiaz gain, BVIko sarrera bakoitza PropBank, VerbNet, WordNet, Levinen sailkapena eta FrameNet bezalako baliabide ezagunekin lotua dago. Hainbat prozesu automatiko inplementatu ditugu EPEC-RolSem corpusaren eskuzko etiketatzea laguntzeko eta baita BVI sortzeko eta osatzeko ere
Corpusen etiketatze linguistikoa
In this article, we shall comment on the steps that have to be taken to give a linguistic label to a corpus and the difficulties that appear in this process. Our main objective was to highlight the importance of the labelling when preparing a corpus that is useful for linguistic research, and the need to establish criteria and to take the decisions that this entails. We also explain how semi-automatic methods are applied and how the manual revision that guarantees the quality of the corpus is carried out. Once the corpus has been revised and labelled, it will be useful both for carrying out linguistic analyses and for improving or assessing the linguistic tools and resources, and also for channelling automatic study
Corpusen etiketatze linguistikoa
In this article, we shall comment on the steps that have to be taken to give a linguistic label to a corpus and the difficulties that appear in this process. Our main objective was to highlight the importance of the labelling when preparing a corpus that is useful for linguistic research, and the need to establish criteria and to take the decisions that this entails. We also explain how semi-automatic methods are applied and how the manual revision that guarantees the quality of the corpus is carried out. Once the corpus has been revised and labelled, it will be useful both for carrying out linguistic analyses and for improving or assessing the linguistic tools and resources, and also for channelling automatic study
Construcción de un corpus etiquetado sintácticamente para el euskera
El objetivo de este trabajo es la construcción de un corpus anotado sintácticamente
para el euskera. En esta comunicación presentaremos, en primer lugar, las bases sobre las que se
asienta nuestro etiquetado. Tras examinar diversas opciones se optó por el esquema presentado
por (Carrol et al., 1998). Este esquema sigue los estándares EAGLES y se basa en la idea de
añadir a cada frase del corpus una serie de relaciones gramaticales que especifican la
dependencia existente entre el núcleo y sus modificadores. Una vez presentado el formalismo de
etiquetado, se expondrán los problemas que hemos encontrado en nuestra tarea y las decisiones
tomadas. Seguidamente se describirá un ejemplo concreto en el que se muestra la aplicación de
dicho esquema sobre un corpus inicial. Finalmente, presentaremos las conclusiones sobre la
idoneidad del esquema al euskera y trabajo futuro.The aim of this work is the construction of a syntactically annotated treebank for
Basque. In this paper we present first, the basis of the annotation. After examining several
options we chose the scheme presented in (Carrol et al., 1998). It follows the EAGLES
standards and it is based on the idea of adding to each sentence in the corpus a series of
grammatical relations specifying the dependencies between modifiers and their nucleus. After
the formalism has been presented, we will describe the problems we have found and the
decisions we have taken to solve them. Next we present an example showing the application of
the scheme to an initial corpus. Finally, we present the main conclusions about the applicability
to Basque and future work.Este trabajo se ha realizado dentro del proyecto
"Construcción de una base de datos de árboles
sintácticos y semánticos", subvencionado por el
Ministerio de Educación y Ciencia (PROFIT:
FIT-150500-2002-244)
Estudio de la subcategorización verbal vasca, desde la sintaxis parcial hacia la sintaxis profunda. Análisis de 100 verbos vascos, basándose en Levin (1993) y utilizando métodos automáticos
329 p.En esta tesis se hace una propuesta inicial de las caracterÃsticas léxicas
necesarias para la definición de la subcategorización de un verbo, tomando
como punto de partida el trabajo de Levin (1993), y haciendo uso de métodos
automáticos.
La finalidad de este trabajo es enriquecer el léxico computacional y ofrecer
una buena base para facilitar las diferentes tareas de realizar en otros
niveles lingüÃsticos tales como la sintáxis, la semántica etc; centrándonos
concretamente en las siguientes: desambiguación de casos y funciones, desambiguación
de estructuras sintácticas, y establecimiento de los lÃmites entre las
oraciones.
Se ha tomado como punto de partida el trabajo de Levin (1993) por considerarse
su metodologÃa la más adecuada para aplicarla desde una perspectiva computacional,
ya que parte de las estructuras sintácticas para luego hacer grupos semánticamente
coherentes basándose en éstas.
Sin embargo, el trabajo de esta autora no carece de problemas. AsÃ, antes
las inconsistencias detectadas, se ha establecido un proceso de trabajo
propio: se ha definido el concepto de alternancia, se han analizado las
alternancias del trabajo de Levin (1993) para el euskera según dicha definición,
y como conclusión se ha visto necesario definir lo que hemos denominado
valores sintáctico/semánticos (vss) de cada verbo como realización subcategorial.
Y para ello hemos realizado un estudio de 100 verbos vascos basándonos
en corpus reales. En definitiva, la propuesta inicial que se hace en esta
tesis es fruto de la combinación de los tres trabajos: los datos estadÃsticos
proporcinados por las herramientas informáticas, el estudio teórico, y
la casuistica y fenomenologÃa encontrada en el trabajo descriptivo del
corpus.
Junto a ello, proponemos lÃneas de trabajo aplicables en la estracción
de subcaterogrización, asà como pautas a seguir en el estudio de más verbos
Estudio de la subcategorización verbal vasca, desde la sintaxis parcial hacia la sintaxis profunda. Análisis de 100 verbos vascos, basándose en Levin (1993) y utilizando métodos automáticos
329 p.En esta tesis se hace una propuesta inicial de las caracterÃsticas léxicas
necesarias para la definición de la subcategorización de un verbo, tomando
como punto de partida el trabajo de Levin (1993), y haciendo uso de métodos
automáticos.
La finalidad de este trabajo es enriquecer el léxico computacional y ofrecer
una buena base para facilitar las diferentes tareas de realizar en otros
niveles lingüÃsticos tales como la sintáxis, la semántica etc; centrándonos
concretamente en las siguientes: desambiguación de casos y funciones, desambiguación
de estructuras sintácticas, y establecimiento de los lÃmites entre las
oraciones.
Se ha tomado como punto de partida el trabajo de Levin (1993) por considerarse
su metodologÃa la más adecuada para aplicarla desde una perspectiva computacional,
ya que parte de las estructuras sintácticas para luego hacer grupos semánticamente
coherentes basándose en éstas.
Sin embargo, el trabajo de esta autora no carece de problemas. AsÃ, antes
las inconsistencias detectadas, se ha establecido un proceso de trabajo
propio: se ha definido el concepto de alternancia, se han analizado las
alternancias del trabajo de Levin (1993) para el euskera según dicha definición,
y como conclusión se ha visto necesario definir lo que hemos denominado
valores sintáctico/semánticos (vss) de cada verbo como realización subcategorial.
Y para ello hemos realizado un estudio de 100 verbos vascos basándonos
en corpus reales. En definitiva, la propuesta inicial que se hace en esta
tesis es fruto de la combinación de los tres trabajos: los datos estadÃsticos
proporcinados por las herramientas informáticas, el estudio teórico, y
la casuistica y fenomenologÃa encontrada en el trabajo descriptivo del
corpus.
Junto a ello, proponemos lÃneas de trabajo aplicables en la estracción
de subcaterogrización, asà como pautas a seguir en el estudio de más verbos