Search CORE

5 research outputs found

Identificación de cláusulas y chunks para el Euskera, usando Filtrado y Ranking con el Perceptron

Author: Alegría Loinaz Iñaki
Arrieta Cortajarena Bertol
Carreras Pérez Xavier
Díaz de Ilarraza Sánchez Arantza
Uria Garin Larraitz
Publication venue: Sociedad Española para el Procesamiento del Lenguaje Natural
Publication date: 01/01/2008
Field of study

Este artículo presenta sistemas de identificación de chunks y cláusulas para el euskera, combinando gramáticas basadas en reglas con técnicas de aprendizaje automático. Más concretamente, se utiliza el modelo de Filtrado y Ranking con el Perceptron (Carreras, Màrquez y Castro, 2005): un modelo de aprendizaje que permite identificar estructuras sintácticas parciales en la oración, con resultados óptimos para estas tareas en inglés. Este modelo permite incorporar nuevos atributos, y posibilita así el uso de información de diferentes fuentes. De esta manera, hemos añadido información lingüística en los algoritmos de aprendizaje. Así, los resultados del identificador de chunks han mejorado considerablemente y se ha compensado la influencia del relativamente pequeño corpus de entrenamiento que disponemos para el euskera. En cuanto a la identificación de cláusulas, los primeros resultados no son demasiado buenos, debido probablemente al orden libre del euskera y al pequeño corpus del que disponemos actualmente.This paper presents systems for syntactic chunking and clause identification for Basque, combining rule-based grammars with machine-learning techniques. Precisely, we used Filtering-Ranking with Perceptrons (Carreras, Màrquez and Castro, 2005): a learning model that recognizes partial syntactic structures in sentences, obtaining state-of-the-art performance for these tasks in English. This model allows incorporating a rich set of features to represent syntactic phrases, making possible to use information from different sources. We used this property in order to include more linguistic features in the learning model and the results obtained in chunking have been improved greatly. This way, we have made up for the relatively small training data available for Basque to learn a chunking model. In the case of clause identification, our preliminary results are low, which suggest that this is due to the free order of Basque and to the small corpus available.Research partly funded by the Basque Government (Department of Education, University and Research, IT-397-07), the Spanish Ministry of Education and Science (TIN2007-63173) and the ETORTEK-ANHITZ project from the Basque Government (Department of Culture and Industry, IE06- 185)

Repositorio Institucional de la Universidad de Alicante

LAReferencia - Red Federada de Repositorios Institucionales de Publicaciones Científicas Latinoamericanas

Construcción de un corpus etiquetado sintácticamente para el euskera

Author: Aduriz Agirre Itziar
Aldezabal Roteta Izaskun
Aranzabe Urruzola María Jesús
Arrieta Cortajarena Bertol
Arriola Egurrola José María
Atutxa Salazar Aitziber
Díaz de Ilarraza Sánchez Arantza
Gojenola Galletebeitia Koldo
Oronoz Anchordoqui Maite
Sarasola Gabiola Kepa
Publication venue: Sociedad Española para el Procesamiento del Lenguaje Natural
Publication date: 01/01/2002
Field of study

El objetivo de este trabajo es la construcción de un corpus anotado sintácticamente para el euskera. En esta comunicación presentaremos, en primer lugar, las bases sobre las que se asienta nuestro etiquetado. Tras examinar diversas opciones se optó por el esquema presentado por (Carrol et al., 1998). Este esquema sigue los estándares EAGLES y se basa en la idea de añadir a cada frase del corpus una serie de relaciones gramaticales que especifican la dependencia existente entre el núcleo y sus modificadores. Una vez presentado el formalismo de etiquetado, se expondrán los problemas que hemos encontrado en nuestra tarea y las decisiones tomadas. Seguidamente se describirá un ejemplo concreto en el que se muestra la aplicación de dicho esquema sobre un corpus inicial. Finalmente, presentaremos las conclusiones sobre la idoneidad del esquema al euskera y trabajo futuro.The aim of this work is the construction of a syntactically annotated treebank for Basque. In this paper we present first, the basis of the annotation. After examining several options we chose the scheme presented in (Carrol et al., 1998). It follows the EAGLES standards and it is based on the idea of adding to each sentence in the corpus a series of grammatical relations specifying the dependencies between modifiers and their nucleus. After the formalism has been presented, we will describe the problems we have found and the decisions we have taken to solve them. Next we present an example showing the application of the scheme to an initial corpus. Finally, we present the main conclusions about the applicability to Basque and future work.Este trabajo se ha realizado dentro del proyecto "Construcción de una base de datos de árboles sintácticos y semánticos", subvencionado por el Ministerio de Educación y Ciencia (PROFIT: FIT-150500-2002-244)

Repositorio Institucional de la Universidad de Alicante

LAReferencia - Red Federada de Repositorios Institucionales de Publicaciones Científicas Latinoamericanas

Secretaría de Estado de Cultura

Errores en el uso de determinantes en euskera: análisis y detección automática

Author: Arrieta Cortajarena Bertol
Díaz de Ilarraza Sánchez Arantza
Maritxalar Anglada Montserrat
Oronoz Anchordoqui Maite
Uria Garin Larraitz
Publication venue: Sociedad Española para el Procesamiento del Lenguaje Natural
Publication date: 01/01/2009
Field of study

En este artículo presentamos un estudio realizado para analizar el uso incorrecto de los determinantes en textos escritos en euskera. El análisis exhaustivo de esta tipología de errores (a través de los ejemplos recopilados) ha sido la base para la detección automática de los mismos. La recopilación y el análisis de errores son imprescindibles para el desarrollo de un corrector gramatical para el euskera y para la creación de sistemas inteligentes de enseñanza de lenguas asistida por ordenador (ICALL).In this paper we present the work carried out to deeply study the nature of determiner errors in written Basque. The collected error examples have led us to a more exhaustive analysis which has been essential for the automatic detection of the exhibited phenomena. The analyzed and stored data are necessary for the development of a grammar checker for Basque and Intelligent Computer-Assisted Language Learning (ICALL) systems

Repositorio Institucional de la Universidad de Alicante

LAReferencia - Red Federada de Repositorios Institucionales de Publicaciones Científicas Latinoamericanas

Revista de psicodidáctica

Author: Aldabe Arregi Itziar
Arrieta Cortajarena Bertol
Díaz de Ilarraza Sánchez Arantza
Maritxalar Anglada Montserrat
Oronoz Anchordoqui Maite
Uria Garin Larraitz
Publication venue
Publication date: 01/01/2005
Field of study

Título, resumen y palabras clave en español y en inglésResumen basado en el de la publicaciónSe presenta una clasificación dinámica que ha sido definida con el objetivo de almacenar y clasificar errores. En concreto, los datos recopilados sirven como punto de partida para estudiar el proceso de aprendizaje del euskera y para llevar a cabo investigaciones en diversos campos de estudio como el Análisis de Errores (AE) y el Procesamiento del Lenguaje Natural (PLN). La clasificación que aquí se presenta se encuentra integrada en un conjunto de herramientas de PLN desarrolladas en el grupo IXA (EHU-UPV): por un lado, en la base de datos DESBIDERATZEAK, diseñada para recopilar información sobre el proceso de aprendizaje del euskera dentro del área del Aprendizaje y Enseñanza de Lenguas Asistido por Ordenador; y por otro, en la base de datos ERROREAK, creada para el estudio del tratamiento automático de errores con la idea de desarrollar un corrector gramatical y de estilo para la lengua vasca.ES

DSpace Redined

3LB: construcción de una base de datos de árboles sintáctico semánticos

Entidad financiera: MCyT (Proyecto PROFIT: FIT-150500-2002-411)

Repositorio Institucional de la Universidad de Alicante

LAReferencia - Red Federada de Repositorios Institucionales de Publicaciones Científicas Latinoamericanas