5 research outputs found

    Nested mention detection in Spanish based on expansion

    Get PDF
    La detección de menciones es el primer módulo utilizado en los sistemas de resolución de la correferencia. Debido a que los errores se van acarreando de un módulo a otro, es importante que los resultados obtenidos por este módulo sean los mejores posibles. Dentro del campo de la detección de menciones, las menciones anidadas son las más difíciles de detectar. En este artículo presentamos un sistema de detección de menciones anidadas basado en expansión, un nuevo modelo de detección de elementos de Procesamiento de Lenguaje Natural anidados basado en aprendizaje automático. Los resultados obtenidos por nuestro sistema son superiores al 72 % de medida-F en el corpus AnCora. No podemos comparar directamente nuestros resultados con otros sistemas debido a que no existen como tales, pero si comparamos la medida-F media obtenida por otros sistemas en la detección de todo tipo de menciones (no solo menciones anidadas), y que nosotros estamos tratando con las menciones más difíciles, conseguimos resultados favorables.Mention detection is the first module used in coreference resolution systems. Due to that, it is important that the results obtained by this module are as high as possible. Within the field of mention detection, nested mentions are the most difficult ones to detect. In this paper, we present a nested mention detection system based on expansion, a new model for detecting nested elements in NLP based on machine learning. The results obtained by our system are above the 72 % in F-measure in AnCora corpus. We can not compare directly our results with other systems, since there are not exist, but if we consider that the average F-measure obtained by other systems for all mention (not only nested mentions), and that we are dealing with the most difficult mentions, we achieve good results.Este artículo está parcialmente financiado por el Ministerio de Ciencia e Innovación - Gobierno de España (beca no. TIN2009-13391-C04-01), y Conselleria d’Educació - Generalitat Valenciana (beca no. PROMETEO/2009/119)

    Aprendizaje automático para el reconocimiento temporal multilingüe basado en TiMBL

    Get PDF
    Este artículo presenta un sistema basado en aprendizaje automático para el reconocimiento de expresiones temporales. El sistema utiliza la aplicación TiMBL, la cual consiste en un sistema de aprendizaje automático basado en memoria. La portabilidad que presenta este sistema hacia otros idiomas nuevos posee un coste muy reducido, ya que prácticamente no requiere de ningún recurso dependiente del lenguaje (únicamente requiere un tokenizador y un desambiguador léxico categorial, aunque la carencia del POS tagger no repercute mucho en los resultados finales del sistema). Este sistema ha sido evaluado para tres idiomas distintos: inglés, español e italiano. La evaluación realizada presenta resultados satisfactorios para corpus que contienen un gran número de ejemplos, mientras que obtiene resultados bastante pobres en aquellos corpus que contienen pocos ejemplos.This paper presents a Machine Learning-based system for temporal expression recognition. The system uses the TiMBL application, which is a memory-based machine learning system. The portability of the system to other new languages has a very low cost, because it does not need any dependent language resource (only requires a tokenizer and a POS tagger, although the lack in POS tagger does not have enough repercussions on the final system results). This systems has been evaluated on three different languages: English, Spanish and Italian. The evaluation results are quite successful for corpus having a lot of examples; however it obtains very poor results with corpus that have only a few examples.Esta investigación ha sido parcialmente financiada bajo los proyectos QALL-ME (FP6-IST- 033860), TEXT-MESS (TIN-2006-15265-C06-01) y GV06/028; y bajo la beca de investigación BFPI06/18

    Multilingual extension of temporal expression recognition using parallel corpora

    Get PDF
    This paper presents the automatic extension of TERSEO to other languages, a knowledge-based system for the recognition and normalization of temporal expressions, originally developed for Spanish. TERSEO was extended to English and Italian through the automatic translation of the temporal expressions, and it was presented in previous works (see Saquete et al. (2004a)), but a new methodology has been designed with the purpose of obtaining better results in this issue. This new methodology is based on the use of parallel corpora for extending the TERSEO temporal model to other languages. In this case, two different methods have been tested: (1) automatic translation of TERSEO patterns to other languages and (2) automatic corpora annotation in the target side of parallel corpora. The main idea is focused on annotating the Spanish side of a parallel corpora, projecting the analysis to the second language, and then obtaining new TERSEO patterns (1) and new annotated corpus (2). The set of new patterns will be used to improve the current TERSEO language independent modules. Whereas the new annotated corpus will be used to train a ML system. This system will annotate new temporal expressions in the new language.This work has been suported by the Generalitat Valenciana throught the research grant BFPI06/182 and the project GV06/028 (Tratamiento bilingüe Valenciano-Castellano de preguntas temporales complejas en los sistemas de búsqueda de respuestas), the Spanish Ministery of Science and Technology (project TIN2006-15265-C06-01: TEXT-MESS - Knowledge discovery and Representation in Human Language Technology) and the European Union (project FP6-IST-2005-33860: QALL-ME - Question answering learning technologies in a multilingual and multimodal environment)

    AQA: un modelo de anotación anafórico multilingüe para búsqueda de respuestas

    Get PDF
    En este trabajo presentamos AQA, un modelo multilingüe de anotación de expresiones anafóricas, ideado para ser utilizado en Aprendizaje Automático para mejorar los sistemas de Búsqueda de Repuestas. Con este modelo se ha anotado la colección de preguntas-respuestas del CLEF 2008, concretamente en los idiomas español, italiano e inglés. AQA está inspirado en el meta-modelo MATE, ajustado a nuestras necesidades. Con AQA se especifica la relación entre la anáfora y su antecedente (que puede ser directa o indirecta), las agrupaciones por tópico y cambios de subtópico, así como diferentes tipos de anáforas (pronominal, adverbial, superficial, descripciones definidas y elipsis). Se ha realizado una anotación ciega entre dos anotadores más un árbitro que decide en caso de desacuerdo. Los resultados de la evaluación muestran un 87% de acuerdo entre los anotadores. Algunos problemas de anotación serán expuestos en el trabajo. Nuestra finalidad es ampliar este modelo a otras lenguas y otros corpus, y aplicarlo finalmente en el desarrollo de un sistema de resolución de la anáfora en preguntas-respuestas multilingüe basado en técnicas de aprendizaje automático para mejorar la interacción hombre-máquina.This paper presents AQA, a multilingual anaphora annotation scheme that can be applied in Machine Learning for the improvement of Question Answering systems. It has been used to annotate the collection of CLEF 2008 in Spanish, Italian and English. AQA is inspired by the MATE meta-model, which has been adjusted to our needs. By using AQA we specify the relationship between the anaphora and its antecedent, cases of topic and subtopic, and we label different types of anaphoric expressions. A blind annotation was carried out by two annotators, and a referee for solving cases of disagreement. The results of the evaluation show an 87% level of inter-annotator agreement. Some annotation problems will be reported in this paper. Our aim is to extend this model to other languages, and to apply it to the development of an Anaphora Resolution system based on Machine Learning techniques in order to improve a real human machine-interaction.This paper has been supported by the following projects: “Question Answering Learning technologies in a multiLingual and Multimodal Environment QALL-ME” (FP6 IST-033860), “Intelligent, Interactive and Multilingual Text Mining based on Human Language Technologies, TEXT-MESS” (TIN2006-15265-C06-01), by the Generalitat Valenciana throught the research grant BFPI06/182, and by the grant BII2008-7898717 of the University of Alicante

    AliQAn, Spanish QA system at multilingual QA@CLEF-2008

    Get PDF
    Comunicación presentada en Cross-Language Evaluation Forum (CLEF 2008), Aarhus, Denmark, September 17-19, 2008.In QA@CLEF 2008, we participate in monolingual (Spanish) and multilingual (English - Spanish) tasks. Specifically, in this paper, we will tackle with the English - Spanish QA task. In this edition we will deal with two main problems: an heterogeneous document collection (news articles and Wikipedia) and a large number of topic-related questions, which make somewhat difficult our participation. We want to highlight in the translation module in our system two possible mechanisms: one based on logic forms, and the other, on machine translation techniques. In addition, it has also been used a system of anaphora resolution that it is described below and a QA System, AliQAn (also used this year in the monolingual task)
    corecore