research

Aprendizaje automático para el reconocimiento temporal multilingüe basado en TiMBL

Abstract

Este artículo presenta un sistema basado en aprendizaje automático para el reconocimiento de expresiones temporales. El sistema utiliza la aplicación TiMBL, la cual consiste en un sistema de aprendizaje automático basado en memoria. La portabilidad que presenta este sistema hacia otros idiomas nuevos posee un coste muy reducido, ya que prácticamente no requiere de ningún recurso dependiente del lenguaje (únicamente requiere un tokenizador y un desambiguador léxico categorial, aunque la carencia del POS tagger no repercute mucho en los resultados finales del sistema). Este sistema ha sido evaluado para tres idiomas distintos: inglés, español e italiano. La evaluación realizada presenta resultados satisfactorios para corpus que contienen un gran número de ejemplos, mientras que obtiene resultados bastante pobres en aquellos corpus que contienen pocos ejemplos.This paper presents a Machine Learning-based system for temporal expression recognition. The system uses the TiMBL application, which is a memory-based machine learning system. The portability of the system to other new languages has a very low cost, because it does not need any dependent language resource (only requires a tokenizer and a POS tagger, although the lack in POS tagger does not have enough repercussions on the final system results). This systems has been evaluated on three different languages: English, Spanish and Italian. The evaluation results are quite successful for corpus having a lot of examples; however it obtains very poor results with corpus that have only a few examples.Esta investigación ha sido parcialmente financiada bajo los proyectos QALL-ME (FP6-IST- 033860), TEXT-MESS (TIN-2006-15265-C06-01) y GV06/028; y bajo la beca de investigación BFPI06/18

    Similar works