Sociedad Española para el Procesamiento del Lenguaje Natural
Abstract
Este artículo presenta un sistema basado en aprendizaje automático para
el reconocimiento de expresiones temporales. El sistema utiliza la aplicación TiMBL,
la cual consiste en un sistema de aprendizaje automático basado en memoria. La
portabilidad que presenta este sistema hacia otros idiomas nuevos posee un coste
muy reducido, ya que prácticamente no requiere de ningún recurso dependiente del
lenguaje (únicamente requiere un tokenizador y un desambiguador léxico categorial,
aunque la carencia del POS tagger no repercute mucho en los resultados finales del
sistema). Este sistema ha sido evaluado para tres idiomas distintos: inglés, español e
italiano. La evaluación realizada presenta resultados satisfactorios para corpus que
contienen un gran número de ejemplos, mientras que obtiene resultados bastante
pobres en aquellos corpus que contienen pocos ejemplos.This paper presents a Machine Learning-based system for temporal expression
recognition. The system uses the TiMBL application, which is a memory-based
machine learning system. The portability of the system to other new languages
has a very low cost, because it does not need any dependent language resource (only
requires a tokenizer and a POS tagger, although the lack in POS tagger does not
have enough repercussions on the final system results). This systems has been evaluated
on three different languages: English, Spanish and Italian. The evaluation
results are quite successful for corpus having a lot of examples; however it obtains
very poor results with corpus that have only a few examples.Esta investigación ha sido parcialmente financiada
bajo los proyectos QALL-ME (FP6-IST-
033860), TEXT-MESS (TIN-2006-15265-C06-01) y
GV06/028; y bajo la beca de investigación BFPI06/18