Ferramentas de Recuperación de Textos para Bibliotecas Dixitais: Lematización

Abstract

[Resumo] Un dos servizos máis interesantes das bibliotecas dixitais é o que permite a busca de documentos polo seu contido, quere dicir, o que permite buscar aqueles textos que traten dun certo tema. Para que as bibliotecas poidan implementar servizos deste tipo é preciso que existan recursos e ferramentas de recuperación de textos (corpora, dicionarios electrónicos, lematizadores, analizadores morfolóxicos, etc.) desenvolvidas para o idioma en que estean escritos os documentos da biblioteca. A cantidade e a calidade dos recursos e ferramentas que estean desenvolvidos depende do idioma de que se tratar. O inglés está á cabeceira de todos, e aquí na Península as bibliotecas dixitais de textos escritos en galego son as que teñen máis complicado desenvolveren servizos de busca por contido, xa que non existen até o momento as ferramentas e os recursos de apoio apropiados. Neste artigo presentamos unha ferramenta de recuperación de textos que foi desenvolvida para o galego, grazas á colaboración de investigadores en Filoloxía Galego-Portuguesa e Informática da Universidade da Coruña. Trátase dun lematizador que foi presentado por primeira vez en 2002, e que nos últimos anos foi optimizado, completado e probado con corpora de diferente natureza para ser usado en servizos de busca por contido de bibliotecas dixitais.[Abstract] The ability to search documents by content, i. e., to look for documents dealing with a certain subject, is one of the most interesting services offered by a Digital Library. In order to offer these services, digital libraries need resources and text retrieval tools (such as corpora, electronic dictionaries, stemmers, or morphological analyzers), which must be developed for the language in which the documents of the library are written. The quantity and quality of the developed resources and tools depend on the used language. English has always had a great advantage in this field. On the contrary, in the Iberian Peninsula, Digital Libraries devoted to texts written in Galician have difficulties to develop content search services, since there are not enough tools and resources to do these implementations yet. This paper shows a Text Retrieval tool for the Galician language, built through a collaboration between Galician–Portuguese Philology and Computer Science researchers from the University of A Corunna. This tool is a stemmer that was first introduced in 2002, and it has been optimized, completed and tested during last years. We have used several different corpora to perform the tests, in order to accurately incorporate content search services in Digital Libraries

    Similar works