4 research outputs found

    An Imperialist Competitive Algorithm for Persian Text Segmentation

    Get PDF
    Segmentation has been used in different natural language processing tasks, such as information retrieval and text summarization. In this paper a novel Persian text segmentation algorithm is proposed. Our proposed algorithm applies the imperialist competitive algorithm (ICA) to find the optimal topic boundaries. It is the first time that an evolutionary algorithm applies in Persian text segmentation. The experimental results show that proposed algorithm is more accurate than other Persian text segmentation algorithms

    Recuperaci贸n de informaci贸n en Persa: revisi贸n cr铆tica y propuestas de mejora

    Get PDF
    Los principales modelos y t茅cnicas propuestas por los investigadores en la recuperaci贸n de informaci贸n dependen en mayor o menor medida del idioma, tanto de los documentos como de las consultas que se formulan. Al respecto existen muchos estudios, desde el procesamiento del texto hasta los modelos de recuperaci贸n, para las lenguas occidentales o predominantes como el ingl茅s. Sin embargo, las lenguas minoritarias como la lengua persa no han sido suficientemente tratadas en los sistemas de RI tanto tradicional como Web y deber铆an ser mejoradas desarrollando algoritmos y t茅cnicas que consideran las caracter铆sticas de esas lenguas. Adem谩s, la diferencia morfol贸gica y ling眉铆stica de persa frente al ingl茅s en todos sus niveles no permite una extrapolaci贸n al idioma persa de los resultados obtenidos para el ingl茅s, demandando la realizaci贸n de trabajos espec铆ficos. El objetivo principal de esta tesis es analizar la recuperaci贸n de informaci贸n en persa y poner de manifiesto los factores que afectan a la eficiencia en los sistemas de recuperaci贸n de informaci贸n con documentos persas y dar propuestas para mejorar la eficiencia de la recuperaci贸n de documentos relevantes. Los resultados obtenidos por nuestros experimentos revelan que la mala representaci贸n de documentos es el gran desaf铆o que presenta la lengua persa en un sistema de recuperaci贸n de informaci贸n. La representaci贸n de documentos es el conjunto de operaciones que se hacen sobre el contenido de un documento desde su creaci贸n hasta su indexaci贸n. Las diferentes formas de la escritura, ambig眉edades en el texto escrito, la dispersi贸n en posici贸n alfab茅tica diferente y no est谩ndar de la ortograf铆a son los principales problemas que hacen necesaria una pre-normalizaci贸n o estandarizaci贸n del texto para cumplir con los criterios de un sistema de RI. La segmentaci贸n del texto y la definici贸n del l铆mite de las palabras son tareas muy dif铆ciles en persa. Hay de uno a cuatro formas de escribir un car谩cter alfab茅tico seg煤n su posici贸n en una palabra. Cada forma puede ser inicial, media, final y aislada. Hay varias formas de escribir textos persas que difieren en el estilo de escritura de palabras usando o eliminando los espacios dentro o entre las palabras utilizando diversas formas de caracteres. Entonces la correcta tokenizati贸n y la conversi贸n de estas formas y estilos en una 煤nica norma es un paso necesario en la construcci贸n de los sistemas de RI con documentos en persa. En la lengua persa, las palabras se construyen generalmente a partir de la forma imperativa de los verbos. Por lo tanto, desde un punto de vista de la ling眉铆stica, la primera etapa para extraer la ra铆z es encontrar el modo imperativo de la palabra. En general, no es f谩cil obtener el modo imperativo ya que hay muchos infinitivos irregulares. La forma imperativa del infinitivo irregular se basa en c贸mo se escuchan o se usan las palabras. En este caso, se necesita buscar el modo imperativo en el l茅xico. Adem谩s, la diversidad de formas plurales, plurales irregulares y las palabras no plurales terminando con los signos plurales son algunos de los retos en la construcci贸n de lematizadores para la lengua persa. Otro objetivo de esta tesis es la evaluaci贸n del rendimiento y calidad de los buscadores de web frente a los documentos persas, en particular, de Google que es utilizado por el 92% de los usuarios iran铆es. Los resultados obtenidos han destacado que el buscador Google considera las palabras vac铆as persas como palabras claves del contenido de un documento persa. Adem谩s, la tokenizaci贸n del texto no realiza correctamente la separaci贸n adecuada de las palabras y la lematizaci贸n contiene muchos errores. En conclusi贸n, Google debe mejorar las operaciones que corresponden a la representaci贸n de documentos persas teniendo en cuenta de la estructura y gram谩tica de la lengua persa. Analizando los trabajos previos, hemos constatado que no hay ninguna investigaci贸n que consiga en identificar autom谩ticamente las palabras vac铆as en un sistema de RI. Por lo tanto, la 煤ltima aportaci贸n de este trabajo es desarrollar un m茅todo autom谩tico que permita identificar las palabras vac铆as para sistemas de RI con documentos persas. Nuestro m茅todo est谩 basado en los modelos estad铆sticos y en el modelo de informaci贸n. El modelo estad铆stico extrae las palabras vac铆as teniendo en cuenta la distribuci贸n de estas palabras en un corpus y en cada documento del corpus. El modelo de informaci贸n mide el significado de una palabra en el texto mediante el uso de la teor铆a de la informaci贸n.Departamento de Inform谩tica (Arquitectura y Tecnolog铆a de Computadores, Ciencias de la Computaci贸n e Inteligencia Artificial, Lenguajes y Sistemas Inform谩ticos
    corecore