18 research outputs found

    An Overview of Genetic Algorithm Based Information Retrieval

    Get PDF
    As the information grows rapidly, searching relevant and up to date information has become a crucial issue. The amount of information and the pages that are similar to each other are also increasing. Information retrieval is a process or method whereby a prospective user of information is able to transform his need for information into an actual list of documents in storage containing information useful to him. An Information Retrieval System (IRS) Can be defined as a system which interprets the contents of the information items and generate a ranking which reflect relevance and retrieves the information more efficiently. This paper intends the study of genetic algorithm based information retrieval using similarity measures like cosine coefficient, jaccard coefficient, dice coefficient. The genetic algorithm aims to optimize the overall relevance estimate by applying a customized fitness function which will make use of local as well as global factors to have the evaluation function distributed over the search space

    Applying Genetic Algorithm In Query Improvement Problem

    Get PDF
    This paper presents an adaptive method using genetic algorithm to modify user’s queries, based on relevance judgments. This algorithm was adapted for the three well-known documents collections (CISI, NLP and CACM). The method is shown to be applicable to large text collections, where more relevant documents are presented to users in the genetic modification. The algorithm shows the effects of applying GA to improve the effectiveness of queries in IR systems. Further studies are planned to adjust the system parameters to improve its effectiveness. The goal is to retrieve most relevant documents with less number of non-relevant documents with respect to user's query in information retrieval system using genetic algorithm

    Genetic algorithms for topical web search: A study of different mutation rates

    Get PDF
    Harvesting topical content is a process that can be done by formulating topic-relevant queries and submitting them to a search engine. The quality of the material collected through this process is highly dependant on the vocabulary used to generate the search queries. In this scenario, selecting good query terms can be seen as an optimization problem where the objective function to be optimized is based on the effectiveness of a query to retrieve relevant material. Three characteristics of this optimization problem are (1) the high-dimensionality of the search space, where candidate solutions are queries and each term corresponds to a different dimension, (2) the existence of acceptable suboptimal solutions, and (3) the possibility of finding multiple solutions. This paper describes optimization techniques based on Genetic Algorithms to evolve “good query terms” in the context of a given topic. We discuss the use of a mutation pool to allow the generation of queries with novel terms, and study the effect of different mutation rates on the exploration of query-space.Red de Universidades con Carreras en Informática (RedUNCI

    Algoritmos genéticos para la búsqueda web basada en contextos temáticos

    Get PDF
    El uso de contextos temáticos para seleccionar y filtrar información juega un papel fundamental en los sistemas de recuperación de información basados en la tarea del usuario (e.g., [3, 8]). Desafortunadamente, aprovechar la información del contexto durante la búsqueda en la Web es una tarea difícil. Los buscadores actuales imponen un límite a la longitud de las consultas, y aún si se permitieran consultas largas las mismas podrían volverse demasiado específicas, devolviendo muy pocos o ningún resultado. Esto dificulta la tarea de formular consultas adecuadas para describir contextos temáticos. Una alternativa para evitar este problema es el uso de ciertas sintaxis especiales provistas por algunos buscadores para la formulación de consultas. Sin embargo, aún con la flexibilidad provista por estos mecanismos de formulación de consultas, es posible que el vocabulario utilizado para describir el contexto difiera del usado para indexar los recursos relevantes. La meta de nuestro trabajo de investigación es desarrollar técnicas para refinar las consultas automáticamente y recolectar recursos relevantes para el contexto temático del usuario. En este trabajo proponemos utilizar Algoritmos Genéticos (AGs) para abordar el problema de reflejar contextos temáticos en las consultas formuladas a un buscador Web. Nuestra propuesta se basa en nuevas técnicas incrementales que permiten evolucionar consultas útiles ligadas a un contexto temático bajo análisis.Eje: Agentes y Sistemas InteligentesRed de Universidades con Carreras en Informática (RedUNCI

    Algoritmos genéticos para la búsqueda web basada en contextos temáticos

    Get PDF
    El uso de contextos temáticos para seleccionar y filtrar información juega un papel fundamental en los sistemas de recuperación de información basados en la tarea del usuario (e.g., [3, 8]). Desafortunadamente, aprovechar la información del contexto durante la búsqueda en la Web es una tarea difícil. Los buscadores actuales imponen un límite a la longitud de las consultas, y aún si se permitieran consultas largas las mismas podrían volverse demasiado específicas, devolviendo muy pocos o ningún resultado. Esto dificulta la tarea de formular consultas adecuadas para describir contextos temáticos. Una alternativa para evitar este problema es el uso de ciertas sintaxis especiales provistas por algunos buscadores para la formulación de consultas. Sin embargo, aún con la flexibilidad provista por estos mecanismos de formulación de consultas, es posible que el vocabulario utilizado para describir el contexto difiera del usado para indexar los recursos relevantes. La meta de nuestro trabajo de investigación es desarrollar técnicas para refinar las consultas automáticamente y recolectar recursos relevantes para el contexto temático del usuario. En este trabajo proponemos utilizar Algoritmos Genéticos (AGs) para abordar el problema de reflejar contextos temáticos en las consultas formuladas a un buscador Web. Nuestra propuesta se basa en nuevas técnicas incrementales que permiten evolucionar consultas útiles ligadas a un contexto temático bajo análisis.Eje: Agentes y Sistemas InteligentesRed de Universidades con Carreras en Informática (RedUNCI

    Algoritmos genéticos para la búsqueda web basada en contextos temáticos

    Get PDF
    El uso de contextos temáticos para seleccionar y filtrar información juega un papel fundamental en los sistemas de recuperación de información basados en la tarea del usuario (e.g., [3, 8]). Desafortunadamente, aprovechar la información del contexto durante la búsqueda en la Web es una tarea difícil. Los buscadores actuales imponen un límite a la longitud de las consultas, y aún si se permitieran consultas largas las mismas podrían volverse demasiado específicas, devolviendo muy pocos o ningún resultado. Esto dificulta la tarea de formular consultas adecuadas para describir contextos temáticos. Una alternativa para evitar este problema es el uso de ciertas sintaxis especiales provistas por algunos buscadores para la formulación de consultas. Sin embargo, aún con la flexibilidad provista por estos mecanismos de formulación de consultas, es posible que el vocabulario utilizado para describir el contexto difiera del usado para indexar los recursos relevantes. La meta de nuestro trabajo de investigación es desarrollar técnicas para refinar las consultas automáticamente y recolectar recursos relevantes para el contexto temático del usuario. En este trabajo proponemos utilizar Algoritmos Genéticos (AGs) para abordar el problema de reflejar contextos temáticos en las consultas formuladas a un buscador Web. Nuestra propuesta se basa en nuevas técnicas incrementales que permiten evolucionar consultas útiles ligadas a un contexto temático bajo análisis.Eje: Agentes y Sistemas InteligentesRed de Universidades con Carreras en Informática (RedUNCI

    Técnicas evolutivas para la extracción automática de conocimiento

    Get PDF
    Esta línea de investigación propone el diseño, desarrollo y evaluación de técnicas automáticas para extracción de conocimiento, de tal forma que sean capaces de sobrellevar la búsqueda dentro de grandes espacios de información. Para ello se propone, en primera instancia, la resolución de un problema de interés general: el de reformulación automática de consultas. Una resolución automática para este problema podría ser utilizada en diversas aplicaciones, tales como monitorear un tópico de interés, especificar trackers temáticos sobre redes sociales, identificar entidades y relaciones entre entidades en grandes corpus de documentos o recolectar material para portales temáticos. Por sus características (alta dimensionalidad del espacio de búsqueda, carencia de subestructura optima, posibilidad de aprovechamiento de múltiples soluciones) el uso de computación evolutiva parece adecuado para abordar su resolución. Un primer aporte de esta línea dentro del área radica en la consideración de la in- corporación de operadores booleanos y otro tipo de modificadores a las consultas reformuladas y el control de la diversidad, ambos pensados como un mecanismo para lograr mayor expresión en las consultas y, por lo tanto, mayor poder para expresar los conceptos de interés involucrados. El segundo aporte consiste en proponer un marco de evaluación adecuado para la metodología desarrollada y el estudio y comparación con otras técnicas. Por último, el aporte final aborda la aplicación de los métodos desarrollados en dominios específicos tales como bioinformática (e.g. para identificación de interacciones entre entidades biológicas) o redes sociales (e.g. para realizar minería de opiniones mediante trackers temáticos).Eje: Agentes y Sistemas InteligentesRed de Universidades con Carreras en Informática (RedUNCI

    Genetic algorithms for topical web search: A study of different mutation rates

    Get PDF
    Harvesting topical content is a process that can be done by formulating topic-relevant queries and submitting them to a search engine. The quality of the material collected through this process is highly dependant on the vocabulary used to generate the search queries. In this scenario, selecting good query terms can be seen as an optimization problem where the objective function to be optimized is based on the effectiveness of a query to retrieve relevant material. Three characteristics of this optimization problem are (1) the high-dimensionality of the search space, where candidate solutions are queries and each term corresponds to a different dimension, (2) the existence of acceptable suboptimal solutions, and (3) the possibility of finding multiple solutions. This paper describes optimization techniques based on Genetic Algorithms to evolve “good query terms” in the context of a given topic. We discuss the use of a mutation pool to allow the generation of queries with novel terms, and study the effect of different mutation rates on the exploration of query-space.Red de Universidades con Carreras en Informática (RedUNCI

    The necessity for adaptation in modified boolean document retrieval systems

    Full text link
    A document retrieval system may be described by three formal characteristics: the syntax employed to describe documents (keywords or vectors of weights, for instance), the form of machine-processable queries it accepts as valid (unordered sets of keywords, keywords with Boolean connectives or weighted vectors, for example), and the retrieval rules used to rank or retrieve documents. This article argues that the interdependence among document descriptions, queries, and retrieval rules requires adaptation for the system to perform effectively when one of its components changes.Recently, suggestions have been made to modify traditional Boolean document retrieval systems to allow more flexible queries and ranked document output. However, these new forms of queries and retrieval rules likely require that documents be described differently than they are in existing, commercial Boolean retrieval systems.A "genetic algorithm" is discussed as a means for redescribing documents. This probabilistic algorithm uses feedback along with alternative descriptions of a single document and takes account of the dependency structure of subject terms.Peer Reviewedhttp://deepblue.lib.umich.edu/bitstream/2027.42/27541/1/0000585.pd

    A more efficient document retrieval method for TEXPROS

    Get PDF
    Document processing is a critical element of office automation. Through document classification, extraction and filing, documents are automatically placed into a knowledge base according to certain rules. Document retrieval is a process to get a document back according to a user\u27s requirements and to show the results to the user. Hence, a good user-interface and an efficient retrieval algorithm become core parts of document retrieval. Unlike previous browsers that have been proposed for this purpose, this dissertation develops a new browser that has a user interface with more tools, and one that has a more efficient retrieval algorithm that can deal with a wide variety of retrieval situations. In this dissertation, from the view of an interface, the new browser provides more functions such as zoom in and zoom out , (i.e. automatic scaling of the portion of a graph that is of interest to a user), and help. These functions give users an easier way to view a large graph in one window and provide users with help during the retrieval process. The new browser also provides an algorithm that makes retrieval more efficient by using a reusable base. The Reusable Base is used to hold information that is most related to the user previous desires and the information stored in the Reusable Base is more easily used to form the OP-Net than that in the System Catalog. Hence, it eliminates the need to go to the System Catalog to find the results. This speeds up the retrieval significantly -at least two times faster than without the Reusable Base. Further, the new browser provides information about the folder organization and the document type hierarchy that is in addition to the OP-Net. If users know the type of documents they want, or which folder they are interested in, they can go to the particular document type or the particular folder directly
    corecore