Los buscadores son hoy en día la herramienta más ampliamente usada en la Web. Este hecho ha propiciado que las tecnologías, métodos y algoritmos de recuperación de información hayan experimentado una gran desarrollo y una rápida evolución, dando lugar a funcionalidades sofisticadas, así como perspectivas complejas y matizadas sobre la calidad y utilidad de la salida de un buscador. Este desarrollo es imposible sin el desarrollo paralelo de metodologías adecuadas para evaluar y contrastar diferentes soluciones y sistemas, que permitan en definitiva determinar, medir y comparar lo buena que es la respuesta que se proporciona al usuario. Esto ha tenido como consecuencia la concepción de nuevos métodos para realizar la evaluación y comparativa de diferentes sistemas de recuperación de información de información, incluyendo los sistemas de búsqueda en la web.
En el presente trabajo se ha desarrollado una aplicación que persigue un doble objetivo. En primer lugar, ofrecer funcionalidades avanzadas de búsqueda sobre un metabuscador que combine resultados de diversos buscadores comerciales. En concreto, se han implementado técnicas y algoritmos de diversificación de resultados, relevance feedback y gestión de sesiones de búsqueda, sobre una agregación de los buscadores Google, Bing, Carrot y Faroo. La diversificación de resultados permite espaciar entre sí los documentos similares en el ranking de resultados. Por otro, las técnicas de relevance feedback, que añaden palabras a una consulta en función de las acciones previas de un usuario en una sesión de búsqueda (un grupo de consultas orientadas a satisfacer una única necesidad de información). Por último, se han desarrollado métodos para realizar la gestión de dichas sesiones a partir de las consultas realizadas por los usuarios, tanto de manera implícita (gestión interna), como de manera explícita, mediante un sistema que permite a los usuarios guardar aquellos documentos que les parezcan más interesantes, así como crear y guardar sesiones de búsqueda.
En segundo, se ha implementado en el presente trabajo un sistema que permite la evaluación simultánea de diferentes buscadores web, a partir de métodos de intercalado de resultados. Para alcanzar este objetivo, se ha desarrollado un método probabilístico de intercalado de resultados que permite realizar la evaluación de diversos buscadores a partir de las interacciones de los usuarios con el sistema, sin que el usuario observe ninguna diferencia en el aspecto de la aplicación respecto al uso normal.Search engines are today the most widely and frequently used applications on the Web. That fact has favoured a great development and a fast evolution of information retrieval technologies, methods and algorithms, giving room to sophisticaded functionalities, as well as complex perspectives about the utility and quality of a searcher output. This development is impossible without the parallel development of adequate technologies for evaluating and contrast different solutions and systems, in order to determine, measure and compare how good the provided response to the user is. This has caused the conception of new methods for evaluating and comparing information retrieval systems, including search ones.
In this thesis, a web application has been developed, which follows a dual objective. First, offering advance search functionalities over a metasearcher that combines results from several commercial search engines. Specifically, methods and algorithms of result diversification, relevance feedback and management of search sessions have been implemented over an aggregation of the searchers Google, Bing, Carrot and Faroo. Result diversification methods allow the spacing of similar documents from each other within a raking of search results. Furthermore, relevance feedback techniques add words to a given query based on the previous actions of the user in a search session (a group of queries aimed at satisfying a single information need). Finally, methods for managing that sessions have been implemented. Two approaches have been developed: In one hand, an internal session identification and management. On the other hand, an explicit session management, that allows users to store those documents more interesting to them, as well as creating and saving search sessions.
Secondly, in the present thesis, a system that allows the simultaneous evaluation of several web search engines, via the interleaving of results has been developed. To achieve this goal, a probabilistic interleaving method that permits the evaluation of multiple search engines by analizing the interactions of the users with the application has been developed, without the user noticing any difference in the application appeareance in relation to the normal use