Search CORE

2 research outputs found

Desarrollo de algoritmos de pooling basados en re-ranking de contenidos por relevancia

Author: Penela Fernández Jessica
Publication venue
Publication date: 01/01/2020
Field of study

[Abstract] These days, Information Retrieval Systems are becoming more and more important. These systems provide information to the user based on previous queries; these queries can be quite varied, from the weather there’ll be tomorrow to the time a movie will be played or the definition of a word. The amount of available information is quite massive, which makes effectiveness and efficiency very important to these systems. Given the task at hand, finding information in a collection of documents, the information retrieval system would output the documents sorted so that those most relevant to the user’s query are at the top. Traditionally, information retrieval systems have been evaluated using benchmarks, consisting of documents, queries and relevant assessments. At first, the collections to be assessed were small, so it was viable for the assessors to read all the documents within, in order to assess said collection. From the TREC( Text Retrieval Conference) onward, collections grew noticeably in size, making the task of assessing them harder, which meant assessing the entire collection was no longer a viable approach. To solve this problem, a new technique, named pooling, appeared, which creates a pool of the top k documents belonging to all the systems involved in a competition, after these systems have all run the same queries on the same documents. Once the pool has been created, it is presented to the assessors in a random order so that their relevance to the query can be assessed. TREC has always followed the aforementioned strategy, but some other algorithms have been implemented by researchers, which do not present the documents sorted in a random order but do so in some specific order instead, such as MTF(Move to Front), and which don’t use the content of the documents, but their order within each ranking. This idea is the basis for this project, whose purpose is the creation of a new pooling algorithm that would make use of the content of the documents. The process is as follows: each time an assessor marks a document as relevant for a given query, the documents are reranked using a relevance model before being once again presented to the assessor.[Resumen] En la actualidad, los Sistemas de Recuperación de Información son cada vez más importantes. Dichos sistemas proporcionan a un usuario información en base a una consulta previamente enviada, esas consultas pueden ser muy variadas, como por ejemplo el tiempo que va hacer mañana, la hora a la que emiten una película en el cine, la definición de una palabra, etc. La cantidad de información existente es extremadamente extensa y por lo tanto es muy importante que dichos sistemas sean lo más eficaces y eficientes posibles. Considerando la tarea central, encontrar información en un conjunto de documentos, la respuesta de un sistema de recuperación será una ordenación de los mismos, con el objetivo principal de proporcionar al usuario los documentos más relevantes para una consulta en las primeras posiciones del ranking. Tradicionalmente, para evaluar los sistemas de recuperación se han usado benchmarks, formados por conjuntos de documentos, consultas y juicios de relevancia. Las primeras colecciones a evaluar tenían un tamaño pequeño y por lo tanto los asesores podían llevar a cabo la lectura de todos los documentos, lo cual hacía viable evaluar toda la colección. A partir de TREC (Text Retrieval Conference), las colecciones empezaron a crecer notablemente y por tanto la tarea de los asesores se complicó, volviendo inviable llevar a cabo una evaluación de toda la colección. Para solucionar este problema surge una técnica denominada pooling, la cual consiste en crear un pool con el top k de documentos pertenecientes a todos los sistemas participantes en una competición, dichos sistemas han ejecutado todos las mismas queries sobre los mismos documentos. Una vez creado el pool se presenta a los asesores en un orden arbitrario y los evalúan para determinar si son relevantes o no para la consulta enviada. TREC siempre ha usado la estrategia aquí mencionada, pero algunos investigadores han implementado otros algoritmos, los cuales no presentan los documentos en un orden arbitrario sino que lo hacen en un orden determinado, como por ejemplo MTF(Move to Front), los cuales no utilizan el contenido de los documentos, sino que el orden de los documentos en cada ranking. A partir de esta idea es donde surge el proyecto que se presenta a continuación, donde vamos a crear un nuevo algoritmo de pooling, el cual utiliza el contenido de los documentos. El procedimiento a seguir es el siguiente: cada vez que un asesor marca un documento como relevante para una consulta, se produce un re-ranking de los documentos utilizando un modelo de relevancia y se presenta los documentos al asesor con el nuevo orden generado.Traballo fin de grao (UDC.FIC). Enxeñaría informática. Curso 2019/202

Repositorio da Universidade da Coruña