2 research outputs found

    Desarrollo de algoritmos de pooling basados en re-ranking de contenidos por relevancia

    Get PDF
    [Abstract] These days, Information Retrieval Systems are becoming more and more important. These systems provide information to the user based on previous queries; these queries can be quite varied, from the weather there鈥檒l be tomorrow to the time a movie will be played or the definition of a word. The amount of available information is quite massive, which makes effectiveness and efficiency very important to these systems. Given the task at hand, finding information in a collection of documents, the information retrieval system would output the documents sorted so that those most relevant to the user鈥檚 query are at the top. Traditionally, information retrieval systems have been evaluated using benchmarks, consisting of documents, queries and relevant assessments. At first, the collections to be assessed were small, so it was viable for the assessors to read all the documents within, in order to assess said collection. From the TREC( Text Retrieval Conference) onward, collections grew noticeably in size, making the task of assessing them harder, which meant assessing the entire collection was no longer a viable approach. To solve this problem, a new technique, named pooling, appeared, which creates a pool of the top k documents belonging to all the systems involved in a competition, after these systems have all run the same queries on the same documents. Once the pool has been created, it is presented to the assessors in a random order so that their relevance to the query can be assessed. TREC has always followed the aforementioned strategy, but some other algorithms have been implemented by researchers, which do not present the documents sorted in a random order but do so in some specific order instead, such as MTF(Move to Front), and which don鈥檛 use the content of the documents, but their order within each ranking. This idea is the basis for this project, whose purpose is the creation of a new pooling algorithm that would make use of the content of the documents. The process is as follows: each time an assessor marks a document as relevant for a given query, the documents are reranked using a relevance model before being once again presented to the assessor.[Resumen] En la actualidad, los Sistemas de Recuperaci贸n de Informaci贸n son cada vez m谩s importantes. Dichos sistemas proporcionan a un usuario informaci贸n en base a una consulta previamente enviada, esas consultas pueden ser muy variadas, como por ejemplo el tiempo que va hacer ma帽ana, la hora a la que emiten una pel铆cula en el cine, la definici贸n de una palabra, etc. La cantidad de informaci贸n existente es extremadamente extensa y por lo tanto es muy importante que dichos sistemas sean lo m谩s eficaces y eficientes posibles. Considerando la tarea central, encontrar informaci贸n en un conjunto de documentos, la respuesta de un sistema de recuperaci贸n ser谩 una ordenaci贸n de los mismos, con el objetivo principal de proporcionar al usuario los documentos m谩s relevantes para una consulta en las primeras posiciones del ranking. Tradicionalmente, para evaluar los sistemas de recuperaci贸n se han usado benchmarks, formados por conjuntos de documentos, consultas y juicios de relevancia. Las primeras colecciones a evaluar ten铆an un tama帽o peque帽o y por lo tanto los asesores pod铆an llevar a cabo la lectura de todos los documentos, lo cual hac铆a viable evaluar toda la colecci贸n. A partir de TREC (Text Retrieval Conference), las colecciones empezaron a crecer notablemente y por tanto la tarea de los asesores se complic贸, volviendo inviable llevar a cabo una evaluaci贸n de toda la colecci贸n. Para solucionar este problema surge una t茅cnica denominada pooling, la cual consiste en crear un pool con el top k de documentos pertenecientes a todos los sistemas participantes en una competici贸n, dichos sistemas han ejecutado todos las mismas queries sobre los mismos documentos. Una vez creado el pool se presenta a los asesores en un orden arbitrario y los eval煤an para determinar si son relevantes o no para la consulta enviada. TREC siempre ha usado la estrategia aqu铆 mencionada, pero algunos investigadores han implementado otros algoritmos, los cuales no presentan los documentos en un orden arbitrario sino que lo hacen en un orden determinado, como por ejemplo MTF(Move to Front), los cuales no utilizan el contenido de los documentos, sino que el orden de los documentos en cada ranking. A partir de esta idea es donde surge el proyecto que se presenta a continuaci贸n, donde vamos a crear un nuevo algoritmo de pooling, el cual utiliza el contenido de los documentos. El procedimiento a seguir es el siguiente: cada vez que un asesor marca un documento como relevante para una consulta, se produce un re-ranking de los documentos utilizando un modelo de relevancia y se presenta los documentos al asesor con el nuevo orden generado.Traballo fin de grao (UDC.FIC). Enxe帽ar铆a inform谩tica. Curso 2019/202
    corecore