8 research outputs found

    Query Resolution for Conversational Search with Limited Supervision

    Get PDF
    In this work we focus on multi-turn passage retrieval as a crucial component of conversational search. One of the key challenges in multi-turn passage retrieval comes from the fact that the current turn query is often underspecified due to zero anaphora, topic change, or topic return. Context from the conversational history can be used to arrive at a better expression of the current turn query, defined as the task of query resolution. In this paper, we model the query resolution task as a binary term classification problem: for each term appearing in the previous turns of the conversation decide whether to add it to the current turn query or not. We propose QuReTeC (Query Resolution by Term Classification), a neural query resolution model based on bidirectional transformers. We propose a distant supervision method to automatically generate training data by using query-passage relevance labels. Such labels are often readily available in a collection either as human annotations or inferred from user interactions. We show that QuReTeC outperforms state-of-the-art models, and furthermore, that our distant supervision method can be used to substantially reduce the amount of human-curated data required to train QuReTeC. We incorporate QuReTeC in a multi-turn, multi-stage passage retrieval architecture and demonstrate its effectiveness on the TREC CAsT dataset.Comment: SIGIR 2020 full conference pape

    Learning to Attend, Copy, and Generate for Session-Based Query Suggestion

    Full text link
    Users try to articulate their complex information needs during search sessions by reformulating their queries. To make this process more effective, search engines provide related queries to help users in specifying the information need in their search process. In this paper, we propose a customized sequence-to-sequence model for session-based query suggestion. In our model, we employ a query-aware attention mechanism to capture the structure of the session context. is enables us to control the scope of the session from which we infer the suggested next query, which helps not only handle the noisy data but also automatically detect session boundaries. Furthermore, we observe that, based on the user query reformulation behavior, within a single session a large portion of query terms is retained from the previously submitted queries and consists of mostly infrequent or unseen terms that are usually not included in the vocabulary. We therefore empower the decoder of our model to access the source words from the session context during decoding by incorporating a copy mechanism. Moreover, we propose evaluation metrics to assess the quality of the generative models for query suggestion. We conduct an extensive set of experiments and analysis. e results suggest that our model outperforms the baselines both in terms of the generating queries and scoring candidate queries for the task of query suggestion.Comment: Accepted to be published at The 26th ACM International Conference on Information and Knowledge Management (CIKM2017

    Probabilistic Modeling in Dynamic Information Retrieval

    Get PDF
    Dynamic modeling is used to design systems that are adaptive to their changing environment and is currently poorly understood in information retrieval systems. Common elements in the information retrieval methodology, such as documents, relevance, users and tasks, are dynamic entities that may evolve over the course of several interactions, which is increasingly captured in search log datasets. Conventional frameworks and models in information retrieval treat these elements as static, or only consider local interactivity, without consideration for the optimisation of all potential interactions. Further to this, advances in information retrieval interface, contextual personalization and ad display demand models that can intelligently react to users over time. This thesis proposes a new area of information retrieval research called Dynamic Information Retrieval. The term dynamics is defined and what it means within the context of information retrieval. Three examples of current areas of research in information retrieval which can be described as dynamic are covered: multi-page search, online learning to rank and session search. A probabilistic model for dynamic information retrieval is introduced and analysed, and applied in practical algorithms throughout. This framework is based on the partially observable Markov decision process model, and solved using dynamic programming and the Bellman equation. Comparisons are made against well-established techniques that show improvements in ranking quality and in particular, document diversification. The limitations of this approach are explored and appropriate approximation techniques are investigated, resulting in the development of an efficient multi-armed bandit based ranking algorithm. Finally, the extraction of dynamic behaviour from search logs is also demonstrated as an application, showing that dynamic information retrieval modeling is an effective and versatile tool in state of the art information retrieval research

    Hábitos de recuperación de información en motores de búsqueda sobre lectura, libro y bibliotecas en España (2004-2016)

    Get PDF
    Este estudio ha tenido como objetivo principal, determinar si los procesos y expresiones de búsqueda de información usados por los usuarios en motores de búsqueda, pueden considerarse como indicadores válidos para el análisis y estudio de los hábitos de lectura y posible interés en otros contenidos ofrecidos por las bibliotecas en España (como videojuegos o películas).Para ello se propone un modelo de análisis con el que caracterizar el lenguaje de búsqueda de información de los usuarios de internet que utilizan Google desde España como motor de búsqueda, durante el período 2004 - 2016, al recuperar información sobre la temática de el libro, la lectura y las bibliotecas, desde una perspectiva histórica. De esta forma, se pretende aportar otra dimensión de análisis a los estudios que hay sobre los hábitos lectores en general, y en España en particular.La investigación tiene distintas áreas de aplicación del análisis del lector online, como son el apoyo a la indización y la clasificación bibliotecaria, la evaluación de colecciones y evaluación de la biblioteca, los estudios de necesidades de usuarios, la evaluación de OPACs, la analítica digital de sedes web bibliotecarias o de entidades de la industria del libro como editoriales, librerías online, metabuscadores o páginas web de autores y aficionados a la literatura en general, márketing bibliotecario y promoción de la lectura, márketing editorial, altmetría y Cibermetría, y SEO (posicionamiento en buscadores).El análisis de los hábitos lectores tiene una larga tradición en el mundo offline, especialmente en España, donde el estudio de hábitos lectores es parte importante de la investigación estratégica en la industria del libro. Se han observado distintas metodologías, desde las encuestas y entrevistas a lectores y no lectores, el análisis de las ventas de los libros y la prensa, a los análisis de logs de préstamos en las bibliotecas. Al entrar la lectura en e-book, y en plena era de internet, la lectura en papel ha sufrido una transformación, donde los usuarios leen por internet, y buscan su lectura (ya sea online, en e-book y/o en papel) a través de internet, especialmente utilizando motores de búsqueda, de los que en España el más utilizado desde principios de siglo hasta al menos su segunda década, es el buscador Google. Es este cambio en las formas de localizar la lectura la que impulsa a investigar cómo se busca información sobre lectura en un buscador. Anteriormente se han investigado distintos aspectos de esas conductas con distintas técnicas, dentro del paradigma cognitivo, y especialmente dentro de la disciplina de Information Seeking, de difícil traducción al castellano. Tras consignar modelos de búsqueda por parte de los usuarios, como el modelo Berrypicking de Marcia Bates, el modelo de Ellis, el modelo de Marchionini, o el modelo de Information Search Process de Kulthau, entre otros, se han estudiado otros modificadores de las conductas de búsqueda, llegando a los estudios sobre User Search Behaviour (conductas de búsqueda de los usuarios en motores de búsqueda) especialmente en lo concerniente a desambiguación y expansión de búsquedas, análisis longitudinal de la búsqueda y de Query Intent, el Análisis de la Intención de Búsqueda. Es precísamente en la combinación de las últimas subdisciplinas hacia donde se ha orientado este estudio. Para la investigación, en 2010 se obtuvieron de Google Keywords Planner, el log de búsquedas del motor de búsqueda, más de 30.000 expresiones de búsqueda (denominadas también como frases de búsqueda, queries, keywords o palabras clave), relacionadas con el libro, la lectura y las bibliotecas, segmentando la búsqueda de palabras clave en lenguaje español y de búsquedas realizadas desde España. Posteriormente se extrajo de Google Trends la serie de datos histórica de 2004 a 2016, para conformar un dataset con el que realizar un análisis longitudinal. Las palabras clave fueron clasificadas en 27 facetas distintas de intención de búsqueda, contando también con aspectos modificadores y aspectos lingüísticos. Por tanto, no se clasificó en categorías mutuamente excluyentes, sino de forma que una expresión de búsqueda pudiera pertenecer a varias clases simultáneamente, por lo que se realizó un estudio del grado de co-ocurrencia entre las distintas facetas y los aspectos identificados. Posteriormente se dividió las palabras clave, previamente clasificadas, en una nueva dimensión de análisis, según si era atemporales (tenían una larga vida en la serie histórica) o temporales, aquellas que nacían en algún momento de la serie, y tenían una vida más o menos corta. Como resultado del análisis, se han estudiado las posibilidades de la facetación como mejora o complemento de otras técnicas de análisis de las intenciones de búsqueda (query intent analysis); se ha validado el modelo de estudio, de forma que sirva como corpus inicial de futuros análisis de los hábitos de lectura en España, a través del estudio de la demanda de información en motores de búsqueda; se han descubierto subtipos de intenciones de búsqueda propias del sector de la lectura, dentro de las clasificaciones clásicas de intención de búsqueda (navegacional, informacional, transaccional); se han identificado facetas adicionales, distintas a las meramente temáticas, como modificadores y características del lenguaje, que sirvan para completar las facetas halladas desde una dimensión de análisis complementaria; se ha descubierto distintos patrones de uso, nuevas abreviaturas y formas de expresión de las necesidades de búsqueda de los usuarios mediante lenguaje natural, se han relacionado distintos media y/o formatos, así como, tras una selección mediante una muestra intencionada, de distintos ejemplos paradigmáticos de estas tendencias de búsqueda y sus posibles relaciones causales, observando los efectos producidos en la evolución de la demanda de información en torno a la lectura a través de la búsqueda de la misma en Google en España, durante el período 2004-2016.Finalmente, y además de constatar su utilidad para completar otras técnicas de análisis de los hábitos lectores mediante una técnica inédita hasta la fecha en el sector del libro y bibliotecas, se ha observado cómo la demanda de información sobre lectura en España realizada a través de motores de búsqueda, ha decaído de forma paulatina en la segunda década del siglo XXI, coincidiendo con otras investigaciones y datos de estudios de hábitos lectores realizadas a través de otras técnicas. <br /
    corecore