1 research outputs found

    Tailored deep learning techniques for information retrieval

    Full text link
    La recherche d'information vise Ă  trouver des documents pertinents par rapport Ă  une requĂȘte. Auparavant, de nombreux modĂšles traditionnels de la Recherche d'Informations ont Ă©tĂ© proposĂ©s. Ils essaient soit d'encoder la requĂȘte et les documents en vecteurs dans l'espace des termes et d'estimer la pertinence en calculant la similaritĂ© des deux vecteurs, soit d'estimer la pertinence par des modĂšles probabilistes. Cependant, pour les modĂšles d'espace vectoriel, l'encodage des requĂȘtes et des documents dans l'espace des termes a ses limites: par exemple, il est difficile d'identifier les termes du document qui ont des sens similaires au termes exactes de la requĂȘte. Il est Ă©galement difficile de reprĂ©senter le contenu du texte Ă  diffĂ©rents niveaux d'abstraction pouvant correspondre aux besoins diffĂ©rents d'information exprimĂ©s dans des requĂȘtes. Avec le dĂ©veloppement rapide des techniques d'apprentissage profond, il est possible d'apprendre des reprĂ©sentations utiles Ă  travers une sĂ©rie de couches neurones, ce qui ouvre la voie Ă  de meilleures reprĂ©sentations dans un espace dense latent plutĂŽt que dans l'espace des termes, ce qui peut aider Ă  identifier les termes non exactes mais qui portent les sens similaires. Il nous permet Ă©galement de crĂ©er de diffĂ©rentes couches de reprĂ©sentation pour la requĂȘte et le document, permettant ainsi des correspondances entre la requĂȘte et les documents Ă  diffĂ©rents niveaux d'abstractions, ce qui peut mieux rĂ©pondre aux besoins d'informations pour diffĂ©rents types de requĂȘtes. Enfin, les techniques d'apprentissage profond permettent Ă©galement d'apprendre une meilleure fonction d'appariement. Dans cette thĂšse, nous explorons diffĂ©rentes techniques d'apprentissage profond pour traiter ces problĂšmes. Nous Ă©tudions d'abord la construction de plusieurs couches de reprĂ©sentation avec diffĂ©rents niveaux d'abstraction entre la requĂȘte et le document, pour des modĂšles basĂ©s sur la reprĂ©sentation et l'interaction. Nous proposons ensuite un modĂšle permettant de faire les matchings croisĂ©s des representations entre la requĂȘte et le document sur diffĂ©rentes couches pour mieux rĂ©pondre au besoin de correspondance terme-phrase. Enfin, nous explorons l'apprentissage intĂ©grĂ© d'une fonction de rang et les reprĂ©sentations de la requĂȘte et du document. Des expĂ©riences sur des jeux de donnĂ©es publics ont montrĂ© que nos mĂ©thods proposĂ©es dans cette thĂšse sont plus performantes que les mĂ©thodes existantes.Information Retrieval aims to find relevant documents to a query. Previously many traditional information retrieval models have been proposed. They either try to encode query and documents into vectors in term space and estimate the relevance by computing the similarity of the two vectors or estimate the relevance by probabilistic models. However for vector space models, encoding query and documents into term space has its limitations: for example, it's difficult to catch terms of similar meanings to the exact query term in the document. It is also difficult to represent the text in a hierarchy of abstractions to better match the information need expressed in the query. With the fast development of deep learning techniques, it is possible to learn useful representations through a series of neural layers, which paves the way to learn better representations in latent dense space rather the term space, which may help to match the non exact matched but similar terms. It also allows us to create different layers of representation for query and document thereby enabling matchings between query and documents at different levels of abstractions, which may better serve the information needs for different queries. Finally, deep learning techniques also allows to learn better ranking function. In this thesis, we explore several deep learning techniques to deal with the above problems. First, we study the effectiveness of building multiple abstraction layers between query and document, for representation- and interaction-based models. Then we propose a model allowing for cross-matching of query and document representations at different layers to better serve the need of term-phrase matching. Finally we propose an integrated learning framework of ranking function and neural features from query and document. Experiments on public datasets demonstrate that the methods we propose in this thesis are more effective than the existing ones
    corecore