Search CORE

181 research outputs found

Les temps du document et la recherche d'information

Author: Beigbeder Michel
Publication venue: 'Lavoisier'
Publication date: 01/01/2004
Field of study

http://dn.revuesonline.com/article.jsp?articleId=5637Cet article présente un panorama des liens entre recherche d'information et aspects temporels des documents. Une première analyse amène à distinguer le temps évoqué par le discours des documents et le temps de situation de ces documents dans le temps historique. Le temps de l'univers du discours doit être pris en compte dans la phase d'indexation de la recherche documentaire. Il peut être traité par extraction d'entités nommées et plus finement par une analyse de la langue pour déterminer les relations temporelles. Le traitement des informations de catalogage si elles ne suivent pas des normes très strictes est en fait un problème voisin. Le temps de publication, qui est dans le monde de l'édition traditionnelle la principale donnée de catalogage à caractère temporel, devient dans le monde du document numérique une donnée fondamentale permettant de modéliser l'évolution des documents. Nous introduisons les notions de collections " muable " et immuable. Nous évoquons aussi les questions de granularité de représentation du temps

HAL-EMSE

Web Document Models for Web Information Retrieval

Author: Beigbeder Michel
Publication venue: HAL CCSD
Publication date: 19/09/2005
Field of study

http://www.emse.fr/OSWIR05/2005-oswir-p19-beigbeder.pdfInternational audienceDifferent Web document models in relation to the hyper- text nature of the Web are presented. The Web graph is the most well known and used data extracted from the Web hy- pertext. The ways it has been used in works in relation with information retrieval are surveyed. Finally, some consider- ations about the integration of these works in a Web search engine are presented

HAL-EMSE

Recherche d'information dans des documents structurés par proximité des termes

Author: Beigbeder Michel
Publication venue: HAL CCSD
Publication date: 12/03/2008
Field of study

http://asso-aria.org/coria/2008/165.pdfInternational audienceNous présentons une méthode pour calculer un score d'un élément quelconque d'un document structuré qui prend en compte la proximité des termes de la requête dans le texte du document. Plus précisément nous définissons autour de chaque occurrence d'un terme de la requête une fonction d'influence. Pour une occurrence qui apparaît dans le texte proprement dit, cette fonction d'influence décroit linéairement de 1 à 0 selon la distance à l'occurrence. Lorsqu'un terme de la requête apparaît dans le titre d'une (sous-)section d'un document structuré, son influence est uniformément 1 du début à la fin de la (sous-)section. Nous utilisons des requêtes booléennes et les fonctions d'influence sont combinées à chaque noeud ET et OU de l'arbre de la requête selon le modèle de la logique floue. Le score d'une partie quelconque de document est la normalisation de la somme de la fonction d'influence résultante à la racine de l'arbre de la requête sur l'intervalle associé à cette partie. Nous présentons et commentons les résultats obtenus dans le cadre de la tâche ad'hoc de la campagne INEX 2006

HAL-EMSE

Compression de structure XML pour la recherche d'information structurée

Author: Beigbeder Michel
Publication venue: HAL CCSD
Publication date: 12/03/2008
Field of study

http://asso-aria.org/coria/2008/197.pdfInternational audienceLa recherche d'informations dans les documents structurés nécessite le stockage de la structure des documents indexés dans les index. Si de nombreuses méthodes sont connues et largement utilisées pour compresser les index pour les documents plats, le stockage efficient de la structure est peu étudié. Nous présentons une représentation de structure arborescente adaptée à la recherche d'information structurée, puis nous proposons une méthode de compression des données de cette représentation. Nous présentons les résultats d'expérimentations sur la collection Wikipedia utilisée dans les campagnes INEX 2006 et 2007 (5,8 giga-octet, 659 388 documents) en terme d'efficience en espace et en temps

HAL-EMSE

Integrating Boolean and Vector Models of Information Retrieval with Passage Retrieval

Author: Beigbeder Michel
Publication venue: HAL CCSD
Publication date: 03/01/2005
Field of study

http://www.emse.fr/~mbeig/PUBLIS/2005-isict-p123-beigbeder.pdfInternational audienceIn the context of information retrieval, we propose here to merge in a single mathematical framework: the Boolean model, the vector space model, and passage retrieval in a single mathematical framework based on signal theory. In this framework, we define the weight wd,t of the term t in the document d not as a number, but as a function

HAL-EMSE

Structure et proximité pour la recherche documentaire

Author: Beigbeder Michel
Publication venue: HAL CCSD
Publication date: 01/01/2009
Field of study

http://asso-aria.org/coria/2009/373.pdfInternational audienceNotre étude compare les performances d'un système de recherche d'information basé sur la proximité des occurrences des termes de la requête dans les documents avec un système classique de modèle de langue avec lissage de Dirichlet et le modèle Okapi BM25 . Notre modèle basé sur la proximité calcule en chaque position du document une valeur d'autant plus grande que des occurrences de tous les termes de la requête sont proches de cette position. De plus pour le modèle à proximité nous testons dans le cas de documents structurés l'hypothèse que les termes apparaissant dans les titres doivent être considérés comme proches des positions de toute la section correspondant à ce titre

HAL-EMSE

Extraction de la localisation des termes pour le classement des documents

Author: Beigbeder Michel
Mercier Annabelle
Publication venue: Editions RNTI
Publication date: 01/01/2005
Field of study

http://editions-rnti.fr/?inprocid=1000269International audienceTrouver et classer les documents pertinents par rapport à une requête est fondamental dans le domaine de la recherche d'information. Notre étude repose sur la localisation des termes dans les documents. Nous posons l'hypothèse que plus les occurrences des termes d'une requête se retrouvent proches dans un document alors plus ce dernier doit être positionné en tête de la liste de réponses. Nous présentons deux variantes de notre modèle à zone d'influence, la première est basée sur une notion de proximité floue et la seconde sur une notion de pertinence locale

HAL-EMSE

Evaluer le passage à l'échelle dans des environnements à pertinence multivaluée

Author: Beigbeder Michel
Imafouo Amélie
Publication venue: HAL CCSD
Publication date: 01/03/2006
Field of study

http://www.asso-aria.org/coria/2006/97.pdfInternational audienceLa croissance continuelle et exponentielle des volumes d'information numérique af- fecte principalement des domaines comme celui de la Recherche d'Information (RI). Toutefois, peu de travaux en RI ont jusqu'alors abordé les questions d'efficience et d'efficacité des sys- tèmes de RI dans le contexte du passage à l'échelle dans la taille des corpus. Face à la masse grandissante d'information, il est préférable du point de vue de l'utilisateur moyen que les documents retournés soient classés par ordre de pertinence décroissante ; ce qui implique de prendre en compte de multiples niveaux de pertinence pour les documents. Nous établissons un lien entre ces deux pans de la RI (pertinence multivaluée et passage à l'échelle) et nous étu- dions des protocoles pouvant permettre d'évaluer l'abilité des systèmes de RI à retourner les documents de meilleur niveau de pertinence en tête des résultats quand la masse d'information croît

HAL-EMSE

Fuzzy term proximity with boolean queries at 2006 TREC Terabyte task

Author: Beigbeder Michel
Mercier Annabelle
Publication venue: HAL CCSD
Publication date: 14/11/2006
Field of study

http://trec.nist.gov/pubs/trec15/papers/ecole.tera.final.pdfInternational audienceWe report here the results of fuzzy term proximity method app lied to Terabyte Task. Fuzzy proxmity main feature is based on the idea that the clos er the query terms are in a document, the more relevant this document is. With this p rinciple, we have a high precision method so we complete by these obtained with Zettair search engine default method (dirichlet). Our model is able to deal with Boolean qu eries, but contrary to the traditional extensions of the basic Boolean IR model, it does not explicitly use a proximity operator because it can not be generalized to node s. The fuzzy term proximity is controlled with an influence function. Given a query term a nd a document, the influence function associates to each position in the text a value depe ndant of the distance of the nearest occurence of this query term. To model proximity, th is function is decreasing with distance. Different forms of function can be used: triangula r, gaussian etc. For practical reasons only functions with finite support were used. The sup port of the function is limited by a constant called k. The fuzzy term proximity func tions are associated to every leaves of the query tree. Then fuzzy proximities are co mputed for every nodes with a post-order tree traversal. Given the fuzzy proximities of the sons of a node, its fuzzy proximity is computed, like in the fuzzy IR models, with a mim imum (resp. maximum) combination for conjunctives (resp. disjunctives) nodes. Finally, a fuzzy query proximity value is obtained for each position in this document at the ro ot of the query tree. The score of this document is the integration of the function obt ained at the tree root. For the experiments, we modify Lucy (version 0.5.2) to implement ou r matching function. Two query sets are used for our runs. One set is manually built wit h the title words (and sometimes some description words). Each of these words is OR 'ed with its derivatives like plurals for instance. Then the OR nodes obtained are AND'ed a t the tree root. An other automatic query sets is built with an AND of automatically ex tracted terms from the title field. These two query sets are submitted to our system with tw o values of k: 50 and 200. The two corresponding query sets with flat queries are also su bmitted to zettair search engine

HAL-EMSE

Étude des distributions de tf et de idf sur une collection de 5 millions de pages HTML

Author: Beigbeder Michel
Mercier Annabelle
Publication venue: HAL CCSD
Publication date: 03/06/2003
Field of study

http://www.emse.fr/~mbeig/PUBLIS/2003-inforsid-ri-beigbeder.pdfInternational audienceNous étudions l'évolution des distributions des valeurs de la fréquence des termes et de la fréquence documentaire dans les vecteurs traditionnellement utilisés dans le modèle vectoriel de recherche d'informations en fonction du nombre de documents indexés. Nous construisons des collections dont la taille augmente d'un facteur 10 à chaque fois. Les documents utilisés sont extraits des pages HTML récoltées sur des sites de domaines géographiques francophones en décembre 2000

HAL-EMSE