14 research outputs found

    Evaluer le passage à l'échelle dans des environnements à pertinence multivaluée

    Get PDF
    http://www.asso-aria.org/coria/2006/97.pdfInternational audienceLa croissance continuelle et exponentielle des volumes d'information numérique af- fecte principalement des domaines comme celui de la Recherche d'Information (RI). Toutefois, peu de travaux en RI ont jusqu'alors abordé les questions d'efficience et d'efficacité des sys- tèmes de RI dans le contexte du passage à l'échelle dans la taille des corpus. Face à la masse grandissante d'information, il est préférable du point de vue de l'utilisateur moyen que les documents retournés soient classés par ordre de pertinence décroissante ; ce qui implique de prendre en compte de multiples niveaux de pertinence pour les documents. Nous établissons un lien entre ces deux pans de la RI (pertinence multivaluée et passage à l'échelle) et nous étu- dions des protocoles pouvant permettre d'évaluer l'abilité des systèmes de RI à retourner les documents de meilleur niveau de pertinence en tête des résultats quand la masse d'information croît

    Modèles de proximité : conception et comparaison à une méthode de recherche de passages

    Get PDF
    http://www.asso-aria.org/coria/2005/6.pdfInternational audienceNotre étude se situe dans le domaine de la recherche d'informations. Certains modèles classiques comme le modèle vectoriel permettent de classer les documents par ordre de pertinence alors que d'autres, qui n'offrent pas cette possibilité de classement, possèdent des fonctionnalités particulières comme repérer les documents où les termes de la requête apparaissent proches les uns des autres. Cette dernière idée ayant conduit à des améliorations des résultats, nous formulons l'hypothèse que plus les occurrences des termes d'une requête se retrouvent proches dans un document, plus ce document doit être positionné en tête de la liste de réponses retournées par un système. Par ailleurs, les méthodes de recherche de passa g es per - mettent de sélectionner les passa g es répondant à la requête et définissent ainsi une proximité au niveau du passa g e . Après avoir r appelé les principaux modèles de recherche d'informations ainsi que les approches qui traitent de la proximité entre les termes nous présentons notre modèle de proximité qui utilise la logique floue. Nous avons expérimenté notre modèle et nous comparons les résultats obtenus par rapport à ceux d'une méthode de recherche de passa g es

    ENSM-SE at CLEF 2005: Uses of Fuzzy Proximity Matching Function

    Get PDF
    Extended version to be appear in LCNS http://clef.isti.cnr.it/2005/working_notes/workingnotes2005/mercier05.pdfBased on the idea that the closer the query terms in a document are, the more relevant this document is, we propose a information retrieval method based on a fuzzy proximity degree of term occurences to compute document relevance to a query. Our model is able to deal with Boolean queries, but contrary to the traditional extensions of the basic Boolean information retrieval model, it does not explicitly use a proximity operator. A single parameter allows to control the proximity degree required. We explain how we construct the queries and we report the results of the experiments of the CLEF 2005 campaign before the conclusion

    Etude de l'influence du passage à l'échelle sur les modèles de recherche d'information

    Get PDF
    Information grows continuously; for professional or personal reasons the need of easy access to it comes under the Information Retrieval field. We first of all make a tour of IR works linked to the scalability, and we notice that few of theses works tackled the questions of Information Retrieval Systems effectiveness in the context of scalability in corpus size. After that, the first part of our work is about a methodology which makes it possible to study the scalability influence on some properties of IR models. This methodology constructs a succession of collections of growing sizes on which a given characteristic C (that acts on the studied properties) is the same; then we analyze the properties as the collection size increases. The second part of our work relates to metrics for evaluating the ability of IRS to rank documents according to their relevance levels when collection size increases. Indeed, for the user's point of view, in large environments, it can be desirable to have Information Retrieval Systems that retrieve documents according to their relevance levels. Relevance levels have been studied in some previous Information Retrieval works while some others (few) IR research works tackled the questions of IRS effectiveness and collections size. These latter works used standard IR measures on collections of increasing size to analyze IRS effectiveness scalability. In this part of our work, we bring together these two issues in IR (multigraded relevance and scalability) by designing these metrics.Les évolutions technologiques de ces dernières années ont entraîné une croissance exponentielle de la quantité d'information numérique disponible. La Recherche d'Information, discipline dont le cœur de métier est la manipulation de cette information est questionnée par cette croissance rapide. Les travaux présentés dans cette thèse se sont penchés sur le problème de l'influence du passage à l'échelle sur les performances des modèles de Recherche d'Information. Après un tour des travaux du domaine qui prennent en compte le passage à l'échelle, des méthodologies pour construire des espaces de recherche de tailles croissantes et dont le contenu est contrôlé sont proposées dans un premier temps; ces espaces de recherches sont utilisés pour observer les performances de divers modèles de RI en fonction de la taille des données manipulées. Dans un second temps, les travaux portent sur la proposition de métriques prenant en compte plusieurs niveaux de pertinence pour un document; la notion d'importance d'un niveau de pertinence est formalisée et la notion de gain d'information entre deux niveaux de pertinence est introduite. Ces deux notions permettent de fournir des métriques dédiées à analyser la capacité des systèmes de RI à retourner des documents en fonction de leur niveau de pertinence, au fur et à mesure que la taille de l'espace de recherche augmente

    Vers des protocoles d'évaluation du passage à l'échelle

    No full text
    International audienceLa croissance continuelle et exponentielle des volumes d'information numérique affecte principalement des domaines comme celui de la recherche d'information (RI). Toutefois, peu de travaux en RI ont jusqu'alors abordé les questions d'efficience et d'efficacité des systèmes de RI dans le contexte du passage à l'échelle dans la taille des corpus. Face à la masse grandissante d'informations, il est préférable du point de vue de l'utilisateur moyen que les documents retournés soient classés par ordre de pertinence décroissante ; ce qui implique de prendre en compte de multiples niveaux de pertinence pour les documents. Nous établissons un lien entre ces deux pans de la RI (pertinence multivaluée et passage à l'échelle) et nous étudions des protocoles pouvant permettre d'évaluer l'habilité des systèmes de RI à retourner les documents de meilleur niveau de pertinence en tête des résultats quand la masse d'information croît

    Retrieval Status Values in Information Retrieval Evaluation

    No full text
    Abstract. Retrieval systems rank documents according to their retrieval status values (RSV) if these are monotonously increasing with the probability of relevance of documents. In this work, we investigate the links between RSVs and IR system evaluation. 1 IR evaluation and relevance Kagolovsk et al [1] realised a detailed survey of main IR works on evaluation. Relevance was always the main concept for IR Evaluation. Many works studied the relevance issue. Saracevic [2] proposed a framework for classifying the various notions of relevance. Some other works proposed some definitions and formalizations of relevance. All these works and many others suggest that there is no single relevance: relevance is a complex social and cognitive phenomenon [3]. Because of the collections growth nowadays, relevance judgements can not be complete and techniques like the pooling technique are used to collect a set of documents to be judged by human assessors. Some works investigated this technique, its limits and possible improvements [4]

    Passage à l'échelle : une méthodologie pour l'étude de l'influence du volume de collection sur les modèles de RI

    No full text
    http://www.asso-aria.org/coria/2005/23.pdfInternational audiencePeu de travaux en Recherche d'Information (RI) ont jusqu'alors abordé les questions d'efficience et d'efficacité des systèmes de RI dans le contexte du passa g e à l'échelle dans la taille des corpus. Nous proposons une démarche expérimentale reproductible (pour l'étude de l'influence du passa g e à l'échelle sur les modèles de RI) basée sur la construction d'une collection sur laquelle une caractéristique donnée est la même quelle que soit la portion de collection sélectionnée. Cette nouvelle collection dite "uniforme" peut être découpée en sous- collections qui sont des " échantillons " de taille croissante de la collection entière et sur les- quelles des propriétés de modèles de RI sont étudiées. Nous appliquons notre démarche sur la collection WT10G de TREC9 avec comme caractéristique la répartition des documents pertinents et comme propriétés les métriques d'évaluation de RI

    Scalability influence on retrieval models: An experimental methodology

    No full text
    Few works in Information Retrieval (IR) tackled the questions of Information Retrieval Systems (IRS) effectiveness and efficiency in the context of scalability in corpus size. We propose a general experimental methodology to study the scalability influence on IR models. This methodology is based on the construction of a collection on which a given characteristic C is the same whatever be the portion of collection selected. This new collection called uniform can be split into sub-collection of growing size on which some given properties will be studied. We apply our methodology to WT10G (TREC9 collection) and consider the characteristic C to be the distribution of relevant documents on a collection. We build a uniform WT10G, sample it into sub-collections of increasing size and use these sub-collections to study the impact of corpus volume increase on standards IRS evaluation measures (recall/precision, high precision)
    corecore