472 research outputs found

    Utilisation de la langue naturelle pour l'interrogation de documents structurés

    Get PDF
    http://www.asso-aria.org/coria/2005/19.pdfInternational audienceLe langage de requête est l'indispensable interface entre l'utilisateur et l'outil de recherche. Simplifié au maximum dans les cas où les moteurs indexent essentiellement des documents plats, il devient fort complexe lorsqu'il s'adresse à des documents structurés et qu'il s'a git de définir des contraintes portant à la fois sur la structure et le contenu. L'approche ici- décrite propose d'utiliser la langue naturelle comme interface pour exprimer de telles requêtes. L'article décrit dans un premier temps les différentes phases qui permettent de transformer (dans un cadre de recherche d'information) la requête en langage naturel en une représentation sémantique indépendante du contexte. Des règles de simplification adaptées à la structure et au domaine du corpus sont ensuite appliquées, permettant d'obtenir une forme finale, adaptée à une conversion ver s un langage de requête formel. L'article décrit enfin les expérimentations effectuées et tir e les premières conclusions sur divers aspects de cette approche

    Un projet du CNRS en cours de réalisation : L'informatisation du Petit Larousse 1905 et d'une collection millésimée et séculaire

    Get PDF
    Cet article a pour but de faire le point sur le projet d'informatisation du Petit Larousse 1905, et d'en expliciter les motivations. Nous revenons dans cet article sur les raisons de l'informatisation des dictionnaires en général, et sur l'intérêt d'informatiser le Petit Larousse de 1905 en particulier. Nous exposons dans un deuxième temps les conséquences techniques des raisons d'informatiser un dictionnaire. Nous terminons par l'exposé du travail réalisé et en cours et les questions en suspens

    Interrogation d'un réseau sémantique de documents : l'intertextualité dans l'accès à l'information juridique

    Get PDF
    A collection of documents is generally represented as a set of documents but this simple representation does not take into account cross references between documents, which often defines their context of interpretation. This standard document model is less adapted for specific professional uses in specialized domains in which documents are related by many various references and the access tools need to consider this complexity. We propose two models based on formal and relational concept analysis and on semantic web techniques. Applied on documentary objects, these two models represent and query in a unified way documents content descriptors and documents relations.Une collection documentaire est généralement représentée comme un ensemble de documents mais cette modélisation ne permet pas de rendre compte des relations intertextuelles et du contexte d'interprétation d'un document. Le modèle documentaire classique trouve ses limites dans les domaines spécialisés où les besoins d'accès à l'information correspondent à des usages spécifiques et où les documents sont liés par de nombreux types de relations. Ce travail de thèse propose deux modèles permettant de prendre en compte cette complexité des collections documentaire dans les outils d'accès à l'information. Le premier modèle est basée sur l'analyse formelle et relationnelle de concepts, le deuxième est basée sur les technologies du web sémantique. Appliquées sur des objets documentaires ces modèles permettent de représenter et d'interroger de manière unifiée les descripteurs de contenu des documents et les relations intertextuelles qu'ils entretiennent

    Impact de la structure des documents XML sur le processus d'appariement dans le contexte de la recherche d'information semi-structurée

    Get PDF
    Nos travaux s'inscrivent dans le cadre de la recherche d'information sur documents semi-structurésde type XML. La recherche d'information structurée (RIS) a pour objectif de retourner des granules documentaires précis répondant aux besoins d'information exprimés par l'utilisateur au travers de requêtes. Ces requêtes permettent de spécifier, en plus des conditions de contenu, des contraintes structurelles sur la localisation de l'information recherchée. L'objectif de nos travaux est d'étudier l'apport de la structure des documents dans le processus d'appariement documents-requêtes. Puisque les contraintes structurelles des requêtes peuvent être représentées sous la forme d'un arbre et que, parallèlement, la structure du document, de nature hiérarchique, peut elle-même utiliser le même type de représentation, nous avons proposé plusieurs modèles de mesure de la similarité entre ces deux structures. La mesure de la similarité entre deux structures arborescentes ayant été étudiée par le domaine de la théorie des graphes, nous avons tout d'abord cherché à adapter les algorithmes de ce domaine à notre problématique. Suite à une étude approfondie de ces algorithmes au regard de la RIS, notre choix s'est porté sur la distance d'édition entre arbres (Tree Edit Distance - TED). Cet algorithme permet, au travers de l'application récursive de séquences de suppression et de substitution, de mesurer le degré d'isomorphisme (le degré de similarité) entre deux arbres. Constatant que ces algorithmes sont coûteux en mémoire et en calcul, nous avons cherché à en réduire la complexité et le temps d'exécution au travers d'approches de résumé et de la mise en place d'un algorithme de TED au coût de complexité plus bas. Etant donné que la TED est normalement utilisée avec des coûts d'opération fixes peut adaptés à notre problématique, nous en avons également proposé de nouveaux basés sur la distance dans le graphe formé par la grammaire des documents : la DTD. Notre deuxième proposition se base sur les Modèles de Langue. En recherche d'information, ces derniers sont utilisés afin de mesurer la pertinence au travers de la probabilité qu'un terme de la requête soit généré par un document. Nous avons utilisés les Modèles de Langue pour mesurer, non pas la probabilité de pertinence du contenu, mais celle de la structure. Afin de former un vocabulaire document et requête à même d'être utilisé par notre modèle de langue structurel nous avons utilisé une technique de relaxation pondérée (la relaxation est le relâchement des contraintes). Nous avons également proposé une méthode pour apparier le contenu des documents et celui des requêtes. L'appariement seul des structures étant insuffisant dans une problématique de recherche d'information : la pertinence d'un granule documentaire est jugée en priorité sur la pertinence de l'information textuelle qu'il contient. De ce fait, nous avons proposé une approche de mesure de la pertinence de ce contenu. Notre méthode utilise la structure de l'arbre afin d'opérer une propagation de la pertinence du texte en prenant en compte l'environnement des éléments traversés ainsi que le contexte global du document. Nos différents modèles ont été expérimentés sur deux tâches de la campagne d'évaluation de référence de notre domaine : Initiative for XML Retrieval. Cette campagne a pour but de permettre l'évaluation de systèmes de recherche d'information XML dans un cadre normalisée et comporte plusieurs tâches fournissant des corpus, des mesures d'évaluation, des requêtes, et des jugements de pertinence. Nous avons à ce propos participé à cette campagne en 2011.Pour nos expérimentations, les tâches que nous avons choisi d'utiliser sont : * La tâche SSCAS d'INEX 2005 qui utilise une collection d'articles scientifiques d'IEEE. Cette collection est orientée texte dans la mesure où la structure exprimée dans les documents qu'elle contient est similaire à celle d'un livre (paragraphe, sections). * La tâche Datacentric d'INEX 2010 dont la collection est extraite d'IMDB. Cette collection est orientée données dans la mesure où les termes des documents sont très spécifiques et peu redondants et que la structure est porteuse de sens. Nos différentes expérimentations nous ont permis de montrer que le choix de la méthode d'appariement dépend de la collection considérée. Dans le cadre d'une collection orienté texte, la structure peut être prise en compte de manière non stricte et plusieurs sous-arbres extraits du document peuvent être utilisés simultanément pour évaluer la similarité structurelle. Inversement, dans le cadre d'une collection orientée donnée, la prise en compte stricte de la structure est nécessaire. Etant donné que les éléments recherchés portent une sémantique, il est alors important de détecter quelle partie du document est à priori pertinente. La structure à apparier doit être la plus précise et minimale possible. Enfin, nos approches de mesures de la similarité structurelle se sont montrées performantes et ont amélioré la pertinence des résultats retournés par rapport à l'état de l'art, à partir du moment où la nature de la collection a été prise en compte dans la sélection des arbres structurels en entrée.The work presented in this PhD thesis concerns structured information retrieval and focuses on XML documents. Structured information retrieval (SIR) aims at returning to users document parts (instead of whole documents) relevant to their needs. Those needs are expressed by queries that can contain content conditions as well as structural constraints which are used to specify the location of the needed information. In this work, we are interested in the use of document structure in the retrieval process. We propose some approaches to evaluate the document-query structural similarity. Both query structural constraints and document structures can be represented as trees. Based on this observation we propose two models which aim at matching these tree structures. As tree matching is historically linked with graph theory, our first proposition is based on an adaptation of a solution from the graph theory. After conducting an in depth study of the existing graph theory algorithms, we choose to use Tree Edit Distance (TED), which measures isomorphism (tree similarity) as the minimal set of remove and replace operations to turn one tree to another. As the main drawback of TED algorithms is their time and space complexity, which impacts the overall matching runtime, we propose two ways to overcome these issues. First we propose a TED algorithm having a minimal space complexity overall. Secondly, as runtime is dependent on the input tree cardinality (size) we propose several summarization techniques. Finally, since TED is usually used to assess relatively similar trees and as TED efficiency strongly relies on its costs, we propose a novel way, based on the DTD of documents, to compute these costs. Our second proposition is based on language models which are considered as very effective IR models. Traditionally, they are use to assess the content similarity through the probability of a document model (build upon document terms) to generate the query. We take a different approach based purely on structure and consider the document and query vocabulary as a set of transitions between document structure labels. To build these vocabularies, we propose to extract and weight all the structural relationships through a relaxation process. Finally, as relevance of the returned search results is first assessed based on the content, we propose a content evaluation process which uses the document tree structure to propagate relevance: the relevance of a node is evaluated thanks to its leaves as well as with the document context and neighbour nodes content relevance. In order to validate our models we conduct some experiments on two data-sets from the reference evaluation campaign of our domain: Initiative for XML retrieval (INEX). INEX tracks provide documents collections, metrics and relevance judgments which can be used to assess and compare SIR models. The tracks we use are: * The INEX 2005 SSCAS track whose associated documents are scientific papers extracted from IEEE. We consider this collection to be text-oriented as the structure used is similar to the one we can find in a book. * The INEX 2010 Datacentric track which uses a set of documents extracted from the Internet Movie Database (IMDB) website. This collection is data-oriented as document terms are very specific while the structure carries semantic meaning. Our various experiments show that the matching strategy strongly relies on the document structure type. In text-oriented collections, the structure can be considered as non-strict and several subtrees can be simultaneously used to assess the relevance. On the opposite, structure from documents regarded as data-centered should be used as strictly as possible. The reason is that as elements labels carry semantic, documents structures contain relevant and useful information that the content does not necessarily provide. Finally, our structural similarity approaches improve relevance of the returned results compared to state-of-the-art approaches, as long as the collection nature is considered when extracting the input trees for the structural matching process

    Usagers & Recherche d'Information

    Get PDF
    La recherche d'information est confrontée à une variété de plus en plus importante tant en termes d'usagers, de tâches à remplir, d'outils.... Face à cette hétérogénéité de nombreux travaux, s'attachent à améliorer la recherche d'information par le biais d'approches adaptatives, de systèmes de recommandation... Mes travaux s'inscrivent dans ce cadre et apportent un éclairage essentiellement porté sur l'usager et ses activités et plus particulièrement sur la recherche d'information. Les résultats correspondent à 3 angles d'investigation nous permettant d'aborder cette problématique de l'hétérogénéité en Recherche d'Information

    Recherche d'information et contexte

    Get PDF
    My research work is related the field of Information Retrieval (IR) whose objective is to enable a user to find information that meets its needs within a large volume of information. The work in IR have focused primarily on improving information processing in terms of indexing to obtain optimal representations of documents and queries and in terms of matching between these representations. Contributions have long made no distinction between all searches assuming a unique type of search and when proposing a model intended to be effective for this unique type of search. The growing volume of information and diversity of situations have marked the limits of existing IR approaches bringing out the field of contextual IR. Contextual IR aims to better respond to users' needs taking into account the search context. The principle is to differentiate searches by integrating in the IR process, contextual factors that will influence the IRS effectiveness. The notion of context is broad and refers to all knowledge related to information conducted by a user querying an IRS. My research has been directed toward taking into account the contextual factors that are: the domain of information, the information structure and the user. The first three directions of my work consist in proposing models that incorporate each of these elements of context, and a fourth direction aims at exploring how to adapt the process to each search according to its context. Various European and national projects have provided application frameworks for this research and have allowed us to validate our proposals. This research has also led to development of various prototypes and allowed the conduct of PhD theses and research internships.Mes travaux de recherche s'inscrivent dans le domaine de la recherche d'information (RI) dont l'objectif est de permettre à un utilisateur de trouver de l'information répondant à son besoin au sein d'un volume important d'informations. Les recherches en RI ont été tout d'abord orientées système. Elles sont restées très longtemps axées sur l'appariement pour évaluer la correspondance entre les requêtes et les documents ainsi que sur l'indexation des documents et de requêtes pour obtenir une représentation qui supporte leur mise en correspondance. Cela a conduit à la définition de modèles théoriques de RI comme le modèle vectoriel ou le modèle probabiliste. L'objectif initialement visé a été de proposer un modèle de RI qui possède un comportement global le plus efficace possible. La RI s'est longtemps basée sur des hypothèses simplificatrices notamment en considérant un type unique d'interrogation et en appliquant le même traitement à chaque interrogation. Le contexte dans lequel s'effectue la recherche a été ignoré. Le champ d'application de la RI n'a cessé de s'étendre notamment grâce à l'essor d'internet. Le volume d'information toujours plus important combiné à une utilisation de SRI qui s'est démocratisée ont conduit à une diversité des situations. Cet essor a rendu plus difficile l'identification des informations correspondant à chaque besoin exprimé par un utilisateur, marquant ainsi les limites des approches de RI existantes. Face à ce constat, des propositions ont émergé, visant à faire évoluer la RI en rapprochant l'utilisateur du système tels que les notions de réinjection de pertinence utilisateur ou de profil utilisateur. Dans le but de fédérer les travaux et proposer des SRI offrant plus de précision en réponse au besoin de l'utilisateur, le domaine de la RI contextuelle a récemment émergé. L'objectif est de différencier les recherches au niveau des modèles de RI en intégrant des éléments de contexte susceptibles d'avoir une influence sur les performances du SRI. La notion de contexte est vaste et se réfère à toute connaissance liée à la recherche de l'utilisateur interrogeant un SRI. Mes travaux de recherche se sont orientés vers la prise en compte des éléments de contexte que sont le domaine de l'information, la structure de l'information et l'utilisateur. Ils consistent, dans le cadre de trois premières orientations, à proposer des modèles qui intègrent chacun de ces éléments de contexte, et, dans une quatrième orientation, d'étudier comment adapter les processus à chaque recherche en fonction de son contexte. Différents projets européens et nationaux ont servi de cadre applicatifs à ces recherches et ainsi à valider nos propositions. Mes travaux de recherche ont également fait l'objet de développements dans différents prototypes et ont permis le déroulement de thèses de doctorat et stages de recherche
    corecore