448 research outputs found

    Contribution à l’amélioration de la recherche d’information par utilisation des méthodes sémantiques: application à la langue arabe

    Get PDF
    Un système de recherche d’information est un ensemble de programmes et de modules qui sert à interfacer avec l’utilisateur, pour prendre et interpréter une requête, faire la recherche dans l’index et retourner un classement des documents sélectionnés à cet utilisateur. Cependant le plus grand challenge de ce système est qu’il doit faire face au grand volume d’informations multi modales et multilingues disponibles via les bases documentaires ou le web pour trouver celles qui correspondent au mieux aux besoins des utilisateurs. A travers ce travail, nous avons présenté deux contributions. Dans la première nous avons proposé une nouvelle approche pour la reformulation des requêtes dans le contexte de la recherche d’information en arabe. Le principe est donc de représenter la requête par un arbre sémantique pondéré pour mieux identifier le besoin d'information de l'utilisateur, dont les nœuds représentent les concepts (synsets) reliés par des relations sémantiques. La construction de cet arbre est réalisée par la méthode de la Pseudo-Réinjection de la Pertinence combinée à la ressource sémantique du WordNet Arabe. Les résultats expérimentaux montrent une bonne amélioration dans les performances du système de recherche d’information. Dans la deuxième contribution, nous avons aussi proposé une nouvelle approche pour la construction d’une collection de test de recherche d’information arabe. L'approche repose sur la combinaison de la méthode de la stratégie de Pooling utilisant les moteurs de recherches et l’algorithme Naïve-Bayes de classification par l’apprentissage automatique. Pour l’expérimentation nous avons créé une nouvelle collection de test composée d’une base documentaire de 632 documents et de 165 requêtes avec leurs jugements de pertinence sous plusieurs topics. L’expérimentation a également montré l’efficacité du classificateur Bayésien pour la récupération de pertinences des documents, encore plus, il a réalisé des bonnes performances après l’enrichissement sémantique de la base documentaire par le modèle word2vec

    Usagers & Recherche d'Information

    Get PDF
    La recherche d'information est confrontée à une variété de plus en plus importante tant en termes d'usagers, de tâches à remplir, d'outils.... Face à cette hétérogénéité de nombreux travaux, s'attachent à améliorer la recherche d'information par le biais d'approches adaptatives, de systèmes de recommandation... Mes travaux s'inscrivent dans ce cadre et apportent un éclairage essentiellement porté sur l'usager et ses activités et plus particulièrement sur la recherche d'information. Les résultats correspondent à 3 angles d'investigation nous permettant d'aborder cette problématique de l'hétérogénéité en Recherche d'Information

    Vers une approche automatique pour l'extraction des règles d'affaires d'une application

    Get PDF
    Les compagnies font face à d'énormes coûts pour maintenir leurs applications informatiques. Au fil des ans, le code de ces applications a accumulé des connaissances corporatives importantes (règles d'affaires et décisions de conception). Mais, après plusieurs années d'opération et d'évolution de ce code, ces connaissances deviennent difficiles à récupérer. Les développeurs doivent donc consacrer beaucoup de leur temps à l'analyser: une activité connue sous le nom de \ud « compréhension du logiciel ». Comme il a été estimé que cette activité accapare entre 50 % et 90 % du travail d'un développeur, simplifier le processus de compréhension du logiciel peut avoir un impact significatif dans la réduction des coûts de développement et de maintenance. L'une des solutions au problème de compréhension du logiciel est la rétro-ingénierie. Celle-ci est le processus d'analyse du code source d'une application pour (1) identifier les composantes de l'application et les relations entre ces composantes et (2) créer une représentation de haut niveau de l'application. Plusieurs approches ont été proposées pour la rétro-ingénierie ; cependant, la représentation abstraite du code source extraite par la plupart de ces approches combine la logique d'affaires de l'application et son architecture (ou son infrastructure). Dans ce mémoire, nous présentons une nouvelle approche qui permet d'analyser le code source d'une application orientée objet afin d'en extraire un modèle abstrait ne décrivant que les règles d'affaires de cette application. Ce modèle prend la forme d'un diagramme de classes UML, présentant les classes d'affaires de cette application ainsi que les relations entre ces classes. Cette approche a été validée sur plusieurs systèmes (écrits en Java) de différentes tailles. L'approche donne de bons résultats pour les systèmes possédant une bonne architecture et un bon style de programmation. Dans le cas contraire, les résultats sont moins convaincants

    IntoWeb : une plate forme hypertexte d'extraction de connaissances et de recherche d'information

    Get PDF
    National audienceDans cet article, nous présentons un système hypertexte, nommé IntoWeb, qui fournit aux chercheurs ou spécialistes de l'information scientifique les moyens d'exploiter les données structurées sur leur domaine et des données - textuelles - du web pour des besoins de recherche d'information, d'analyse de leur domaine ou de veille. IntoWeb est un système générique d'exploitation de données qui implémente un processus complet et itératif d'extraction de connaissances à partir de données. Le système permet de manipuler différents types d'objets (documents structurés, documents textuels, vecteurs, classifications, etc.). Des opérateurs (génération d'un vecteur à partir d'un document textuel, classification de documents structurés, etc.) permettent d'exploiter chacun des différents types d'objets à des fins d'analyses ou de recherche d'information. L'application d'un opérateur sur un ensemble d'objets produit de nouveaux objets, à leur tour exploitable dans le système. La résolution complète d'un problème d'extraction de connaissances ou de recherche d'information prend la forme d'une succession d'opérations appliquées à des objets. Le choix des objets à exploiter et des opérations à appliquer à ces objets est à la charge de l'utilisateur et dépend du problème à résoudre ; l'enchaînement des opérations est grandement facilité par IntoWeb grâce à la mise en place d'une interface web simple à utiliser

    Modélisation de connaissances à partir de textes pour une recherche d'information sémantique

    Get PDF
    Avec l'avènement d'Internet et des réseaux d'entreprise, les documents numériques ont subi de profondes transformations, tant dans la diversification de leur support (texte, image, son, vidéo), que dans la forte augmentation de leur nombre accessible informatiquement. La Recherche d'Information (RI) a alors pris une importance capitale : l'utilisateur en quête de données répondant à ses besoins veut disposer de logiciels capables d'exploiter les contenus textuels et de trouver automatiquement tout document pertinent pour la requête. Pour comparer selon leur sens requête et documents, la RI sémantique nécessite deux opérations préalables : l'obtention d'un modèle des connaissances manipulées et, grâce à lui, l'indexation sémantique des données textuelles. Dans ce mémoire, nous étudions les modèles de Ressources Termino-Ontologiques (RTO) adaptés à la RI et développons un formalisme qui, contrairement aux approches classiques, décrit explicitement la relation entre termes du lexique et concepts de l'ontologie, tout en respectant le standard OWL-DL. Nous abordons ensuite la problématique de maintenance d'une RTO pour la RI : quand un domaine évolue dans le temps, sa RTO correspondante doit être modifiée en conséquence. L'originalité de notre approche réside dans la mise en parallèle entre maintenance de RTO et indexation sémantique : l'ontographe définit des règles évaluant automatiquement la correction de la RTO en fonction des résultats d'indexation attendus ; appliquées aux documents à indexer, ces règles aident à repérer ceux qui témoignent de la nécessité de maintenance. L'outil présente alors ces documents avec des conseils de modification. Notre dernière contribution inclut notre formalisme de RTO et le cycle de maintenance au sein d'un processus global de RI sémantique. Nous nous intéressons notamment à la comparaison sémantique d'un document à une requête en langue naturelle. Nous proposons une mesure de similarité tenant compte de la proximité taxonomique de deux notions, ainsi que de la manière dont chacune est reliée sémantiquement à d'autres éléments. La pertinence de nos contributions a été principalement mise à l'épreuve par la réalisation et l'utilisation d'un prototype d'outil pour la RI sémantique dans le cadre d'un partenariat avec Actia, une société spécialiste du diagnostic automobile.With the spreading of Internet and local networks, numerical documents have been undergoing deep mutations, mainly due to the diversification of supports (text, image, sound, video) and their high number accessible by computers. Information Retrieval (IR) has thus become crucial: any user of a search engine wants it to be able to process textual contents to find automatically all documents relevant for their query. In order to compare a query with a document, semantic IR needs two prior operations to be carried out: obtaining a model for the handled knowledge and using it to index semantically the textual data. In this thesis, we study Ontological and Terminological Resources (OTR) adapted for IR and we develop a formalism which, unlike classical approaches, explicitly describes the relationship between terms and concepts, while respecting OWL-DL standard. Afterwards, we broach the topic of maintaining an OTR for IR: when a domain evolves in time, its corresponding OTR must be modified accordingly. The originality of our approach lies in the parallel computing of OTR maintenance and semantic indexing: the engineer can define rules which evaluate automatically the correctness of the OTR with respect to the expected indexing results; applied to the documents to be indexed, these rules help to spot the ones which show the necessity of maintaining the OTR. The tool then displays these documents with evolution advice. Our last contribution consists in integrating our OTR formalism and the maintenance cycle into a global semantic IR process. We especially focus on the semantic matching between a document and a keyword based query. We propose a semantic similarity measure which takes into account both the taxonomical proximity of two notions and the way each one is semantically connected to other entities. The relevance of our contributions was mainly tested by the implementation and use of a prototype tool for semantic IR as part of a partnership with ACTIA, a company specialized in automotive diagnosi

    Recherche d'information et contexte

    Get PDF
    My research work is related the field of Information Retrieval (IR) whose objective is to enable a user to find information that meets its needs within a large volume of information. The work in IR have focused primarily on improving information processing in terms of indexing to obtain optimal representations of documents and queries and in terms of matching between these representations. Contributions have long made no distinction between all searches assuming a unique type of search and when proposing a model intended to be effective for this unique type of search. The growing volume of information and diversity of situations have marked the limits of existing IR approaches bringing out the field of contextual IR. Contextual IR aims to better respond to users' needs taking into account the search context. The principle is to differentiate searches by integrating in the IR process, contextual factors that will influence the IRS effectiveness. The notion of context is broad and refers to all knowledge related to information conducted by a user querying an IRS. My research has been directed toward taking into account the contextual factors that are: the domain of information, the information structure and the user. The first three directions of my work consist in proposing models that incorporate each of these elements of context, and a fourth direction aims at exploring how to adapt the process to each search according to its context. Various European and national projects have provided application frameworks for this research and have allowed us to validate our proposals. This research has also led to development of various prototypes and allowed the conduct of PhD theses and research internships.Mes travaux de recherche s'inscrivent dans le domaine de la recherche d'information (RI) dont l'objectif est de permettre à un utilisateur de trouver de l'information répondant à son besoin au sein d'un volume important d'informations. Les recherches en RI ont été tout d'abord orientées système. Elles sont restées très longtemps axées sur l'appariement pour évaluer la correspondance entre les requêtes et les documents ainsi que sur l'indexation des documents et de requêtes pour obtenir une représentation qui supporte leur mise en correspondance. Cela a conduit à la définition de modèles théoriques de RI comme le modèle vectoriel ou le modèle probabiliste. L'objectif initialement visé a été de proposer un modèle de RI qui possède un comportement global le plus efficace possible. La RI s'est longtemps basée sur des hypothèses simplificatrices notamment en considérant un type unique d'interrogation et en appliquant le même traitement à chaque interrogation. Le contexte dans lequel s'effectue la recherche a été ignoré. Le champ d'application de la RI n'a cessé de s'étendre notamment grâce à l'essor d'internet. Le volume d'information toujours plus important combiné à une utilisation de SRI qui s'est démocratisée ont conduit à une diversité des situations. Cet essor a rendu plus difficile l'identification des informations correspondant à chaque besoin exprimé par un utilisateur, marquant ainsi les limites des approches de RI existantes. Face à ce constat, des propositions ont émergé, visant à faire évoluer la RI en rapprochant l'utilisateur du système tels que les notions de réinjection de pertinence utilisateur ou de profil utilisateur. Dans le but de fédérer les travaux et proposer des SRI offrant plus de précision en réponse au besoin de l'utilisateur, le domaine de la RI contextuelle a récemment émergé. L'objectif est de différencier les recherches au niveau des modèles de RI en intégrant des éléments de contexte susceptibles d'avoir une influence sur les performances du SRI. La notion de contexte est vaste et se réfère à toute connaissance liée à la recherche de l'utilisateur interrogeant un SRI. Mes travaux de recherche se sont orientés vers la prise en compte des éléments de contexte que sont le domaine de l'information, la structure de l'information et l'utilisateur. Ils consistent, dans le cadre de trois premières orientations, à proposer des modèles qui intègrent chacun de ces éléments de contexte, et, dans une quatrième orientation, d'étudier comment adapter les processus à chaque recherche en fonction de son contexte. Différents projets européens et nationaux ont servi de cadre applicatifs à ces recherches et ainsi à valider nos propositions. Mes travaux de recherche ont également fait l'objet de développements dans différents prototypes et ont permis le déroulement de thèses de doctorat et stages de recherche
    • …
    corecore