319 research outputs found

    Une mesure de similarité sémantique utilisant des résultats de psychologie

    Get PDF
    National audienceL'utilisation d'ontologies, c'est-à-dire de bases de connaissances, en recherche d'information est devenue une voie très explorée. Cela permet de dépasser de nombreux problèmes liés aux comparaisons terme à terme entre documents ou entre documents et requêtes, en passant à un niveau d'abstraction supérieur qui n'est pas soumis aux limitations intrinsèques à l'utilisation de mots-clés. De nombreuses techniques utilisent désormais les ontologies (expansion de requêtes, désambiguïsation sémantique, etc.) dans le but d'obtenir de meilleurs résultats en recherche d'information. Un problème récurrent de ces applications est la mesure de proximité entre concepts dans une ontologie. Elle a été étudiée par de nombreux auteurs, et deux grandes approches se sont détachées : les approches basées sur les arcs, c'est-à-dire sur la structure de l'ontologie, et les approches utilisant le contenu informatif des concepts, donc en passant par des corpus renseignant l'importance des concepts dans un document. Nous avons eu besoin de comparer les mesures classiques de distance entre concepts dans une ontologie. Des résultats de psychologie nous ont amenés à en choisir une qui respecte plus la manière dont un humain juge la proximité entre entités

    Intégration holistique et entreposage automatique des données ouvertes

    Get PDF
    Statistical Open Data present useful information to feed up a decision-making system. Their integration and storage within these systems is achieved through ETL processes. It is necessary to automate these processes in order to facilitate their accessibility to non-experts. These processes have also need to face out the problems of lack of schemes and structural and sematic heterogeneity, which characterize the Open Data. To meet these issues, we propose a new ETL approach based on graphs. For the extraction, we propose automatic activities performing detection and annotations based on a model of a table. For the transformation, we propose a linear program fulfilling holistic integration of several graphs. This model supplies an optimal and a unique solution. For the loading, we propose a progressive process for the definition of the multidimensional schema and the augmentation of the integrated graph. Finally, we present a prototype and the experimental evaluations.Les statistiques présentes dans les Open Data ou données ouvertes constituent des informations utiles pour alimenter un système décisionnel. Leur intégration et leur entreposage au sein du système décisionnel se fait à travers des processus ETL. Il faut automatiser ces processus afin de faciliter leur accessibilité à des non-experts. Ces processus doivent pallier aux problèmes de manque de schémas, d'hétérogénéité structurelle et sémantique qui caractérisent les données ouvertes. Afin de répondre à ces problématiques, nous proposons une nouvelle démarche ETL basée sur les graphes. Pour l'extraction du graphe d'un tableau, nous proposons des activités de détection et d'annotation automatiques. Pour la transformation, nous proposons un programme linéaire pour résoudre le problème d'appariement holistique de données structurelles provenant de plusieurs graphes. Ce modèle fournit une solution optimale et unique. Pour le chargement, nous proposons un processus progressif pour la définition du schéma multidimensionnel et l'augmentation du graphe intégré. Enfin, nous présentons un prototype et les résultats d'expérimentations

    Intégration Holistique des Graphes basée sur la Programmation Linéaire pour l'Entreposage des Open Data

    Get PDF
    National audienceDans cet article, nous proposons une approche holistique pour l'intégration des graphes d'Open Data. Ces graphes représentent une classification hiérarchique des concepts extraits des Open Data. Nous nous focalisons sur la conservation de hiérarchies strictes lors de l'intégration afin de pouvoir définir un schéma multidimensionnel à partir de ces hiérarchies et entreposer par la suite ces sources de données. Notre approche est basée sur un programme linéaire qui résout automatiquement la tâche de matching des graphes tout en maximisant globalement la somme des similarités entre les concepts. Ce programme est composé de contraintes sur la cardinalité du matching et de contraintes sur la structure des graphes. A notre connaissance, notre approche est la première à fournir une solution optimale globale pour le matching holistique des graphes avec un temps de résolution raisonnable. Nous comparons également la qualité des résultats de notre approche par rapport à d'autres approches de la littérature

    ANTELOPE - Une plateforme industrielle de traitement linguistique

    Get PDF
    International audienceThe Antelope linguistic platform, inspired by Meaning-Text Theory, targets the syntactic and semantic analysis of texts, and can handle large corpora. Antelope integrates several pre-existing (parsing) components as well as broad-coverage linguistic data originating from various sources. Efforts towards integration of all components nonetheless make for a homogeneous platform. Our direct contribution deals with components for semantic analysis, and the formalization of a unified text analysis model. This paper introduces the platform and compares it with state-of-the-art projects. It offers to the NLP community a feedback from a software company, by underlining the architectural measures that should be taken to ensure that such complex software remains maintainable.La plate-forme de traitement linguistique Antelope, en partie basée sur la Théorie Sens-Texte (TST), permet l'analyse syntaxique et sémantique de textes sur des corpus de volume important. Antelope intègre plusieurs composants préexistants (pour l'analyse syntaxique) ainsi que des données linguistiques à large couverture provenant de différentes sources. Un effort d'intégration permet néanmoins d'offrir une plate-forme homogène. Notre contribution directe concerne l'ajout de composants d'analyse sémantique et la formalisation d'un modèle linguistique unifié. Cet article présente la plate-forme et la compare à d'autres projets de référence. Il propose un retour d'expérience d'un éditeur de logiciel vers la communauté du TAL, en soulignant les précautions architecturales à prendre pour qu'un tel ensemble complexe reste maintenable

    L'ingénierie des documents d'affaires dans le cadre du web sémantique

    Get PDF
    Dans cette thèse, nous présentons les problèmes d’échange de documents d'affaires et proposons une méthode pour y remédier. Nous proposons une méthodologie pour adapter les standards d’affaires basés sur XML aux technologies du Web sémantique en utilisant la transformation des documents définis en DTD ou XML Schema vers une représentation ontologique en OWL 2. Ensuite, nous proposons une approche basée sur l'analyse formelle de concept pour regrouper les classes de l'ontologie partageant une certaine sémantique dans le but d'améliorer la qualité, la lisibilité et la représentation de l'ontologie. Enfin, nous proposons l’alignement d'ontologies pour déterminer les liens sémantiques entre les ontologies d'affaires hétérogènes générés par le processus de transformation pour aider les entreprises à communiquer fructueusement.In this thesis, we present the problems of business document exchanges. We propose a methodology to adapt the XML-based business standards for the Semantic Web technologies by mapping documents defined on DTD or XML Schema to an ontological representation in OWL 2. Next, we propose an approach based on formal concept analysis techniques to regroup the ontology classes sharing some semantics to improve the quality, readability and the representation of the ontology. Finally, we propose ontology alignment to determine the semantic links between heterogeneous business ontologies generated by the transformation process to help entreprises to communicate fruitfully

    Accès personnalisé à l'information : approche basée sur l'utilisation d'un profil utilisateur sémantique dérivé d'une ontologie de domaines à travers l'historique des sessions de recherche

    Get PDF
    Notre contribution porte sur la conception d'un système de RI personnalisé intégrant la caractérisation du type de recherche véhiculé par la requête ainsi que la modélisation et construction de profils sémantiques des utilisateurs. Nous exploitons le contexte de la requête dans un mécanisme de prédiction du type de recherche en tant qu'informationnel lié à la recherche par contenu, navigationnel lié à la recherche des sites d'accueil et transactionnel lié à la recherche des services en ligne. Notre approche de prédiction du type de recherche consiste à combiner des sources d'évidences issues des caractéristiques morphologiques de la requête d'une part et le profil de la session défini par le type de recherche porté par la session de recherche d'autre part. Nous nous intéressons ensuite à exploiter le profil de l'utilisateur dans un processus d'accès personnalisé à l'information. Le profil de l'utilisateur traduit généralement un centre d'intérêt de l'utilisateur et est construit en exploitant les documents jugés pertinents par l'utilisateur et une ressource sémantique, en l'occurrence une ontologie de base, servant à la représentation conceptuelle du profil. Le profil de l'utilisateur est utilisé dans le ré-ordonnancement des résultats de recherche des requêtes appartenant à la même session. Nous avons validé notre approche de prédiction du type de recherche sur une collection de requêtes annotées de TREC par comparaison à un classifieur classique. Nous avons exploité des cadres d'évaluation orientés-contexte pour valider notre contribution dans le domaine.Contextual information retrieval aims at combining knowledge about the query context and the user context in the same framework in order to better meet the user information needs. We propose a search personalization approach integrating a user intent prediction and a semantic user profile modelling. We exploit the query context for predicting the user intent as being informational related to the content retrieval, navigational related to the web site retrieval or transactional related to the online service retrieval. Predicting the user intent consists of combining morphologic query characteristics and the session context defined by the user intent held by the associated queries. We proposed then to exploit the user profile in a personalized information access in order to improve the retrieval effectiveness. We defined the user profile by a user interest built by exploiting the user's documents of interests and an external semantic resource, mainly the ODP ontology, which serves to infer a semantic representation of the user profile. The user profile is then used to re-rank search results of related queries in the same search session. We have validated our approach of predicting the user intent behind the query using TREC collections comparatively to a basic classifier based on a supervised learning technique. As there is no standard evaluation protocol for evaluating personalized access retrieval, we have proposed context-oriented evaluation protocols based on enhancing TREC collection with simulated user profiles and search sessions. We have exploited these protocols to evaluate our contribution in the domain

    Indigo : une approche multi-stratégique et adaptative pour un alignement sémantique intégrant le contexte des données à apparier

    Full text link
    Thèse numérisée par la Division de la gestion de documents et des archives de l'Université de Montréal

    Emergsem : une approche d'annotation collaborative et de recherche d'images basée sur les sémantiques émergentes

    Get PDF
    The extraction of images semantic is a process that requires deep analysis of the image content. It refers to their interpretation from a human point of view. In this lastest case, the image semantic may be generic (e.g., a vehicle) or specific (e.g., a bicycle). It consists in extracting single or multiple images semantic in order to facilitate its retrieval. These objectives clearly show that the extraction of semantic is not a new research field. This thesis deals with the semantic collaborative annotation of images and their retrieval. Firstly, it discusses how annotators could describe and represent images content based on visual information, and secondly how images retrieval could be greatly improved thank to latest techniques, such as clustering and recommendation. To achieve these purposes, the use of implicit image content description tools, interactions of annotators that describe the semantics of images and those of users that use generated semantics to retrieve the images, would be essential. In this thesis, we focus our research on the use of Semantic Web tools, in particular ontologies to produce structured descriptions of images. Ontology is used to represent image objects and the relationships between these objects. In other words, it allows to formally represent the different types of objects and their relationships. Ontology encodes the relational structure of concepts that can be used to describe and reason. This makes them eminently adapted to many problems such as semantic description of images that requires prior knowledge as well as descriptive and normative capacity. The contribution of this thesis is focused on three main points : semantic representation, collaborative semantic annotation and semantic retrieval of images.Semantic representation allows to offer a tool for the capturing semantics of images. To capture the semantics of images, we propose an application ontology derived from a generic ontology. Collaborative semantic annotation that we define, provides emergent semantics through the fusion of semantics proposed by the annotators.Semantic retrieval allows to look for images with semantics provided by collaborative semantic annotation. It is based on clustering and recommendation. Clustering is used to group similar images corresponding to the user’s query and recommendation aims to propose semantics to users based on their profiles. It consists of three steps : creation of users community, acquiring of user profiles and classification of user profiles with Galois algebra. Experiments were conducted to validate the approaches proposed in this work.L’extraction de la sémantique d’une image est un processus qui nécessite une analyse profonde du contenu de l’image. Elle se réfère à leur interprétation à partir d’un point de vuehumain. Dans ce dernier cas, la sémantique d’une image pourrait être générique (par exemple un véhicule) ou spécifique (par exemple une bicyclette). Elle consiste à extraire une sémantique simple ou multiple de l’image afin de faciliter sa récupération. Ces objectifs indiquent clairement que l’extraction de la sémantique n’est pas un nouveau domaine de recherche. Cette thèse traite d’une approche d’annotation collaborative et de recherche d’images baséesur les sémantiques émergentes. Il aborde d’une part, la façon dont les annotateurs pourraient décrire et représenter le contenu des images en se basant sur les informations visuelles, et d’autre part comment la recherche des images pourrait être considérablement améliorée grâce aux récentes techniques, notamment le clustering et la recommandation. Pour atteindre ces objectifs, l’exploitation des outils de description implicite du contenu des images, des interactions des annotateurs qui décrivent la sémantique des images et celles des utilisateurs qui utilisent la sémantique produite pour rechercher les images seraient indispensables.Dans cette thèse, nous nous sommes penchés vers les outils duWeb Sémantique, notamment les ontologies pour décrire les images de façon structurée. L’ontologie permet de représenter les objets présents dans une image ainsi que les relations entre ces objets (les scènes d’image). Autrement dit, elle permet de représenter de façon formelle les différents types d’objets et leurs relations. L’ontologie code la structure relationnelle des concepts que l’on peut utiliser pour décrire et raisonner. Cela la rend éminemment adaptée à de nombreux problèmes comme la description sémantique des images qui nécessite une connaissance préalable et une capacité descriptive et normative.La contribution de cette thèse est focalisée sur trois points essentiels : La représentationsémantique, l’annotation sémantique collaborative et la recherche sémantique des images.La représentation sémantique permet de proposer un outil capable de représenter la sémantique des images. Pour capturer la sémantique des images, nous avons proposé une ontologie d’application dérivée d’une ontologie générique.L’annotation sémantique collaborative que nous proposons consiste à faire émerger la sémantique des images à partir des sémantiques proposées par une communauté d’annotateurs.La recherche sémantique permet de rechercher les images avec les sémantiques fournies par l’annotation sémantique collaborative. Elle est basée sur deux techniques : le clustering et la recommandation. Le clustering permet de regrouper les images similaires à la requête d’utilisateur et la recommandation a pour objectif de proposer des sémantiques aux utilisateurs en se basant sur leurs profils statiques et dynamiques. Elle est composée de trois étapes à savoir : la formation de la communauté des utilisateurs, l’acquisition des profils d’utilisateurs et la classification des profils d’utilisateurs avec l’algèbre de Galois. Des expérimentations ont été menées pour valider les différentes approches proposées dans ce travail

    Un modèle de recherche d'information basé sur les graphes et les similarités structurelles pour l'amélioration du processus de recherche d'information

    Get PDF
    The main objective of IR systems is to select relevant documents, related to a user's information need, from a collection of documents. Traditional approaches for document/query comparison use surface similarity, i.e. the comparison engine uses surface attributes (indexing terms). We propose a new method which uses a special kind of similarity, namely structural similarities (similarities that use both surface attributes and relation between attributes). These similarities were inspired from cognitive studies and a general similarity measure based on node comparison in a bipartite graph. We propose an adaptation of this general method to the special context of information retrieval. Adaptation consists in taking into account the domain specificities: data type, weighted edges, normalization choice. The core problem is how documents are compared against queries. The idea we develop is that similar documents will share similar terms and similar terms will appear in similar documents. We have developed an algorithm which traduces this idea. Then we have study problem related to convergence and complexity, then we have produce some test on classical collection and compare our measure with two others that are references in our domain. The Report is structured in five chapters: First chapter deals with comparison problem, and related concept like similarities, we explain different point of view and propose an analogy between cognitive similarity model and IR model. In the second chapter we present the IR task, test collection and measures used to evaluate a relevant document list. The third chapter introduces graph definition: our model is based on graph bipartite representation, so we define graphs and criterions used to evaluate them. The fourth chapter describe how we have adopted, and adapted the general comparison method. The Fifth chapter describes how we evaluate the ordering performance of our method, and also how we have compared our method with two others.Cette thèse d'informatique s'inscrit dans le domaine de la recherche d'information (RI). Elle a pour objet la création d'un modèle de recherche utilisant les graphes pour en exploiter la structure pour la détection de similarités entre les documents textuels d'une collection donnée et une requête utilisateur en vue d'améliorer le processus de recherche d'information. Ces similarités sont dites « structurelles » et nous montrons qu'elles apportent un gain d'information bénéfique par rapport aux seules similarités directes. Le rapport de thèse est structuré en cinq chapitres. Le premier chapitre présente un état de l'art sur la comparaison et les notions connexes que sont la distance et la similarité. Le deuxième chapitre présente les concepts clés de la RI, notamment l'indexation des documents, leur comparaison, et l'évaluation des classements retournés. Le troisième chapitre est consacré à la théorie des graphes et introduit les notations et notions liées à la représentation par graphe. Le quatrième chapitre présente pas à pas la construction de notre modèle pour la RI, puis, le cinquième chapitre décrit son application dans différents cas de figure, ainsi que son évaluation sur différentes collections et sa comparaison à d'autres approches

    Un système de recherche d'information personnalisée basé sur la modélisation multidimensionnelle de l'utilisateur

    Get PDF
    Depuis l'explosion du Web, la Recherche d'Information (RI) s'est vue étendue et les moteurs de recherche sur le Web ont vu le jour. Les méthodes classiques de la RI, surtout destinées à des recherches textuelles simples, se sont retrouvées face à des documents de différents formats et des contenus riches. L'utilisateur, en réponse à cette avancée, est devenu plus exigeant quant aux résultats retournés par les systèmes de RI. La personnalisation tente de répondre à ces exigences en ayant pour objectif principal l'amélioration des résultats retournés à l'utilisateur en fonction de sa perception et de ses intérêts ainsi que de ses préférences. Le présent travail de thèse se situe à la croisée des différents aspects présentés et couvre cette problématique. Elle a pour objectif principal de proposer des solutions nouvelles et efficaces à cette problématique. Pour atteindre cet objectif, un système de personnalisation de la recherche spatiale et sémantique sur le Web et intégrant la modélisation de l'utilisateur, a été proposé. Ce système comprend deux volets : 1/ la modélisation de l'utilisateur ; 2/ la collaboration implicite des utilisateurs à travers la construction d'un réseau de modèles utilisateurs, construit itérativement lors des différentes recherches effectuées en ligne. Un prototype supportant le système proposé a été développé afin d'expérimenter et d'évaluer l'ensemble de la proposition. Ainsi, nous avons effectué un ensemble d'évaluation, dont les principales sont : a) l'évaluation de la qualité du modèle de l'utilisateur ; b) l'évaluation de l'efficacité de la recherche d'information ; c) l évaluation de l'efficacité de la recherche d'information intégrant les informations spatiales ; d) l'évaluation de la recherche exploitant le réseau d'utilisateurs. Les expérimentations menées montrent une amélioration de la personnalisation des résultats présentés par rapport à ceux obtenus par d'autres moteurs de recherche.The web explosion has led Information Retrieval (IR) to be extended and web search engines emergence. The conventional IR methods, usually intended for simple textual searches, faced new documents types and rich and scalable contents. The users, facing these evolutions, ask more for IR systems search results quality. In this context, the personalization main objective is improving results returned to the end user based sing on its perception and its interests and preferences. This thesis context is concerned with these different aspects. Its main objective is to propose new and effective solutions to the personalization problem. To achieve this goal, a spatial and semantic web personalization system integrating implicit user modeling is proposed. This system has two components: 1/ user modeling; /2 implicit users' collaboration through the construction of a users' models network. A system prototype was developed for the evaluation purpose that contains: a) user model quality evaluation; b) information retrieval quality evaluation; c) information retrieval quality evaluation with the spatial user model data; d) information retrieval quality evaluation with the whole user model data and the users' models network. Experiments showed amelioration in the personalized search results compared to a baseline web search.PARIS11-SCD-Bib. électronique (914719901) / SudocSudocFranceF
    • …
    corecore