68 research outputs found

    Actes des 25es journées francophones d'Ingénierie des Connaissances (IC 2014)

    Get PDF
    National audienceLes Journées Francophones d'Ingénierie des Connaissances fêtent cette année leurs 25 ans. Cette conférence est le rendez-vous annuel de la communauté française et francophone qui se retrouve pour échanger et réfléchir sur des problèmes de recherche qui se posent en acquisition, représentation et gestion des connaissances. Parmi les vingt et un articles sélectionnés pour publication et présentation à la conférence, un thème fondateur de l'ingénierie des connaissances domine : celui de la modélisation de domaines. Six articles traitent de la conception d'ontologies, trois articles de l'annotation sémantique et du peuplement d'ontologies et deux articles de l'exploitation d'ontologies dans des systèmes à base de connaissances. L'informatique médicale est le domaine d'application privilégié des travaux présentés, que l'on retrouve dans sept articles. L'ingénierie des connaissances accompagne l'essor des technologies du web sémantique, en inventant les modèles, méthodes et outils permettant l'intégration de connaissances et le raisonnement dans des systèmes à base de connaissances sur le web. Ainsi, on retrouve les thèmes de la représentation des connaissances et du raisonnement dans six articles abordant les problématiques du web de données : le liage des données, leur transformation et leur interrogation ; la représentation et la réutilisation de règles sur le web de données ; la programmation d'applications exploitant le web de données. L'essor des sciences et technologies de l'information et de la communication, et notamment des technologies du web, dans l'ensemble de la société engendre des mutations dans les pratiques individuelles et collectives. L'ingénierie des connaissances accompagne cette évolution en plaçant l'utilisateur au cœur des systèmes informatiques, pour l'assister dans le traitement de la masse de données disponibles. Quatre articles sont dédiés aux problématiques du web social : analyse de réseaux sociaux, détection de communautés, folksonomies, personnalisation de recommandations, représentation et prise en compte de points de vue dans la recherche d'information. Deux articles traitent de l'adaptation des systèmes aux utilisateurs et de l'assistance aux utilisateurs et deux autres de l'aide à la prise de décision. Le taux de sélection de cette édition de la conférence est de 50%, avec dix-neuf articles longs et deux articles courts acceptés parmi quarante-deux soumissions. S'y ajoutent une sélection de neuf posters et démonstrations parmi douze soumissions, présentés dans une session dédiée et inclus dans les actes. Enfin, une innovation de cette édition 2014 de la conférence est la programmation d'une session spéciale " Projets et Industrie ", animée par Frédérique Segond (Viseo), à laquelle participeront Laurent Pierre (EDF), Alain Berger (Ardans) et Mylène Leitzelman (Mnemotix). Trois conférencières invitées ouvriront chacune des journées de la conférence que je remercie chaleureusement de leur participation. Nathalie Aussenac-Gilles (IRIT) retracera l'évolution de l'ingénierie des connaissances en France depuis 25 ans, de la pénurie à la surabondance. A sa suite, Frédérique Segond (Viseo) abordera le problème de " l'assouvissement " de la faim de connaissances dans la nouvelle ère des connaissances dans laquelle nous sommes entrés. Enfin, Marie-Laure Mugnier (LIRMM) présentera un nouveau cadre pour l'interrogation de données basée sur une ontologie, fondé sur des règles existentielles

    Gestion de l'incertitude dans le processus d'extraction de connaissances Ă  partir de textes

    Get PDF
    The increase of textual sources over the Web offers an opportunity for knowledge extraction and knowledge base creation. Recently, several research works on this topic have appeared or intensified. They generally highlight that to extract relevant and precise information from text, it is necessary to define a collaboration between linguistic approaches, e.g., to extract certain concepts regarding named entities, temporal and spatial aspects, and methods originating from the field of semantics' processing. Moreover, successful approaches also need to qualify and quantify the uncertainty present in the text. Finally, in order to be relevant in the context of the Web, the linguistic processing need to be consider several sources in different languages. This PhD thesis tackles this problematic in its entirety since our contributions cover the extraction, representation of uncertain knowledge as well as the visualization of generated graphs and their querying. This research work has been conducted within a CIFRE funding involving the Laboratoire d'Informatique Gaspard Monge (LIGM) of the Université Paris-Est Marne la Vallée and the GEOLSemantics start-up. It was leveraging from years of accumulated experience in natural language processing (GeolSemantics) and semantics processing (LIGM).In this context, our contributions are the following:- the integration of a qualifation of different forms of uncertainty, based on ontology processing, within the knowledge extraction processing,- the quantification of uncertainties based on a set of heuristics,- a representation, using RDF graphs, of the extracted knowledge and their uncertainties,- an evaluation and an analysis of the results obtained using our approachLa multiplication de sources textuelles sur le Web offre un champ pour l'extraction de connaissances depuis des textes et à la création de bases de connaissances. Dernièrement, de nombreux travaux dans ce domaine sont apparus ou se sont intensifiés. De ce fait, il est nécessaire de faire collaborer des approches linguistiques, pour extraire certains concepts relatifs aux entités nommées, aspects temporels et spatiaux, à des méthodes issues des traitements sémantiques afin de faire ressortir la pertinence et la précision de l'information véhiculée. Cependant, les imperfections liées au langage naturel doivent être gérées de manière efficace. Pour ce faire, nous proposons une méthode pour qualifier et quantifier l'incertitude des différentes portions des textes analysés. Enfin, pour présenter un intérêt à l'échelle du Web, les traitements linguistiques doivent être multisources et interlingue. Cette thèse s'inscrit dans la globalité de cette problématique, c'est-à-dire que nos contributions couvrent aussi bien les aspects extraction et représentation de connaissances incertaines que la visualisation des graphes générés et leur interrogation. Les travaux de recherche se sont déroulés dans le cadre d'une bourse CIFRE impliquant le Laboratoire d'Informatique Gaspard Monge (LIGM) de l'Université Paris-Est Marne la Vallée et la société GEOLSemantics. Nous nous appuyons sur une expérience cumulée de plusieurs années dans le monde de la linguistique (GEOLSemantics) et de la sémantique (LIGM).Dans ce contexte, nos contributions sont les suivantes :- participation au développement du système d'extraction de connaissances de GEOLSemantics, en particulier : (1) le développement d'une ontologie expressive pour la représentation des connaissances, (2) le développement d'un module de mise en cohérence, (3) le développement d'un outil visualisation graphique.- l'intégration de la qualification de différentes formes d'incertitude, au sein du processus d'extraction de connaissances à partir d'un texte,- la quantification des différentes formes d'incertitude identifiées ;- une représentation, à l'aide de graphes RDF, des connaissances et des incertitudes associées ;- une méthode d'interrogation SPARQL intégrant les différentes formes d'incertitude ;- une évaluation et une analyse des résultats obtenus avec notre approch

    Modélisation pour la gestion de modèles

    Full text link
    Thèse numérisée par la Direction des bibliothèques de l'Université de Montréal

    Interrogation d'un réseau sémantique de documents : l'intertextualité dans l'accès à l'information juridique

    Get PDF
    A collection of documents is generally represented as a set of documents but this simple representation does not take into account cross references between documents, which often defines their context of interpretation. This standard document model is less adapted for specific professional uses in specialized domains in which documents are related by many various references and the access tools need to consider this complexity. We propose two models based on formal and relational concept analysis and on semantic web techniques. Applied on documentary objects, these two models represent and query in a unified way documents content descriptors and documents relations.Une collection documentaire est généralement représentée comme un ensemble de documents mais cette modélisation ne permet pas de rendre compte des relations intertextuelles et du contexte d'interprétation d'un document. Le modèle documentaire classique trouve ses limites dans les domaines spécialisés où les besoins d'accès à l'information correspondent à des usages spécifiques et où les documents sont liés par de nombreux types de relations. Ce travail de thèse propose deux modèles permettant de prendre en compte cette complexité des collections documentaire dans les outils d'accès à l'information. Le premier modèle est basée sur l'analyse formelle et relationnelle de concepts, le deuxième est basée sur les technologies du web sémantique. Appliquées sur des objets documentaires ces modèles permettent de représenter et d'interroger de manière unifiée les descripteurs de contenu des documents et les relations intertextuelles qu'ils entretiennent

    DE LA MODELISATION A L'EXPLOITATION DES DOCUMENTS A STRUCTURES MULTIPLES

    Get PDF
    With the recent development of new information and communication technologies, the paper documents are transformed to digital documents. Furthermore, it considers that the document is no longer seen as a whole, or as a monolithic bloc, but as organized entities. Exploiting these documents amount to identify and locate these entities. These entities are connected by relationships to give a "form" to document. Several types of relationships may occur, so that several "forms" of a document emerge. These different materializations of the same document are related to different uses of the same document and are essential for optimal management and shared of holdings. The work presented in this thesis aims to address the challenges of representing different materializations of a document through its representation of entities and their relationships. If those materializations are translated through structures, the issues are related to the representation of multistructured documents. Our work focuses mainly on the modeling, integration and exploitation of multistructured documents: (1) Proposal of multistructured document model. This model incorporates two levels of description: a specific level to describe each document through entities that compose and a generic level to identify document kinds through the grouping of similar structures. (2) Proposal of techniques for extracting structure (implicit or explicit) of a document (the specific level) and classification of this structure with respect to common structures (the generic level). The classification algorithm proposed includes a calculation of distance called "structural" (comparison of trees and graphs). This classification is associated with a process of verification of the "cohesion" of classes and possible reorganization of disrupted classes. (3) Proposal of document exploitation technical from their structures and their contents: (a) a document search that can reproduce documentary granules through criteria based on research of structures and / or content, (b) a multidimensional analysis that is to analyze and visualize the documentary information across multiple dimensions (of structures and / or content). In order to validate our proposals, we have developed a tool for integration and analysis of multistructured documents, called MDOCREP (Multistructured Document Repository). This tool provides on the one hand, the extraction and classification of document structures, and on the other hand, the querying and the multidimensional analysis of documents from their different structures.Avec l'évolution des nouvelles technologies de l'information et de la communication, les documents papier ont laissé la place aux documents numériques. On considère de plus que le document n'est plus vu comme un tout, ni comme un bloc monolithique, mais comme un ensemble organisé d'entités. Exploiter ces documents revient à identifier et retrouver ces entités. Ces dernières sont reliées par des relations permettant de donner une « forme » au document. Plusieurs types de relations peuvent apparaître, de sorte à ce que plusieurs « formes » d'un même document émergent. Ces différentes matérialisations d'un même document sont liées à des usages différents d'un même document et sont primordiales pour une gestion optimale et partagée des fonds documentaires. Les travaux présentés dans cette thèse visent à faire face aux défis de représentation des différentes matérialisations d'un document au travers de la représentation de ses entités et de leurs relations. Si ces matérialisations sont traduites par des structures, les enjeux concernent la représentation des documents à structures multiples. Nos travaux portent essentiellement sur la modélisation, l'intégration et l'exploitation des documents à structures multiples : (1) Proposition d'un modèle de documents multistructurés. Ce modèle intègre deux niveaux de description : un niveau spécifique permettant de décrire chaque document au travers des entités qui le composent et un niveau générique permettant de définir des typologies de documents au travers du regroupement de structures similaires. (2) Proposition des techniques d'extraction de structure (implicite ou explicite) d'un document (niveau spécifique) et de classification de cette structure par rapport à des structures communes (niveau générique). L'algorithme de classification proposé intègre un calcul d'une distance dite « structurelle » (comparaison d'arbres et de graphes). Cette démarche de classification est associée à une démarche de vérification de la « cohésion » des classes et de réorganisation éventuelle des classes perturbées. (3) Proposition de techniques d'exploitation des documents à partir de leurs structures et de leur contenu : (a) une recherche de documents qui permet de restituer des granules documentaires selon des critères de recherches basés sur la ou les structures et/ou le contenu ; (b) une analyse multidimensionnelle qui consiste à analyser et visualiser les informations documentaires selon plusieurs dimensions (de structures et/ou de contenu). Pour valider nos propositions, nous avons développé un outil d'aide à l'intégration et à l'analyse de documents à structures multiples, intitulé MDOCREP (Multistructured DOCument REPository). Cet outil assure d'une part, l'extraction et la classification des structures de documents, et d'autre part, l'interrogation et la restitution multidimensionnelle des documents à partir de leurs différentes structures

    Actes de la conférence BDA 2014 : Gestion de données - principes, technologies et applications

    No full text
    International audienceActes de la conférence BDA 2014 Conférence soutenue par l'Université Joseph Fourier, Grenoble INP, le CNRS et le laboratoire LIG. Site de la conférence : http://bda2014.imag.fr Actes en ligne : https://hal.inria.fr/BDA201

    Vérification de modèles de processus d’entreprise : une approche formelle.

    Get PDF
    Dans le cycle de vie de développement d’un système industriel, les phases de vérification et, si possible de validation, impactent notablement sur la qualité du système final c’est à dire son adéquation et sa pertinence vis-à-vis de ses objectifs cibles. Dans le domaine de la Modélisation d’Entreprise, il existe peu d’outils de vérification et/ou de validation basés sur d’autres approches que la simulation. Cet article présente une approche formelle pour la vérification des modèles de processus d’entreprise par preuve de propriétés. Cette démarche s’appuie tout d’abord sur la construction d’une ontologie du domaine concerné visant à définir rigoureusement le vocabulaire qui sera utilisé pendant les phases de vérification. Elle met ensuite en œuvre des mécanismes de traduction et de raisonnement utilisant les graphes conceptuels qui s’avèrent aisés à manipuler dans un milieu industriel. Une mise en œuvre de la démarche de vérification proprement dite est enfin proposée afin de démontrer l’intérêt de ce type d’approche dans le domaine

    Intégration holistique et entreposage automatique des données ouvertes

    Get PDF
    Statistical Open Data present useful information to feed up a decision-making system. Their integration and storage within these systems is achieved through ETL processes. It is necessary to automate these processes in order to facilitate their accessibility to non-experts. These processes have also need to face out the problems of lack of schemes and structural and sematic heterogeneity, which characterize the Open Data. To meet these issues, we propose a new ETL approach based on graphs. For the extraction, we propose automatic activities performing detection and annotations based on a model of a table. For the transformation, we propose a linear program fulfilling holistic integration of several graphs. This model supplies an optimal and a unique solution. For the loading, we propose a progressive process for the definition of the multidimensional schema and the augmentation of the integrated graph. Finally, we present a prototype and the experimental evaluations.Les statistiques présentes dans les Open Data ou données ouvertes constituent des informations utiles pour alimenter un système décisionnel. Leur intégration et leur entreposage au sein du système décisionnel se fait à travers des processus ETL. Il faut automatiser ces processus afin de faciliter leur accessibilité à des non-experts. Ces processus doivent pallier aux problèmes de manque de schémas, d'hétérogénéité structurelle et sémantique qui caractérisent les données ouvertes. Afin de répondre à ces problématiques, nous proposons une nouvelle démarche ETL basée sur les graphes. Pour l'extraction du graphe d'un tableau, nous proposons des activités de détection et d'annotation automatiques. Pour la transformation, nous proposons un programme linéaire pour résoudre le problème d'appariement holistique de données structurelles provenant de plusieurs graphes. Ce modèle fournit une solution optimale et unique. Pour le chargement, nous proposons un processus progressif pour la définition du schéma multidimensionnel et l'augmentation du graphe intégré. Enfin, nous présentons un prototype et les résultats d'expérimentations
    • …
    corecore