41 research outputs found

    SMILK, trait d'union entre langue naturelle et données sur le web

    Get PDF
    National audienceAs part of the SMILK Joint Lab, we studied the use of Natural Language Processing to: (1) enrich knowledge bases and link data on the web, and conversely (2) use this linked data to contribute to the improvement of text analysis and the annotation of textual content, and to support knowledge extraction. The evaluation focused on brand-related information retrieval in the field of cosmetics. This article describes each step of our approach: the creation of ProVoc, an ontology to describe products and brands; the automatic population of a knowledge base mainly based on ProVoc from heterogeneous textual resources; and the evaluation of an application which that takes the form of a browser plugin providing additional knowledge to users browsing the web.Le laboratoire commun SMILK avait pour double sujet d'étude l'utilisation du traitement automatique du langage naturel pour aider à la construction et au liage de données sur le web et, à l'inverse, l'utilisation de ces données liées du web sémantique pour aider à l'analyse des textes et venir en appui de l'extraction de connaissances et l'annotation de contenus textuels. L'évaluation de nos travaux s'est focalisée sur la recherche d'informations portant sur des marques, plus particulièrement dans le domaine de la cosmétique. Cet article décrit chaque étape de notre approche : la conception de ProVoc, une ontologie pour décrire les produits et marques ; le peuplement automatique d'une base de connaissances reposant notamment sur ProVoc à partir de ressources textuelles hétérogènes; et l'évaluation d'une application prenant la forme d'un plugin de navigateur proposant des connaissances supplémentaires aux utilisateurs naviguant sur le web

    Recherche d'information précise dans des sources d'information structurées et non structurées: défis, approches et hybridation.

    Get PDF
    National audienceCet article propose une synthèse d'une part sur les approches développées en questions-réponses (QR) sur du texte, en insistant plus particulièrement sur les modèles exploitant des représentations structurées des textes, et d'autre part sur les approches récentes en QR sur des bases de connaissances. Notre objectif est de montrer les problématiques communes et le rapprochement possible de ces deux types de recherche de réponses en prenant appui sur la reconnaissance des relations présentes dans les énoncés textuels et dans les bases de connaissances. Nous présentons les quelques travaux relevant de ce type d'approche afin de mettre en perspective les questions ouvertes pour aller vers des systèmes réellement hybrides ancrés sur des représentations sémantiques

    Des spécifications en langage naturel aux spécifications formelles via une ontologie comme modèle pivot

    Get PDF
    Le développement d'un système a pour objectif de répondre à des exigences. Aussi, le succès de sa réalisation repose en grande partie sur la phase de spécification des exigences qui a pour vocation de décrire de manière précise et non ambiguë toutes les caractéristiques du système à développer.Les spécifications d'exigences sont le résultat d'une analyse des besoins faisant intervenir différentes parties. Elles sont généralement rédigées en langage naturel (LN) pour une plus large compréhension, ce qui peut mener à diverses interprétations, car les textes en LN peuvent contenir des ambiguïtés sémantiques ou des informations implicites. Il n'est donc pas aisé de spécifier un ensemble complet et cohérent d'exigences. D'où la nécessité d'une vérification formelle des spécifications résultats.Les spécifications LN ne sont pas considérées comme formelles et ne permettent pas l'application directe de méthodes vérification formelles.Ce constat mène à la nécessité de transformer les spécifications LN en spécifications formelles.C'est dans ce contexte que s'inscrit cette thèse.La difficulté principale d'une telle transformation réside dans l'ampleur du fossé entre spécifications LN et spécifications formelles.L'objectif de mon travail de thèse est de proposer une approche permettant de vérifier automatiquement des spécifications d'exigences utilisateur, écrites en langage naturel et décrivant le comportement d'un système.Pour cela, nous avons exploré les possibilités offertes par un modèle de représentation fondé sur un formalisme logique.Nos contributions portent essentiellement sur trois propositions :1) une ontologie en OWL-DL fondée sur les logiques de description, comme modèle de représentation pivot permettant de faire le lien entre spécifications en langage naturel et spécifications formelles; 2) une approche d'instanciation du modèle de représentation pivot, fondée sur une analyse dirigée par la sémantique de l'ontologie, permettant de passer automatiquement des spécifications en langage naturel à leur représentation conceptuelle; et 3) une approche exploitant le formalisme logique de l'ontologie, pour permettre un passage automatique du modèle de représentation pivot vers un langage de spécifications formelles nommé Maude.The main objective of system development is to address requirements. As such, success in its realisation is highly dependent on a requirement specification phase which aims to describe precisely and unambiguously all the characteristics of the system that should be developed. In order to arrive at a set of requirements, a user needs analysis is carried out which involves different parties (stakeholders). The system requirements are generally written in natural language to garantuee a wider understanding. However, since NL texts can contain semantic ambiguities, implicit information, or other inconsistenties, this can lead to diverse interpretations. Hence, it is not easy to specify a set of complete and consistent requirements, and therefore, the specified requirements must be formally checked. Specifications written in NL are not considered to be formal and do not allow for a direct application of formal methods. We must therefore transform NL requirements into formal specifications. The work presented in this thesis was carried out in this framework. The main difficulty of such transformation is the gap between NL requirements and formal specifications. The objective of this work is to propose an approach for an automatic verification of user requirements which are written in natural language and describe a system's expected behaviour. Our approach uses the potential offered by a representation model based on a logical formalism. Our contribution has three main aspects: 1) an OWL-DL ontology based on description logic, used as a pivot representation model that serves as a link between NL requirements to formal specifications; 2) an approach for the instantiation of the pivot ontology, which allows an automatic transformation of NL requirements to their conceptual representations; and 3) an approach exploiting the logical formalism of the ontology in order to automatically translate the ontology into a formal specification language called Maude.PARIS11-SCD-Bib. électronique (914719901) / SudocSudocFranceF

    Modélisation de connaissances à partir de textes pour une recherche d'information sémantique

    Get PDF
    Avec l'avènement d'Internet et des réseaux d'entreprise, les documents numériques ont subi de profondes transformations, tant dans la diversification de leur support (texte, image, son, vidéo), que dans la forte augmentation de leur nombre accessible informatiquement. La Recherche d'Information (RI) a alors pris une importance capitale : l'utilisateur en quête de données répondant à ses besoins veut disposer de logiciels capables d'exploiter les contenus textuels et de trouver automatiquement tout document pertinent pour la requête. Pour comparer selon leur sens requête et documents, la RI sémantique nécessite deux opérations préalables : l'obtention d'un modèle des connaissances manipulées et, grâce à lui, l'indexation sémantique des données textuelles. Dans ce mémoire, nous étudions les modèles de Ressources Termino-Ontologiques (RTO) adaptés à la RI et développons un formalisme qui, contrairement aux approches classiques, décrit explicitement la relation entre termes du lexique et concepts de l'ontologie, tout en respectant le standard OWL-DL. Nous abordons ensuite la problématique de maintenance d'une RTO pour la RI : quand un domaine évolue dans le temps, sa RTO correspondante doit être modifiée en conséquence. L'originalité de notre approche réside dans la mise en parallèle entre maintenance de RTO et indexation sémantique : l'ontographe définit des règles évaluant automatiquement la correction de la RTO en fonction des résultats d'indexation attendus ; appliquées aux documents à indexer, ces règles aident à repérer ceux qui témoignent de la nécessité de maintenance. L'outil présente alors ces documents avec des conseils de modification. Notre dernière contribution inclut notre formalisme de RTO et le cycle de maintenance au sein d'un processus global de RI sémantique. Nous nous intéressons notamment à la comparaison sémantique d'un document à une requête en langue naturelle. Nous proposons une mesure de similarité tenant compte de la proximité taxonomique de deux notions, ainsi que de la manière dont chacune est reliée sémantiquement à d'autres éléments. La pertinence de nos contributions a été principalement mise à l'épreuve par la réalisation et l'utilisation d'un prototype d'outil pour la RI sémantique dans le cadre d'un partenariat avec Actia, une société spécialiste du diagnostic automobile.With the spreading of Internet and local networks, numerical documents have been undergoing deep mutations, mainly due to the diversification of supports (text, image, sound, video) and their high number accessible by computers. Information Retrieval (IR) has thus become crucial: any user of a search engine wants it to be able to process textual contents to find automatically all documents relevant for their query. In order to compare a query with a document, semantic IR needs two prior operations to be carried out: obtaining a model for the handled knowledge and using it to index semantically the textual data. In this thesis, we study Ontological and Terminological Resources (OTR) adapted for IR and we develop a formalism which, unlike classical approaches, explicitly describes the relationship between terms and concepts, while respecting OWL-DL standard. Afterwards, we broach the topic of maintaining an OTR for IR: when a domain evolves in time, its corresponding OTR must be modified accordingly. The originality of our approach lies in the parallel computing of OTR maintenance and semantic indexing: the engineer can define rules which evaluate automatically the correctness of the OTR with respect to the expected indexing results; applied to the documents to be indexed, these rules help to spot the ones which show the necessity of maintaining the OTR. The tool then displays these documents with evolution advice. Our last contribution consists in integrating our OTR formalism and the maintenance cycle into a global semantic IR process. We especially focus on the semantic matching between a document and a keyword based query. We propose a semantic similarity measure which takes into account both the taxonomical proximity of two notions and the way each one is semantically connected to other entities. The relevance of our contributions was mainly tested by the implementation and use of a prototype tool for semantic IR as part of a partnership with ACTIA, a company specialized in automotive diagnosi

    Actes des 25es journées francophones d'Ingénierie des Connaissances (IC 2014)

    Get PDF
    National audienceLes Journées Francophones d'Ingénierie des Connaissances fêtent cette année leurs 25 ans. Cette conférence est le rendez-vous annuel de la communauté française et francophone qui se retrouve pour échanger et réfléchir sur des problèmes de recherche qui se posent en acquisition, représentation et gestion des connaissances. Parmi les vingt et un articles sélectionnés pour publication et présentation à la conférence, un thème fondateur de l'ingénierie des connaissances domine : celui de la modélisation de domaines. Six articles traitent de la conception d'ontologies, trois articles de l'annotation sémantique et du peuplement d'ontologies et deux articles de l'exploitation d'ontologies dans des systèmes à base de connaissances. L'informatique médicale est le domaine d'application privilégié des travaux présentés, que l'on retrouve dans sept articles. L'ingénierie des connaissances accompagne l'essor des technologies du web sémantique, en inventant les modèles, méthodes et outils permettant l'intégration de connaissances et le raisonnement dans des systèmes à base de connaissances sur le web. Ainsi, on retrouve les thèmes de la représentation des connaissances et du raisonnement dans six articles abordant les problématiques du web de données : le liage des données, leur transformation et leur interrogation ; la représentation et la réutilisation de règles sur le web de données ; la programmation d'applications exploitant le web de données. L'essor des sciences et technologies de l'information et de la communication, et notamment des technologies du web, dans l'ensemble de la société engendre des mutations dans les pratiques individuelles et collectives. L'ingénierie des connaissances accompagne cette évolution en plaçant l'utilisateur au cœur des systèmes informatiques, pour l'assister dans le traitement de la masse de données disponibles. Quatre articles sont dédiés aux problématiques du web social : analyse de réseaux sociaux, détection de communautés, folksonomies, personnalisation de recommandations, représentation et prise en compte de points de vue dans la recherche d'information. Deux articles traitent de l'adaptation des systèmes aux utilisateurs et de l'assistance aux utilisateurs et deux autres de l'aide à la prise de décision. Le taux de sélection de cette édition de la conférence est de 50%, avec dix-neuf articles longs et deux articles courts acceptés parmi quarante-deux soumissions. S'y ajoutent une sélection de neuf posters et démonstrations parmi douze soumissions, présentés dans une session dédiée et inclus dans les actes. Enfin, une innovation de cette édition 2014 de la conférence est la programmation d'une session spéciale " Projets et Industrie ", animée par Frédérique Segond (Viseo), à laquelle participeront Laurent Pierre (EDF), Alain Berger (Ardans) et Mylène Leitzelman (Mnemotix). Trois conférencières invitées ouvriront chacune des journées de la conférence que je remercie chaleureusement de leur participation. Nathalie Aussenac-Gilles (IRIT) retracera l'évolution de l'ingénierie des connaissances en France depuis 25 ans, de la pénurie à la surabondance. A sa suite, Frédérique Segond (Viseo) abordera le problème de " l'assouvissement " de la faim de connaissances dans la nouvelle ère des connaissances dans laquelle nous sommes entrés. Enfin, Marie-Laure Mugnier (LIRMM) présentera un nouveau cadre pour l'interrogation de données basée sur une ontologie, fondé sur des règles existentielles

    Apport du Web sémantique au travail collaboratif : Application à l'édition d'un document d'information sur les risques majeurs

    Get PDF
    http://www.irit.fr/~Guillaume.Cabanac/docs/fjc2014/fjc2014actes.pdf" Collaborer " , " travailler ensemble " , ce sont des réalités familières à chacun d'entre nous. Or les techniques ont progressé et ont pris un nouveau tournant avec l'arrivée du numérique dans l'entreprise. Bien que l'introduction du numérique ne se fasse pas sans difficultés, de nouveaux outils continuent d'apparaître : le travail collaboratif assisté par ordinateur est progressivement devenu un domaine d'étude à part entière. Notre recherche s'inscrit dans ce courant et étudie les apports possibles des technologies du Web sémantique au travail collaboratif. Ces technologies, en apportant les concepts d'ontologie, de métadonnées, d'inférence, participent au passage d'un système d'information à un système plus orienté connaissance. Devant ce vaste champ d'étude, nous avons pour nous guider un cas d'application qui est d'ailleurs à l'origine de ces travaux. Il s'agit du DDRM " Dossier Départemental sur les Risques Majeurs " un document administratif réalisé sous la supervision du préfet et qui compile les informations essentielles concernant les risques naturels et technologiques majeurs connus sur le territoire d'un département. Ce document d'information et de prévention destiné aux citoyens, doit être actualisé tous les cinq ans, étape nécessitant le concours de plusieurs acteurs issus d'horizons et de métiers différents. C'est ici qu'intervient la possibilité d'améliorer ce travail, qui est par essence collaboratif, à l'aide des nouvelles technologies et en particulier celles issues du Web sémantique. Nous imaginons que le système, plongé dans le Web 2.0 et les Linked Open Data , favorisera les échanges entre départements

    Données ouvertes liées et recherche historique : un changement de paradigme

    Get PDF
    Dans le contexte de la transition numérique, le Web sémantique et les données ouvertes liées (linked open data [LOD], en anglais) jouent un rôle de plus en plus central, car ils permettent de construire des « graphes d’information » (knowledge graphs, en anglais) reliant l’ensemble des ressources du Web. Ce phénomène interroge les sciences historiques et soulève la question d’un changement de paradigme. Après avoir précisé ce qu’il faut entendre par « données », l’article analyse la place qu’elles occupent dans le processus de production du savoir. Il présente les principales composantes du changement de paradigme, en particulier le potentiel des LOD et d’une sémantique robuste en tant que véhicules d’une information factuelle de qualité, intelligible et réutilisable. S’ensuit une présentation des projets d’infrastructure réalisés au sein du Laboratoire de recherche historique Rhône-Alpes (Larhra) : symogih.org, ontome.net, geovistory.org. Leur but est de faciliter la transition numérique grâce à un outillage construit en cohérence avec l’épistémologie des sciences historiques et de contribuer à la réalisation d’un « graphe d’information » disciplinaire.In the context of the digital transition, the semantic Web and linked open data (LOD) play an increasingly central role as they allow the construction of knowledge graphs linking together the resources of the Web. This phenomenon questions the historical sciences and raises the major issue of a paradigm shift. After clarifying what the meaning of “data” is, the paper analyses their place in the process of knowledge production. It presents the main components of the paradigm shift, and in particular the potential of LOD and robust semantics as vehicles for high-quality, intelligible and reusable factual information. We then present the infrastructure projects carried out at the Larhra (Laboratoire de recherche historique Rhône-Alpes) with the aim of facilitating the digital transition: symogih.org, ontome.net, geovistory.org. These Web applications are developed in line with the epistemology of the historical sciences and contribute to the realisation of a disciplinary “information graph”

    D'un langage de haut niveau à des requêtes graphes permettant d'interroger le web sémantique

    Get PDF
    Les modèles graphiques sont de bons candidats pour la représentation de connaissances sur le Web, où tout est graphes : du graphe de machines connectées via Internet au "Giant Global Graph" de Tim Berners-Lee, en passant par les triplets RDF et les ontologies. Dans ce contexte, le problème crucial de l'interrogation ontologique est le suivant : est-ce qu'une base de connaissances composée d'une partie terminologique et d'une partie assertionnelle implique la requête, autrement dit, existe-t-il une réponse à la question ? Ces dernières années, des logiques de description ont été proposées dans lesquelles l'expressivité de l'ontologie est réduite de façon à rendre l'interrogation calculable (familles DL-Lite et EL). OWL 2 restreint OWL-DL dans ce sens en se fondant sur ces familles. Nous nous inscrivons dans le contexte d'utilisation de formalismes graphiques pour la représentation (RDF, RDFS et OWL) et l'interrogation (SPARQL) de connaissances. Alors que les langages d'interrogation fondés sur des graphes sont présentés par leurs promoteurs comme étant naturels et intuitifs, les utilisateurs ne pensent pas leurs requêtes en termes de graphes. Les utilisateurs souhaitent des langages simples, proches de la langue naturelle, voire limités à des mots-clés. Nous proposons de définir un moyen générique permettant de transformer une requête exprimée en langue naturelle vers une requête exprimée dans le langage de graphe SPARQL, à l'aide de patrons de requêtes. Le début de ce travail coïncide avec les actions actuelles du W3C visant à préparer une nouvelle version de RDF, ainsi qu'avec le processus de standardisation de SPARQL 1.1 gérant l'implication dans les requêtes.Graph models are suitable candidates for KR on the Web, where everything is a graph, from the graph of machines connected to the Internet, the "Giant Global Graph" as described by Tim Berners-Lee, to RDF graphs and ontologies. In that context, the ontological query answering problem is the following: given a knowledge base composed of a terminological component and an assertional component and a query, does the knowledge base implies the query, i.e. is there an answer to the query in the knowledge base? Recently, new description logic languages have been proposed where the ontological expressivity is restricted so that query answering becomes tractable. The most prominent members are the DL-Lite and the EL families. In the same way, the OWL-DL language has been restricted and this has led to OWL2, based on the DL-Lite and EL families. We work in the framework of using graph formalisms for knowledge representation (RDF, RDF-S and OWL) and interrogation (SPARQL). Even if interrogation languages based on graphs have long been presented as a natural and intuitive way of expressing information needs, end-users do not think their queries in terms of graphs. They need simple languages that are as close as possible to natural language, or at least mainly limited to keywords. We propose to define a generic way of translating a query expressed in a high-level language into the SPARQL query language, by means of query patterns. The beginning of this work coincides with the current activity of the W3C that launches an initiative to prepare a possible new version of RDF and is in the process of standardizing SPARQL 1.1 with entailments

    Actes des 29es Journées Francophones d'Ingénierie des Connaissances, IC 2018

    Get PDF
    International audienc

    Interrogation d'un réseau sémantique de documents : l'intertextualité dans l'accès à l'information juridique

    Get PDF
    A collection of documents is generally represented as a set of documents but this simple representation does not take into account cross references between documents, which often defines their context of interpretation. This standard document model is less adapted for specific professional uses in specialized domains in which documents are related by many various references and the access tools need to consider this complexity. We propose two models based on formal and relational concept analysis and on semantic web techniques. Applied on documentary objects, these two models represent and query in a unified way documents content descriptors and documents relations.Une collection documentaire est généralement représentée comme un ensemble de documents mais cette modélisation ne permet pas de rendre compte des relations intertextuelles et du contexte d'interprétation d'un document. Le modèle documentaire classique trouve ses limites dans les domaines spécialisés où les besoins d'accès à l'information correspondent à des usages spécifiques et où les documents sont liés par de nombreux types de relations. Ce travail de thèse propose deux modèles permettant de prendre en compte cette complexité des collections documentaire dans les outils d'accès à l'information. Le premier modèle est basée sur l'analyse formelle et relationnelle de concepts, le deuxième est basée sur les technologies du web sémantique. Appliquées sur des objets documentaires ces modèles permettent de représenter et d'interroger de manière unifiée les descripteurs de contenu des documents et les relations intertextuelles qu'ils entretiennent
    corecore