1,226 research outputs found

    Construction automatique d'ontologies à partir de spécifications de bases de données

    Get PDF
    National audienceLes méthodes classiques de construction automatiques d'ontologies à partir de textes exploitent le texte proprement dit. Nous étendons ces approches en prenant en compte la structure du texte, élément porteur d'information. Pour cela, nous nous basons sur des documents de spécifications de bases de données au format XML, pour lesquels le découpage structurel du texte correspond à une caractérisation sémantique de son contenu. L'idée est de tirer profit à la fois de la structure du texte et du texte rédigé. La méthode proposée consiste à utiliser la sémantique des balises et à caractériser leurs relations pour définir des règles de création de concepts et de relations sémantiques. Un noyau d'ontologie a été ainsi construit automatiquement à l'aide de ces règles, noyau ensuite enrichi par l'exploitation du texte en langage naturel à l'aide de patrons lexico-syntaxiques définis. Règles et patrons ont été implémentés sous Gate

    Extraction de relations : Exploiter des techniques complémentaires pour mieux s'adapter au type de texte

    Get PDF
    Extraire des relations d'hyperonymie à partir des textes est une des étapes clés de la construction automatique d'ontologies et du peuplement de bases de connaissances. Plusieurs types de méthodes (linguistiques, statistiques, combinées) ont été exploités par une variété de propositions dans la littérature. Les apports respectifs et la complémentarité de ces méthodes sont cependant encore mal identifiés pour optimiser leur combinaison. Dans cet article, nous nous intéressons à la complémentarité de deux méthodes de nature différente, l'une basée sur les patrons linguistiques, l'autre sur l'apprentissage supervisé, pour identifier la relation d'hyperonymie à travers différents modes d'expression. Nous avons appliqué ces méthodes à un sous-corpus de Wikipedia en français, composé des pages de désambiguïsation. Ce corpus se prête bien à la mise en oeuvre des deux approches retenues car ces textes sont particulièrement riches en relations d'hyperonymie, et contiennent à la fois des formulations rédigées et d'autres syntaxiquement pauvres. Nous avons comparé les résultats des deux méthodes prises indépendamment afin d'établir leurs performances respectives, et de les comparer avec le résultat des deux méthodes appliquées ensemble. Les meilleurs résultats obtenus correspondent à ce dernier cas de figure avec une F-mesure de 0.68. De plus, l'extracteur Wikipedia issu de ce travail permet d'enrichir la ressource sémantique DBPedia en français : 55% des relations identifiées par notre extracteur ne sont pas déjà présentes dans DBPedia

    Enrichissement contrôlé de bases de connaissances à partir de documents semi-structurés annotés

    Get PDF
    International audienceGrâce au Linked Open Data, les sources RDF mises à disposition sur le Web sont de plus en plus nombreuses. Cependant, ces sources contiennent relativement peu d'information par comparaison au volume d'informations contenues dans les documents semi-structurés. De nombreux outils ont pour objectif d'annoter sémantiquement ces documents mais l'extraction de relations reste une tâche particulièrement difficile quand la structure et le vocabulaire des documents sont hétérogènes. Nous proposons une approche permettant d'enrichir et d'interroger une ou plusieurs bases de connaissances RDF/OWL en exploitant un ensemble de documents sémantiquement annotés. Ces bases sont enrichies par des instances de relations incertaines inférées à partir de la structure des documents, des ontologies et des faits présents dans les bases de connaissances. Une requête SPARQL formulée dans le vocabulaire du domaine est reformulée afin de combiner les faits issus des différentes bases et de trier les réponses en fonction de poids assignés. L'approche a été expérimentée sur des documents HTML et des bases de connaissances issues du Linked Open Data. Les résultats montrent que 63,3% des relations trouvées sont nouvelles avec une précision atteignant 62%

    Cederilic : constitution d'un livret d'un index numérique

    Get PDF
    Nous décrivons une expérience en grandeur réelle de constitution d'un index thématique pour un ouvrage scientifique. Cet ouvrage est constitué d'une sélection de vingt-et-un articles de trois éditions des journées Ingénierie des connaissances (1999-2001). Ce corpus a été traité par l'analyseur SYNTEX puis par le système INDDOC, logiciel dédié à la constitution d'index. Ce travail a été réalisé dans un contexte entièrement numérique, c'est-à-dire à partir de fichiers numériques et pour constituer la collection des articles de l'ouvrage en un ensemble de fichiers HTML au sein duquel l'utilisateur navigue via un navigateur. Nous présentons les principaux problèmes rencontrés et les solutions adoptées.ingénierie des connaissances;livre numérique;indexation;acquisition des connaissances à partir de textes;structuration de terminologie;XML;DTD Docbook

    Trois méthodes d'analyse pour conceptualiser le contenu de différentes sections des monographies des médicaments

    No full text
    National audienceA partir de l'expérience issue de travaux de modélisation conceptuelle des connaissances contenues dans trois sections différentes des monographies des médicaments (indication, pharmacodynamie, pharmacocinétique), une analyse des méthodes de modélisation est proposée. Les différentes méthodes (pattern matching, modélisation ascendante et approche mixte) et les modalités de leur choix sont analysées en mettant en lumière des différences de nature entre les textes et l'existence de connaissances sur le domaine. Ceci nous conduit à proposer plusieurs indicateurs descriptifs de la nature du texte qui nous semblent susceptibles d'aider au choix d'une des trois méthodes proposées. Nous proposons aussi plusieurs méthodologies d'évaluation des modèles obtenus, elles aussi étant liées aux caractéristiques des textes initiaux

    Extraction de relations d'hyperonymie à partir de Wikipédia

    Get PDF
    Ce travail contribue à montrer l'intérêt d'exploiter la structure des documents accessibles sur le Web pour enrichir des bases de connaissances sémantiques. En effet, ces bases de connaissances jouent un rôle clé dans de nombreuses applications du TAL, Web sémantique, recherche d'information, aide au diagnostic, etc. Dans ce contexte, nous nous sommes intéressés ici à l'identification des relations d'hyperonymie présentes dans les pages de désambiguïsation de Wikipédia. Un extracteur de relations d'hyperonymie dédié à ce type de page et basé sur des patrons lexico-syntaxiques a été conçu, développé et évalué. Les résultats obtenus indiquent une précision de 0.68 et un rappel de 0.75 pour les patrons que nous avons définis, et un taux d'enrichissement de 33% pour les deux ressources sémantiques BabelNet et DBPédia

    Extraction de termes, reconnaissance et labellisation de relations dans un th\'esaurus

    Get PDF
    Within the documentary system domain, the integration of thesauri for indexing and retrieval information steps is usual. In libraries, documents own rich descriptive information made by librarians, under descriptive notice based on Rameau thesaurus. We exploit two kinds of information in order to create a first semantic structure. A step of conceptualization allows us to define the various modules used to automatically build the semantic structure of the indexation work. Our current work focuses on an approach that aims to define an ontology based on a thesaurus. We hope to integrate new knowledge characterizing the territory of our structure (adding "toponyms" and links between concepts) thanks to a geographic information system (GIS)

    Proposition d'un modèle relationnel d'indexation syntagmatique : mise en oeuvre dans le système iota

    No full text
    National audienceNous présentons un modèle supportant une indexation à base de syntagmes. Cette modélisation inclut une description formelle des termes d'indexation, un processus de dérivation, une fonction de correspondance, une sémantique du langage d'indexation et une fonction de pondération de la orrespondance entre termes d'indexation. Elle met en évidence les éléments qui doivent permettre de guider la conception de Systèmes de Recherche d'Informations à base de mots composés. Nous proposons également un choix de techniques pour mettre en oeuvre ce modèle, particulièrement dans l'extraction automatique des syntagmes et dans leur pondération pour le calcul de la mesure pertinence d'un document par rapport à une requête

    Objets semi-structurés, classes polythétiques et classification

    Get PDF
    Colloque avec actes et comité de lecture.Dans cet article, nous présentons un travail de recherche en cours de développement sur la représentation et la manipulation de données semi-structurées, dans le contexte des systèmes de représentation de connaissances par objets (RCO). Nous nous appuyons sur la notion d'objet semi-structuré qui peut être défini comme un objet sans classe, intégrant des disjonctions d'attributs. Un tel objet peut être classifié dans une hiérarchie de classes de référence qui représente la connaissance sur un domaine donné, en vue de mener à bien des raisonnements et résoudre des problèmes. La prise en compte d'objets semi-structurés conduit à considérer les classes de référence comme des classes polythétiques, au sens où elles sont définies par une combinaison de disjonctions et de conjonction d'attributs. Ce travail de recherche essaie également de faire le lien entre le traitement des données semi-structurées dans le cadre des systèmes de RCO et le traitement des classes polythétiques en analyse de données ou en apprentissage. Les cadres d'applications de ce travail de recherche sont multiples : extraction de connaissances dans les bases de données, fouille de textes, intégration et croisement de données hétérogènes, conception et couplage de grandes bases de connaissances et de grandes bases de données

    Extraction automatique d’une base de connaissances à partir de documents archéologiques et patrimoniaux en français

    Get PDF
    Le Web sémantique est une extension du Web standard mettant l’accent sur les modèles de données afin de permettre une meilleure réutilisation de celles-ci et de rendre leur traitement automatique par des machines plus aisé. Il repose sur des ontologies, qui dictent les types de données pouvant y être contenus ainsi que les relations possibles entre celles-ci. Afin de créer une ontologie complète, il est nécessaire de procéder en deux étapes, la création de l’ontologie de base, c’est-à-dire la définition des classes (ou types de données tels que Personne, Ville, etc.) et des relations les liant (tel que est né à, réside à, etc.), puis, le peuplement de cette ontologie, c’est à dire l’ajout de toutes les instances et leurs relations. Avec pour objectif de sémantiser au maximum ses données, le Ministère de la Culture et des Communications du Québec (MCCQ) a fait appel à Polytechnique Montréal afin de créer une ontologie complète permettant la représentation de ses données patrimoniales. L’ontologie, en cours de développement, porte notamment sur les contenus archéologiques que le MCCQ possède sous différents formats ainsi que sur le contenu du Patrimoine immobilier, mobilier et immatériel du Québec (PIMIQ), répertoire entretenu par le MCCQ.----------ABSTRACT: The Semantic Web is an extension of the standard Web that focuses on data models to better reuse these data and make its automatic processing easier. It is based on models, called ontologies, that dictate the types of data that can exist and the possible relationships between them. In order to create a complete ontology, it is necessary to proceed in two stages. First, the creation of the basic ontology by defining classes (or data types such as Person, City, etc.) and relations linking them (such as is born in, lives in, etc.). Secondl, by populating the ontology with instances and links between them. With the goal of semanticizing data, the Ministère de la Culture et des Communications du Québec (MCCQ) asked Polytechnique Montréal to create a complete ontology to represent its heritage data. The ontology, currently being developed, includes the archaeological content that the MCCQ possesses in different formats as well as the contents of Patrimoine immobilier, mobilier et immatériel du Québec (PIMIQ), a repertoire maintained by the MCCQ
    • …
    corecore