Search CORE

1,226 research outputs found

Construction automatique d'ontologies à partir de spécifications de bases de données

Author: Aussenac-Gilles Nathalie
Kamel Mouna
Publication venue: HAL CCSD
Publication date: 26/05/2009
Field of study

National audienceLes méthodes classiques de construction automatiques d'ontologies à partir de textes exploitent le texte proprement dit. Nous étendons ces approches en prenant en compte la structure du texte, élément porteur d'information. Pour cela, nous nous basons sur des documents de spécifications de bases de données au format XML, pour lesquels le découpage structurel du texte correspond à une caractérisation sémantique de son contenu. L'idée est de tirer profit à la fois de la structure du texte et du texte rédigé. La méthode proposée consiste à utiliser la sémantique des balises et à caractériser leurs relations pour définir des règles de création de concepts et de relations sémantiques. Un noyau d'ontologie a été ainsi construit automatiquement à l'aide de ces règles, noyau ensuite enrichi par l'exploitation du texte en langage naturel à l'aide de patrons lexico-syntaxiques définis. Règles et patrons ont été implémentés sous Gate

Scientific Publications of the University of Toulouse II Le Mirail

HAL Descartes

Extraction de relations : Exploiter des techniques complémentaires pour mieux s'adapter au type de texte

Author: Aussenac-Gilles Nathalie
Fabre Cécile
Ghamnia Adel
Kamel Mouna
Trojahn Cassia
Publication venue: 'Departmento Expresion Grafica y Cartografia'
Publication date: 01/01/2017
Field of study

Extraire des relations d'hyperonymie à partir des textes est une des étapes clés de la construction automatique d'ontologies et du peuplement de bases de connaissances. Plusieurs types de méthodes (linguistiques, statistiques, combinées) ont été exploités par une variété de propositions dans la littérature. Les apports respectifs et la complémentarité de ces méthodes sont cependant encore mal identifiés pour optimiser leur combinaison. Dans cet article, nous nous intéressons à la complémentarité de deux méthodes de nature différente, l'une basée sur les patrons linguistiques, l'autre sur l'apprentissage supervisé, pour identifier la relation d'hyperonymie à travers différents modes d'expression. Nous avons appliqué ces méthodes à un sous-corpus de Wikipedia en français, composé des pages de désambiguïsation. Ce corpus se prête bien à la mise en oeuvre des deux approches retenues car ces textes sont particulièrement riches en relations d'hyperonymie, et contiennent à la fois des formulations rédigées et d'autres syntaxiquement pauvres. Nous avons comparé les résultats des deux méthodes prises indépendamment afin d'établir leurs performances respectives, et de les comparer avec le résultat des deux méthodes appliquées ensemble. Les meilleurs résultats obtenus correspondent à ce dernier cas de figure avec une F-mesure de 0.68. De plus, l'extracteur Wikipedia issu de ce travail permet d'enrichir la ressource sémantique DBPedia en français : 55% des relations identifiées par notre extracteur ne sont pas déjà présentes dans DBPedia

Open Archive Toulouse Archive Ouverte

Enrichissement contrôlé de bases de connaissances à partir de documents semi-structurés annotés

Author: Bennacer Seghouani Nacéra
Mrabet Yassine
Pernelle Nathalie
Publication venue: HAL CCSD
Publication date: 27/06/2012
Field of study

International audienceGrâce au Linked Open Data, les sources RDF mises à disposition sur le Web sont de plus en plus nombreuses. Cependant, ces sources contiennent relativement peu d'information par comparaison au volume d'informations contenues dans les documents semi-structurés. De nombreux outils ont pour objectif d'annoter sémantiquement ces documents mais l'extraction de relations reste une tâche particulièrement difficile quand la structure et le vocabulaire des documents sont hétérogènes. Nous proposons une approche permettant d'enrichir et d'interroger une ou plusieurs bases de connaissances RDF/OWL en exploitant un ensemble de documents sémantiquement annotés. Ces bases sont enrichies par des instances de relations incertaines inférées à partir de la structure des documents, des ontologies et des faits présents dans les bases de connaissances. Une requête SPARQL formulée dans le vocabulaire du domaine est reformulée afin de combiner les faits issus des différentes bases et de trier les réponses en fonction de poids assignés. L'approche a été expérimentée sur des documents HTML et des bases de connaissances issues du Linked Open Data. Les résultats montrent que 63,3% des relations trouvées sont nouvelles avec une précision atteignant 62%

HAL-CentraleSupelec

INRIA a CCSD electronic archive server

HAL-Rennes 1

Cederilic : constitution d'un livret d'un index numérique

Author: Adeline Nazarenko
Baruk Toledano
Didier Bourigault
Jean Charlet
Régine Teulier
Touria Aït El Mekki
Publication venue
Publication date
Field of study

Nous décrivons une expérience en grandeur réelle de constitution d'un index thématique pour un ouvrage scientifique. Cet ouvrage est constitué d'une sélection de vingt-et-un articles de trois éditions des journées Ingénierie des connaissances (1999-2001). Ce corpus a été traité par l'analyseur SYNTEX puis par le système INDDOC, logiciel dédié à la constitution d'index. Ce travail a été réalisé dans un contexte entièrement numérique, c'est-à-dire à partir de fichiers numériques et pour constituer la collection des articles de l'ouvrage en un ensemble de fichiers HTML au sein duquel l'utilisateur navigue via un navigateur. Nous présentons les principaux problèmes rencontrés et les solutions adoptées.ingénierie des connaissances;livre numérique;indexation;acquisition des connaissances à partir de textes;structuration de terminologie;XML;DTD Docbook

Research Papers in Economics

Trois méthodes d'analyse pour conceptualiser le contenu de différentes sections des monographies des médicaments

Author: Duclos Catherine
Nobécourt Jérôme
Venot Alain
Publication venue: Presses universitaires de Grenoble
Publication date: 30/05/2005
Field of study

National audienceA partir de l'expérience issue de travaux de modélisation conceptuelle des connaissances contenues dans trois sections différentes des monographies des médicaments (indication, pharmacodynamie, pharmacocinétique), une analyse des méthodes de modélisation est proposée. Les différentes méthodes (pattern matching, modélisation ascendante et approche mixte) et les modalités de leur choix sont analysées en mettant en lumière des différences de nature entre les textes et l'existence de connaissances sur le domaine. Ceci nous conduit à proposer plusieurs indicateurs descriptifs de la nature du texte qui nous semblent susceptibles d'aider au choix d'une des trois méthodes proposées. Nous proposons aussi plusieurs méthodologies d'évaluation des modèles obtenus, elles aussi étant liées aux caractéristiques des textes initiaux

HAL-Paris 13

Extraction de relations d'hyperonymie à partir de Wikipédia

Author: Ghamnia Adel
Publication venue: Association Francophone pour la Communication Parlée (AFCP) et Association pour le Traitement Automatique des Langues (ATALA)
Publication date: 01/01/2016
Field of study

Ce travail contribue à montrer l'intérêt d'exploiter la structure des documents accessibles sur le Web pour enrichir des bases de connaissances sémantiques. En effet, ces bases de connaissances jouent un rôle clé dans de nombreuses applications du TAL, Web sémantique, recherche d'information, aide au diagnostic, etc. Dans ce contexte, nous nous sommes intéressés ici à l'identification des relations d'hyperonymie présentes dans les pages de désambiguïsation de Wikipédia. Un extracteur de relations d'hyperonymie dédié à ce type de page et basé sur des patrons lexico-syntaxiques a été conçu, développé et évalué. Les résultats obtenus indiquent une précision de 0.68 et un rappel de 0.75 pour les patrons que nous avons définis, et un taux d'enrichissement de 33% pour les deux ressources sémantiques BabelNet et DBPédia

Open Archive Toulouse Archive Ouverte

Extraction de termes, reconnaissance et labellisation de relations dans un th\'esaurus

Author: Bessagnet Marie-Noëlle
Gaio Mauro
Kergosien Eric
Publication venue
Publication date: 21/10/2009
Field of study

Within the documentary system domain, the integration of thesauri for indexing and retrieval information steps is usual. In libraries, documents own rich descriptive information made by librarians, under descriptive notice based on Rameau thesaurus. We exploit two kinds of information in order to create a first semantic structure. A step of conceptualization allows us to define the various modules used to automatically build the semantic structure of the indexation work. Our current work focuses on an approach that aims to define an ontology based on a thesaurus. We hope to integrate new knowledge characterizing the territory of our structure (adding "toponyms" and links between concepts) thanks to a geographic information system (GIS)

arXiv.org e-Print Archive

HAL - Lille 3

INRIA a CCSD electronic archive server

Proposition d'un modèle relationnel d'indexation syntagmatique : mise en oeuvre dans le système iota

Author: Chevallet Jean-Pierre
Haddad Hatem
Publication venue: HAL CCSD
Publication date: 01/01/2001
Field of study

National audienceNous présentons un modèle supportant une indexation à base de syntagmes. Cette modélisation inclut une description formelle des termes d'indexation, un processus de dérivation, une fonction de correspondance, une sémantique du langage d'indexation et une fonction de pondération de la orrespondance entre termes d'indexation. Elle met en évidence les éléments qui doivent permettre de guider la conception de Systèmes de Recherche d'Informations à base de mots composés. Nous proposons également un choix de techniques pour mettre en oeuvre ce modèle, particulièrement dans l'extraction automatique des syntagmes et dans leur pondération pour le calcul de la mesure pertinence d'un document par rapport à une requête

Hal - Université Grenoble Alpes

Objets semi-structurés, classes polythétiques et classification

Author: Al Hulou Rim
Napoli Amedeo
Nauer Emmanuel
Publication venue: Unité de recherche INRIA Lorraine
Publication date: 01/01/1999
Field of study

Colloque avec actes et comité de lecture.Dans cet article, nous présentons un travail de recherche en cours de développement sur la représentation et la manipulation de données semi-structurées, dans le contexte des systèmes de représentation de connaissances par objets (RCO). Nous nous appuyons sur la notion d'objet semi-structuré qui peut être défini comme un objet sans classe, intégrant des disjonctions d'attributs. Un tel objet peut être classifié dans une hiérarchie de classes de référence qui représente la connaissance sur un domaine donné, en vue de mener à bien des raisonnements et résoudre des problèmes. La prise en compte d'objets semi-structurés conduit à considérer les classes de référence comme des classes polythétiques, au sens où elles sont définies par une combinaison de disjonctions et de conjonction d'attributs. Ce travail de recherche essaie également de faire le lien entre le traitement des données semi-structurées dans le cadre des systèmes de RCO et le traitement des classes polythétiques en analyse de données ou en apprentissage. Les cadres d'applications de ce travail de recherche sont multiples : extraction de connaissances dans les bases de données, fouille de textes, intégration et croisement de données hétérogènes, conception et couplage de grandes bases de connaissances et de grandes bases de données

INRIA a CCSD electronic archive server

Extraction automatique d’une base de connaissances à partir de documents archéologiques et patrimoniaux en français

Author: Marchand Erwan
Publication venue
Publication date: 01/04/2020
Field of study

Le Web sémantique est une extension du Web standard mettant l’accent sur les modèles de données afin de permettre une meilleure réutilisation de celles-ci et de rendre leur traitement automatique par des machines plus aisé. Il repose sur des ontologies, qui dictent les types de données pouvant y être contenus ainsi que les relations possibles entre celles-ci. Afin de créer une ontologie complète, il est nécessaire de procéder en deux étapes, la création de l’ontologie de base, c’est-à-dire la définition des classes (ou types de données tels que Personne, Ville, etc.) et des relations les liant (tel que est né à, réside à, etc.), puis, le peuplement de cette ontologie, c’est à dire l’ajout de toutes les instances et leurs relations. Avec pour objectif de sémantiser au maximum ses données, le Ministère de la Culture et des Communications du Québec (MCCQ) a fait appel à Polytechnique Montréal afin de créer une ontologie complète permettant la représentation de ses données patrimoniales. L’ontologie, en cours de développement, porte notamment sur les contenus archéologiques que le MCCQ possède sous différents formats ainsi que sur le contenu du Patrimoine immobilier, mobilier et immatériel du Québec (PIMIQ), répertoire entretenu par le MCCQ.----------ABSTRACT: The Semantic Web is an extension of the standard Web that focuses on data models to better reuse these data and make its automatic processing easier. It is based on models, called ontologies, that dictate the types of data that can exist and the possible relationships between them. In order to create a complete ontology, it is necessary to proceed in two stages. First, the creation of the basic ontology by defining classes (or data types such as Person, City, etc.) and relations linking them (such as is born in, lives in, etc.). Secondl, by populating the ontology with instances and links between them. With the goal of semanticizing data, the Ministère de la Culture et des Communications du Québec (MCCQ) asked Polytechnique Montréal to create a complete ontology to represent its heritage data. The ontology, currently being developed, includes the archaeological content that the MCCQ possesses in different formats as well as the contents of Patrimoine immobilier, mobilier et immatériel du Québec (PIMIQ), a repertoire maintained by the MCCQ

PolyPublie