341 research outputs found

    Construction semi-automatique d'une ontologie sur des manuscrits ouest sahariens

    Get PDF
    International audienceAs more efforts are performed to digitize Western Saharan manuscripts, for preserving the memory they represent, the need to be able to work on thesedigitized materials naturally grows. Beyond cataloguing, an ontology is the basis to provide to researchers new tools for retrieving and integrating these knowledge sources. In this paper, we present the design of OMOS, an ontology describing Western Saharan manuscripts. We illustrate each step, from expert interviews and local resources analysis to the alignment with well-established reference ontologies, including an automatic enrichment from existing thesaurus.Dans le cadre de la sauvegarde et de la valorisation des documents patrimoniaux, des campagnes de numérisation des manuscrits anciens ont été entreprises dans différents endroits notamment dans une partie de l'ouest africain. Ces campagnes de numérisation ont généré un nombre important des ressources numériques potentiellement riches en informations que les chercheurs en sciences humaines et sociales et le grand public désireraient exploiter. Dans cet article, nous proposons un moyen d'accès à toutes les informations sur les manuscrits qui soit plus riche que ceux disponibles dans les catalogues. Pour cela, nous avons construit de façon semi-automatique une ontologie regroupant les connaissances sur les manuscrits. Les différentes étapes suivies dans la construction de l'ontologie allant de l'acquisition des connaissances à partir d'un certain nombre de ressources jusqu'à son enrichissement semi-automatique à partir d'un thésaurus sont présentées. Nous avons par la suite procédé à son alignement avec certaines ontologies de référence

    Construction et enrichissement d'une ontologie Ă  partir d'un corpus de textes

    Get PDF
    Dans cet article, nous proposons un processus de construction et d'enrichissement d'ontologies à partir de textes. Les ontologies sont des structures dans lesquelles les concepts d'un domaine et les relations entre ces concepts sont formellement définis. De plus en plus de travaux font appel à des ontologies mais leur construction et leur enrichissement constituent encore un frein. Notre méthode de construction repose sur la recherche de termes dans les textes. Elle suppose que les associations fréquentes de deux termes au sein de certaines structures syntaxiques peuvent être révélatrices d'une relation sémantique et ainsi constituer des éléments pouvant être intégrés dans l'ontologie. L'identification des termes et des structures syntaxiques se fait grâce à un analyseur syntaxique partiel et robuste. Ces éléments constituent la base des données sur laquelle opère le processus de fouille – extraction de motifs fréquents – mis en oeuvre pour extraire des régularités

    Construction et enrichissement automatique d'ontologie Ă  partir de ressources externes

    Get PDF
    National audienceAutomatic construction of ontologies from text is generally based on retrieving text content. For a much more rich ontology we extend these approaches by taking into account the document structure and some external resources (like thesaurus of indexing terms of near domain). In this paper we describe how these external resources are at first analyzed and then exploited. This method has been applied on a geographical domain and the benefit has been evaluated

    Modélisation du domaine par une méthode fondée sur l'analyse de corpus (2000)

    Get PDF
    12 pagesNational audienceLes nombreux travaux actuels sur les ontologies et modèles de domaines, justifiés par la perspective de leur réutilisabilité, proposent très peu de solutions aux problèmes pratiques de recueil et de structuration de ces connaissances. Cet article propose une méthode de construction de modèles de domaine ou d'ontologies, dont l'originalité est de se fonder sur l'analyse de corpus en utilisant ses principes linguistiques et ses logiciels de traitement automatique de la langue. Cette démarche se veut un complément efficace et précis aux méthodes classiques de modélisation du domaine à partir d'expertises individuelles

    Intégration de la sémantique dans la représentation de documents par les arbres de dépendances syntaxiques

    Get PDF
    De nombreuses applications dans le domaine de la recherche d'information voient leur performance influencée par le modèle de représentation de documents. En effet, théoriquement, meilleure est la modélisation, meilleure sera la performance de l'application qui exploite la modélisation. Or la modélisation"parfaite" d'un document est celle qui utilise l'intégralité des théories linguistiques. Cependant, en pratique, celles-ci sont difficiles à traduire sous forme de traitements informatiques. Néanmoins, il existe des modèles qui s'appuient partiellement sur ces théories comme les modèles vectoriels classiques, les modèles par séquences de mots ou encore les chaînes lexicales. Ces précédents modèles exploitent, soit l'information syntaxique, soit l'information sémantique. D'autres modèles plus raffinés exploitent à la fois l'information syntaxique et sémantique mais sont appliqués dans un contexte spécifique. Dans cette étude, nous proposons une nouvelle modélisation de documents dans un contexte général qui considère simultanément l'information syntaxique et sémantique. Notre modèle est une combinaison de deux composantes, l'une syntaxique représentée par les arbres de dépendances syntaxiques obtenus à l'aide d'un analyseur de dépendances syntaxiques, l'autre sémantique représentée par le sens des mots dans leur contexte obtenu grâce à une méthode de désambiguïsation du sens. Dans ce modèle, chaque document est représenté par un ensemble de concepts fréquents formé de sous-arbres ayant les mêmes dépendances syntaxiques et étant sémantiquement proches. L'extraction de tels concepts est réalisée à l'aide d'un algorithme de forage d'arbres FREQT. Notre modèle sera évalué sur une application de clustering de documents des collections Reuters, 20 newsgroups et Ohsumed. La mesure du cosinus valable pour un modèle vectoriel a été utilisée pour définir la mesure de similarité entre les documents. Contrairement au modèle vectoriel, l'espace vectoriel considéré n'est pas engendré par l'ensemble des mots fréquents mais par l'ensemble des concepts fréquents. Les résultats expérimentaux obtenus montrent que l'intégration de l'information sémantique dans le modèle basé sur les arbres de dépendances syntaxiques contribue à améliorer la qualité des clusters

    Analyses linguistiques et techniques d'alignement pour créer et enrichir une ontologie topographique

    Get PDF
    National audienceOne of the goals of the GéOnto project is to build an ontology of topographic concepts. This ontology results from the enrichment of a first taxonomy developed beforehand, through the analysis of two types of textual documents: technical database specifications and description of journeys. This work relies on natural language processing and ontology alignment techniques, as well as external knowledge resources such as dictionaries and gazetteers.Dans cet article, nous présentons le projet GéOnto dont un des buts est de construire une ontologie de concepts topographiques. Cette ontologie est réalisée par enrichissement d'une première taxonomie de termes réalisée précédemment, et ce grâce à l'analyse de deux types de documents textuels : des spécifications techniques de bases de données et des récits de voyage. Cet enrichissement s'appuie sur des techniques automatiques de traitement du langage et d'alignement d'ontologies, ainsi que sur des connaissances externes comme des dictionnaires et des bases de toponymes

    Un mod{\`e}le de base de connaissances terminologiques

    Full text link
    In the present paper, we argue that Terminological Knowledge Bases (TKB) are all the more useful for addressing various needs as they do not fulfill formal criteria. Moreover, they intend to clarify the terminology of a given domain by illustrating term uses in various contexts. Thus we designed a TKB structure including 3 linked features: terms, concepts and texts, that present the peculiar use of each term in the domain. Note that concepts are represented into frames whose non-formal description is standardized. Associated with this structure, we defined modeling criteria at the conceptual level. Finaly, we discuss the situation of TKB with regard to ontologies, and the use of TKB for the development of AI systems.Comment: in French language. 2{\`e}mes Rencontres Terminologie et Intelligence Artificielle (TIA 1997), Groupe de recherche TIA : Terminologie et intelligence artificielle, UT2 LeMirail, Toulouse, Apr 1997, Toulouse, Franc

    Une approche ontologique pour l'interopérabilité et la composition automatique de services Web : application en astrophysique

    Get PDF
    Dans le but d’exploiter au mieux les grandes masses de données hétérogènes produites par les instruments scientifiques modernes de l’astrophysique, les scientifiques ont développé le concept d’Observatoire Virtuel (OV). Il s’agit d’une architecture orientée services, qui a pour objectif de faciliter l’identification et l’interopérabilité des données astrophysiques. Malgré le développement et les avancées permises par l’OV dans l’exploitation de ces données, certains objectifs sont partiellement atteints notamment l’interopérabilité, la sélection de services et l’identification de services connexes, etc. Par ailleurs, l’ergonomie des outils à la disposition de l’utilisateur final reste perfectible. De même l’utilisation actuelle des ressources de l’OV, s’appuyant sur des compétences humaines, gagnerait à être automatisée. Les services de données astrophysiques n’étant pas tous inscrits dans l’OV, il serait aussi souhaitable pour permettre une utilisation plus large de ces outils, qu’ils s’appuient également sur des services disponibles en-dehors de l’OV. En vue d’automatiser l’utilisation des ressources en ligne, les sciences de l’information travaillent depuis 2001 à l’élaboration du Web sémantique. Cette évolution apporte au Web des capacités de raisonnement automatiques, basées sur des algorithmes utilisant une nouvelle forme de description des contenus. Cette nouvelle forme de description sémantique se trouve exprimée dans des représentations informatiques appelées ontologies. Malheureusement, les méthodes actuelles d’élaboration du Web sémantique ne sont pas complètement compatibles avec les services OV qui utilisent des modèles de données, des formats et des protocoles d’accès aux services qui s’éloignent de ceux rencontrés habituellement dans les sciences de l’information. Dans ce contexte, cette thèse décrit une méthodologie générique de composition de services sans état, basée sur la description des services par une ontologie dont la définition est proposée dans ce document. Cette ontologie représente aussi bien des services Web que des services non accessibles par le Web. Elle prend en compte certaines spécificités qui peuvent être rencontrées dans les infrastructures de services préexistantes. L’enrichissement de l’ontologie par des concepts issus de domaines d’application spécifiques pour lesquels il n’existe que peu de représentations ontologiques est également pris en compte. La population de cette ontologie, par des services éventuellement éloignés des standards utilisés habituellement dans les sciences de l’information, est aussi traitée. La méthodologie a été appliquée avec succès dans le cadre de l’astrophysique, et a permis de développer une application Web permettant la composition automatique de services utilisable par un public non averti
    • …
    corecore