    Ontology Evolution for Experimental Data in Food

    International audienceThroughout its life cycle, an ontology may change in order to adapt to domain changes or to new usages. This paper presents an ontology evolution activity [1] applied to an ontology dedicated to the annotation of experimental data in food [2], and a plug-in, DynarOnto, which assists ontology engineers for carrying out the ontology changes. Our evolution method is an a priori method which takes as input an ontology in a consistent state, implements the changes selected to be applied and manages all the consequences of those changes by producing an ontology in a consistent state

    Extraction de relations n-aires interphrastiques guidée par une RTO

    National audienceNous proposons dans cet article une méthode d'extraction d'instances de relations naires dans un texte guidée par une Ressource Termino-Ontologique (RTO) de domaine. Une RTO est une ressource comportant une composante conceptuelle (l'ontologie) et une composante terminologique (la terminologie), dans laquelle les termes sont distingués des concepts qu'ils dénotent. L'ontologie permet la modélisation de relations n-aires, reliant des arguments pouvant être des concepts symboliques et des quantités. La méthode proposée s'applique aux relations n-aires formulées de façon implicite dans le texte et dont les instances d'arguments peuvent être exprimées à travers différentes phrases du texte. ABSTRACT. We propose in this paper a method to extract instances of n-ary relations in a text guided by an Ontological and Terminological Resource (OTR). An OTR is a resource composed of a conceptual component (the ontology) and a terminological component (the terminology) in which the terms are distinguished from the concepts they denote. The ontology allows n-ary relationships to be described between arguments which can be symbolic concepts and quantities. The method is dedicated to the extraction of n-ary relations which are implicit in the text and whose instances of arguments may be expressed in different sentences of the text

    A decision support system for eco-efficient biorefinery process comparison using a semantic approach

    Enzymatic hydrolysis of the main components of lignocellulosic biomass is one of the promising methods to further upgrading it into biofuels. Biomass pre-treatment is an essential step in order to reduce cellulose crystallinity, increase surface and porosity and separate the major constituents of biomass. Scientific literature in this domain is increasing fast and could be a valuable source of data. As these abundant scientific data are mostly in textual format and heterogeneously structured, using them to compute biomass pre-treatment efficiency is not straightforward. This paper presents the implementation of a Decision Support System (DSS) based on an original pipeline coupling knowledge engineering (KE) based on semantic web technologies, soft computing techniques and environmental factor computation. The DSS allows using data found in the literature to assess environmental sustainability of biorefinery systems. The pipeline permits to: (1) structure and integrate relevant experimental data, (2) assess data source reliability, (3) compute and visualize green indicators taking into account data imprecision and source reliability. This pipeline has been made possible thanks to innovative researches in the coupling of ontologies, uncertainty management and propagation. In this first version, data acquisition is done by experts and facilitated by a termino-ontological resource. Data source reliability assessment is based on domain knowledge and done by experts. The operational prototype has been used by field experts on a realistic use case (rice straw). The obtained results have validated the usefulness of the system. Further work will address the question of a higher automation level for data acquisition and data source reliability assessment

    Units of measure identification in unstructured scientific documents in microbial risk in food

    International audienceOBJECTIVE(S) A preliminary step in microbial risk assessment in food is to gather and capitalize experimental data. Data capitalization is a crucial stake in an overall decision support system which consists of predicting microbial behavior [1]. In the framework of the French ANR project MAP'OPT (Equilibrium Gas Composition in Modified Atmosphere Packaging and Food Quality), the predictive modeling platform Sym'Previus (www.symprevius.org) should be able to propose a global approach to establish a scientifically sound method for choosing an appropriate modified atmosphere and associated packaging solution. Our work is part of this overall system and aims at extracting semi-automatically experimental data from unstructured scientific documents. Indeed, these documents use natural language combined with domain-specific terminology that is extremely time-consuming and tedious to extract in the free form of text and therefore to gather and capitalize. Our work relies on the MAP'OPT-Onto ontology [4], which has been built as an extension of the ontology used in Sym'Previus by adding concepts about food packaging, quantity concepts and concepts managing units of measures. Experimental data are often expressed with concepts (e.g packaging, permeability) or a numerical value often followed with its unit of measure (e.g. 258 amol m-1 s-1 Pa-1). In this paper, our work deals with unit recognition, known as a scientific challenge. METHOD(S) Extracting automatically quantitative data is a painstaking process because units suffer from different ways of writing within documents. We can encounter same units written in different manners such as amol m-1 s-1 Pa-1 written as amol.m-1 .s-1 .Pa-1 or as amol/m/s/Pa. We aim at focusing on the extraction and identification of these variant units seen as synonyms, in order to enrich iteratively an ontology, which represents a predefined vocabulary used to annotate, capitalize and query experimental data extracted from texts [2]. Our work addresses unit extraction and identification issues from texts to enrich an ontology in a two-step approach. First, we use text-mining methods and supervised learning approaches in order to predict relevant parts of the text where synonyms of units or new units are. The second step of our method consists in extracting specific strings representing units in the segments of texts found in the previous step. The extracted candidates are compared to units already present in the ontology using a new edit measure based on Damerau-Levenshtein [3]. RESULTS We have made experiments on 115 scientific documents (i.e. around 35 000 sentences) on food packaging. Each unit is recognized from a list of 211 units already defined in the MAP'OPT-Onto. Our learning algorithms predict that almost 5 000 sentences contain units. This prediction is correct for 95,5% of cases. In the second step, we have successfully extracted 38 terms as either synonyms or new units from sentences selected in the first step. So, we can propose 18% of enrichment of the pre-existing MAP'OPT-Onto

    Database Models and Data Formats

    The deliverable describes data structure and XML formats that have been investigated and defined for data representation of linguistic and semantic resources underlying the KYOTO system

    Identification des unités de mesure dans les textes scientifiques

    National audienceIdentification of units of measures in scientific texts. The work presented in this paper consists in identifying specialized terms (units of measures) in textual documents in order to enrich a onto-terminological resource (OTR). The first step permits to predict the localization of unit of measure variants in the documents. We have used a method based on supervised learning. This method permits to reduce significantly the variant search space staying in an optimal search context (reduction of 86% of the search space on the studied set of documents). The second step uses a new similarity measure identifying automatically variants associated with term denoting a unit of measure already present in the OTR with a precision rate of 82% for a threshold above 0.6 on the studied corpus.Le travail présenté dans cet article se situe dans le cadre de l'identification de termes spécialisés (unités de mesure) à partir de données textuelles pour enrichir une Ressource Termino-Ontologique (RTO). La première étape de notre méthode consiste à prédire la localisation des variants d'unités de mesure dans les documents. Nous avons utilisé une méthode reposant sur l'apprentissage supervisé. Cette méthode permet de réduire sensiblement l'espace de recherche des variants tout en restant dans un contexte optimal de recherche (réduction de 86% de l'espace de recherché sur le corpus étudié). La deuxième étape du processus, une fois l'espace de recherche réduit aux variants d'unités, utilise une nouvelle mesure de similarité permettant d'identifier automatiquement les variants découverts par rapport à un terme d'unité déjà référencé dans la RTO avec un taux de précision de 82% pour un seuil au dessus de 0.6 sur le corpus étudié

    Implementing OBDA for an end-user query answering service on an educational ontology

    In the age where productivity of society is no longer defined by the amount of information generated, but from the quality and assertiveness that a set of data may potentially hold, the right questions to do depends on the semantic awareness capability that an information system could evolve into. To address this challenge, in the last decade, exhaustive research has been done in the Ontology Based Data Access (OBDA) paradigm. A conspectus of the most promising technologies with data integration capabilities and the foundations where they rely are documented in this memory as a point of reference for choosing tools that supports the incorporation of a conceptual model under a OBDA method. The present study provides a practical approach for implementing an ontology based data access service, to educational context users of a Learning Analytics initiative, by means of allowing them to formulate intuitive enquiries with a familiar domain terminology on top of a Learning Management System. The ontology used was completely transformed to semantic linked data standards and some data mappings for testing were included. Semantic Linked Data technologies exposed in this document may exert modernization to environments in which object oriented and relational paradigms may propagate heterogeneous and contradictory requirements. Finally, to validate the implementation, a set of queries were constructed emulating the most relevant dynamics of the model regarding the dataset nature

    Ontology-Based Information Sharing in Weakly Structured Environments

    Harmelen, F.A.H. van [Promotor]Herzog, O. [Copromotor

    Towards ontological foundations of research information systems

    Despite continuous advancements in information system technologies it is still not simple to receive relevant answers to Science-related queries. Getting answers requires a gathering of information from heterogeneous systems, and the volume of responses that semantically do not match with the queried intensions overwhelms users. W3C initiatives with extensions such as the Semantic Web and the Linked Open Data Web introduced important technologies to overcome the issues of semantics and access by promoting standard representation formats – formal ontologies – for information integration. These are inherent in architectural system styles, where increased openness challenges the traditional closed-world and often adhocly designed systems. However, technology on its own is not meaningful and the information systems community is increasingly becoming aware of foundations and their importance with guiding system analyses and conceptual design processes towards sustainable and more integrative information systems. As a contribution, this work develops a formal ontology FERON – Field-extensible Research Ontology – following the foundations as introduced by Mario Bunge and applied to information systems design by Wand and Weber, i.e. Bunge- Wand-Weber (BWW). Nevertheless, FERON is not aimed at the modelling of an information system as such, but at the description of a perceived world – the substantial things – that an information system ought to be able to model. FERON is a formal description of the Research domain – a formal ontology according to latest technological standards. Language Technology was chosen as a subdomain to demonstrate its field extensibility. The formal FERON ontology results from a hybrid modelling approach; it was first described top-down based on a many years activity of the author and then fine-tuned bottom-up through a comprehensive analysis and re-use of openly available descriptions and standards. The entire FERON design process was accompanied by an awareness of architectural system levels and system implementation styles, but was at first aimed at a human domain understanding, which according to the General Definition of Information (GDI) is achievable through well-formed meaningful data.Trotz kontinuierlich verbesserter Informationssystemtechnologien ist es nicht einfach möglich, relevante Antworten auf forschungsverwandte Suchanfragen zu erhalten. Dies liegt unter anderem daran, dass Informationen in verschiedenen Systemen bereitgestellt werden, und dass die Beschreibung der bereitgestellten Informationen nicht mit den Beschreibungen der gestellten Fragen übereinstimmen. Neuere Technologien wie das Semantische Web oder Linked Open Data ermöglichen zwar verbesserte Beschreibungen und Zugriffe – jedoch sind die Technologien an sich auch nicht bedeutungsvoll. Weitergehende, fundierende Ansätze zur Beschreibung von Informationenen finden daher zunehmend Anerkennung und Zuspruch in der wissenschaftlichen Gemeinde, diese beinflussen konsequenterweise die Systemanalyse sowie das Systemdesign. Die vorliegende Arbeit entwickelt eine formale Ontologie einer Forschungswelt die disziplinenübergreifend skaliert, namentlich FERON – Field-extensible Research Ontology, basierend auf den Ansätzen der Bunge-Wand-Weber (BWW) Ontologie. Der Titel der Arbeit “Towards Ontological Foundations of Research Information Systems” übersetzt: „Zur ontologischen Fundierung von Forschungsinformationssystemen“. Im Titel ist ontologisch zuallererst im philosophischen Sinne zu verstehen, und nicht zu verwechseln mit der dann resultierenden Ontologie im technologischen Sinne einer formalen Beschreibung der wahrgenommenen Forschungswelt – namentlich FERON. Eine Klärung der Begriffe Ontologie, Konzept, Entität, Daten und Information zum Verständnis der vorliegenden Arbeit wird in Kapitel 2.5 versucht, ein Verständnis wurde als kritisch für die Qualität der resultierenden formalen Ontologie FERON, aber auch als hilfreich für den Leser vorweggenommen, insbesondere weil die genannten Begriffe über Disziplinen hinweg oftmals sehr unterschiedlich wahrgenommen werden. Die Analyse und Modellierung von FERON basiert auf der Bedeutung dieser grundlegenden Begriffe wie die philosophische und wissenschaftliche Literatur verschiedener Disziplinen sie belegt. Die vorliegende Arbeit entwickelt FERON, und modelliert eine Welt der Forschung in disziplinenübergreifender Weise mittels neuester technologischer Standards – formal in RDF/OWL. Die fachspezifische Erweiterbarkeit ist durch Eingliederung von Beschreibungen des Gebietes Sprachtechnologie demonstriert. Die Modellierung wurde durchgehend von der Theorie Mario Bunges begleitet, welche Wand und Weber für eine Anwendung während der Systemanalyse und Systemgestaltung interpretierten und welche im Kapitel 3.1.1 vorgestellt wird. Die Idee ist als Bunge-Wand-Weber Ontologie (BWW) zunehmend bekannt und demgemäße ontologische Ansichten sind teilweise in formalen Beschreibungssprachen und Werkzeugen eingebunden, und damit bei der Modellierung explizit nutzbar. Neben BWW werden kurz die Fundierungsansätze von DOLCE, SUMO und Cyc vorgestellt und deren Relevanz für FERON verdeutlicht. Eine fehlende Fundierung in der Disziplin Informationssysteme wurde lange Zeit als wesentliche Ursache für die vermisste wissenschaftliche Akzeptanz der Disziplin betrachtet; größtenteils wurden Informationssysteme pragmatisch und adhoc entwickelt und skalierten daher nicht konsistent. Zunehmend wird jedoch eine theoretische und insbesondere die ontologische Fundierung von Informationssystemen als wertvoll anerkannt – von der Idee bis hin zur Implementierung aber auch während der Umgestaltungsphasen. Konzepte fundierter Informationssysteme im funktional-technischen Sinne sind als modellgetriebene Architektur bekannt und werden hier durch die Ansätze von Zachmann und Scheer verdeutlicht. In der kurzen Geschichte IT-basierter Informationssysteme wurden phasenweise immer wieder strukturell unterschiedliche Modelle angewandt. Diese werden daher im Kapitel 3.2 Modellierungsgrammatiken untersucht und deren Unterschiede dargestellt – namentlich das Entity-Relationship-Modell, semantische Netzwerke, das relationale Modell, hierarchische Modelle und objekt-orientierte Modelle. Darüberhinaus sind insbesondere formale Ontologien durch die Web Standardisierungsaktivitäten und W3C Empfehlungen ein rasant wachsendes Segment, verstärkt durch politische Entscheidungen für offene Daten und implizierend offene Systeme. Im Vergleich zu traditionellen und weitestgehend geschlossenen sogenannten closed-world Systemen sind hinsichtlich der Modellierung bestimmte Aspekte zu beachten. Diese unterliegen im Gegensatz zu offenen Systemen dem Paradigma des kompletten Wissens und sind sozusagen vorschreibend; im System aktuell nicht vorhandene Information wird als nicht existent interpretiert. Dahingegen gehen offene open-world Systeme davon aus, dass nicht vorhandene Information aktuell unbekannt ist – und die bekannte Information nicht vorschreibt sondern beschreibt. Weitere Unterschiede die es bezüglich der Modellierung zu beachten gilt, befassen sich mit zeitlich geprägten Verknüpfungen – über sogenannte Links oder Relationships – aber auch mit Entitäten und deren Identitäten. Da FERON keine Ontologie eines Informationssystems selbst modelliert, sondern eine Welt für eine mögliche Umsetzung in einem Informationssystem bechreibt sind weitergehende Modellierungsaspekte in Kapitel 3.3 lediglich erklärt und es wird auf Beispiele verwiesen. In der vorliegenden Arbeit wird keine explizite Anwendung empfohlen, weil ein Informationssystem immer derjenigen Form entsprechen sollte, welche einer bestimmten Funktion folgt, und weil die Vorwegnahme von Funktionen eine Dimension darstellt die weit über das Maß der vorliegenden Arbeit hinaus geht. FERON beschreibt eine Welt der Forschung; vorhandene Modellierungsansätze von Forschungsinformationssystemem werden mit Kapitel 4.1 den Ansätzen verwandter Arten gegenübergestellt – nämlich, wissenschaftlichen Repositorien, Datenrepositorien, Digitalen Bibliotheken, Digitalen Archiven und Lehre Systemen. Die untersuchten Modelle offenbaren neben inhaltlichen Unterschieden auch die Verschiedenheit der Modellierungsansätze von z.B. Referenzmodellen gegenüber formalen Datenmodellen oder offenen Weltbeschreibungen, und damit auch die einhergehende Schwierigkeit von Integration. Insbesondere formale Ontologien erlauben über die traditionellen Ansätze hinweg, automatische Schlußfolgerungen und Beweisführungen, welche jedoch hier nicht weitergehend erörtert werden. FERON war von Anfang an für den menschlichen Leser konzipiert, wenn auch formal beschrieben. Der Modellierungsansatz in FERON ist hybrid und wird in Kapitel 7 erläutert. Eine hybride Modellierung war möglich durch eine mehr als zehn-jährige Erfahrung und Tätigkeit der Autorin in diesem Bereich, auch belegt durch zahlreiche Peer-Review Publikationen. Der erste Entwurf von FERON erfolgte demgemäß zuallererst im Top-Down Verfahren (Figure 29), bevor mittels umfassender Analyse (dokumentiert in den Kapiteln 5 und 6) von verfügbaren Domänenbeschreibungen sukszessive eine Bottom-Up Anpassung von FERON vorgenommen wurde (Figure 68), welche bereits standardisierte und bereits definierte Beschreibungen und Eigenschaften wenn möglich integrierte (Figure 67). FERON ist eine ontologisch fundierte, formale Beschreibung – eine formale Ontologie – einer Forschungswelt zur vereinfachten, konsistenten Umsetzung von standardisierten, integrativen Forschungsinformationssystemen oder Fachinformationssystemen. Substantielle Entitäten wurden grundsätzlich erkannt, und deren Eigenschaften sowie Verknüpfungen formal beschrieben (Kapitel 7): Ressource unterschieden nach Nicht-Informations-Ressource und Informations-Ressource. Erstere unterscheidet nach Agent (Person, Organisationseinheit), Aktivität (Methode, Projekt, Bildung, Ereignis), Förderung (Programm, Einkommen), Messung und Infrastruktur (Werkzeug, Dienst, Einrichtung), zweitere nach Publikation, Literatur, Produkt (Daten), Wissensorganisationssystem, auch bekannt als KOS (Knowledge Organisation System), wie in der im Dokument integrierten Graphik (Figure 1) demonstriert. Kapitel 7 präsentiert FERON und dessen formale Einbindung von übergreifenden Eigenschaften wie Sprache, Zeit, Geographie, zeitlich geprägte Verknüpfung, ontologische Verpflichtung, Namensraum, Klasse, Eigenschaft, funktionales Schema, Entität und Identität. Seine inherente Struktur erlaubt eine einfache Disziplinen- oder Domänenerweiterung. Die Sprachtechnologie (englisch: Language Technology – abgekürzt LT) wird als Gebiet zur Demonstration der Erweiterung von FERON formal eingebunden, und mit Kapitel 6 insbesondere seine substantiell fach-spezifischen Entitäten wie Methode, Projekt, Daten, Service, Infrastruktur, Messung, aber auch KOS untersucht. Eine Erweiterung der Ontologie FERON für explizit-funktionale Anforderungen an ein Informationssystem, oder für weitergehende disziplinen-spezifische Eigenschaften, z.B. einer linguistisch verbesserten Anwendung für sprachtechnologische Weiterverarbeitung, ist möglich, erfordert jedoch tiefergehendes Fachwissen. Ziel der Arbeit war es zuallererst, das Verständnis für die Domäne Forschung zu verbessern – mit weiterreichendem Blick auf eine allgemeine integrative system-technische Entwicklung zur Verbesserung von Informationszugriff und Informationsqualität. Daneben wurden historische, gesellschaftliche aber auch politische Faktoren beobachtet, welche helfen, die wachsenden Anforderungen jenseits der Technologie zu bewältigen. FERON ist als formales Model FERON.owl valide und wird mit der vorliegenden Arbeit sozusagen als Template zur weiteren Befüllung bereitgestellt. Darauf basierend sind formale Restriktionen sowie disziplinen-spezifische und terminologische Erweiterungen direkt möglich. Daten-Instanzen wie in den präsentierten Beispielen sind mittels FERON.pprj verfügbar
