Search CORE

4 research outputs found

Population d'ontologies automatisée, non supervisée et indépendante du domaine à partir de données non structurées

Author: Chasseray Yohann
Publication venue
Publication date: 17/11/2021
Field of study

La complexification des systèmes industriels et sociaux, conjuguée à l'impact grandissant des perturbations internes comme externes sur ces derniers, a fait naître le besoin d'acquérir informations et connaissances relatives au domaine et au contexte dans lesquels ils évoluent pour assurer leur pilotage. Dans cette optique, la réunion des connaissances par consensus d'experts a mené dans de nombreux domaines à la construction d'ontologies qui peuvent être intégrées à des systèmes d'aide à la décision. Si ces ontologies formalisent à haut niveau les concepts d'un domaine et les relations que ceux-ci entretiennent entre eux, elles ne constituent pas à proprement parler une base de connaissances qui soit actionnable par un système d'aide à la décision. Ainsi, leur mise en oeuvre requiert une étape de population de l'ontologie, le plus souvent réalisée manuellement, à nouveau via des experts du domaine. Cette tâche se révèle fastidieuse et chronophage, freinant le déploiement à l’échelle industrielle de nombreuses ontologies développées durant les deux dernières décennies. Les travaux de cette thèse s'intéressent donc à la population automatisée non supervisée de ces ontologies à partir de données brutes dont la production augmente de façon exponentielle. Qu'elles soient structurées ou non, sous différents formats (XML, texte brut, document PDF), et de différents types (Web, bases de données, articles de presse, réseaux sociaux), ces sources de données sont autant de mines de connaissances qui permettent d'assister le pilotage d'un système complexe et de décrire le contexte dans lequel il évolue. Dans cette thèse, une approche employant l'ingénierie dirigée par les modèles est explicitée. L'objectif de cette approche est de réconcilier les données brutes non structurées avec les structures ontologiques, utilisées pour organiser et structurer la connaissance. Cette démarche est l'occasion de définir un métamodèle générique - c'est-à-dire autant indépendant du domaine d'application que de la source de données exploitée - pour l'extraction d'informations à partir de données non structurées. La spécification de cette stratégie pour les données textuelles s'est faite à travers une approche hybride mariant règles d'extraction syntaxiques et analyse sémantique. Elle a par ailleurs donné lieu au développement d'un prototype logiciel et à l'application de ce dernier à différents domaines (chimie organique, biochimie, gestion de crise civile) et à partir de différentes sources de données (articles et ouvrages scientifiques, articles issus de l'encyclopédie Wikipedia, articles de presse)

Cutter – a Universal Multilingual Tokenizer

Author: Bertamini Mara
Graën Johannes
Volk Martin
Publication venue: CEUR-WS
Publication date: 13/06/2018
Field of study

Tokenization is the process of splitting running texts into minimal meaningful units. In writing systems where a space character is used for word separation, this blank character typically acts as token boundary. A simple tokenizer that only splits texts at space characters already achieves a notable accuracy, although it misses unmarked token boundaries and erroneously splits tokens that contain space characters. Different languages use the same characters for different purposes. Tokenization is thus a language-specific task (with code-switching being a particular challenge). Extralinguistic tokens, however, are similar in many languages. These tokens include numbers, XML elements, email addresses and identifiers of concepts that are idiosyncratic to particular text variants (e.g., patent numbers). We present a framework for tokenization that makes use of language-specific and language-independent token identification rules. These rules are stacked and applied recursively, yielding a complete trace of the tokenization process in form of a tree structure. Rules are easily adaptable to different languages and text types. Unit tests reliably detect if new token identification rules conflict with existing ones and thus assure consistent tokenization when extending the rule sets

An evaluation of the challenges of Multilingualism in Data Warehouse development

Author: Dedić Nedim
STANIER Clare
Publication venue
Publication date: 01/01/2016
Field of study

In this paper we discuss Business Intelligence and define what is meant by support for Multilingualism in a Business Intelligence reporting context. We identify support for Multilingualism as a challenging issue which has implications for data warehouse design and reporting performance. Data warehouses are a core component of most Business Intelligence systems and the star schema is the approach most widely used to develop data warehouses and dimensional Data Marts. We discuss the way in which Multilingualism can be supported in the Star Schema and identify that current approaches have serious limitations which include data redundancy and data manipulation, performance and maintenance issues. We propose a new approach to enable the optimal application of multilingualism in Business Intelligence. The proposed approach was found to produce satisfactory results when used in a proof-of-concept environment. Future work will include testing the approach in an enterprise environmen