11 research outputs found

    Extraction d'arguments de relations n-aires dans les textes guidée par une RTO de domaine

    Get PDF
    Today, a huge amount of data is made available to the research community through several web-based libraries. Enhancing data collected from scientific documents is a major challenge in order to analyze and reuse efficiently domain knowledge. To be enhanced, data need to be extracted from documents and structured in a common representation using a controlled vocabulary as in ontologies. Our research deals with knowledge engineering issues of experimental data, extracted from scientific articles, in order to reuse them in decision support systems. Experimental data can be represented by n-ary relations which link a studied object (e.g. food packaging, transformation process) with its features (e.g. oxygen permeability in packaging, biomass grinding) and capitalized in an Ontological and Terminological Ressource (OTR). An OTR associates an ontology with a terminological and/or a linguistic part in order to establish a clear distinction between the term and the notion it denotes (the concept). Our work focuses on n-ary relation extraction from scientific documents in order to populate a domain OTR with new instances. Our contributions are based on Natural Language Processing (NLP) together with data mining approaches guided by the domain OTR. More precisely, firstly, we propose to focus on unit of measure extraction which are known to be difficult to identify because of their typographic variations. We propose to rely on automatic classification of texts, using supervised learning methods, to reduce the search space of variants of units, and then, we propose a new similarity measure that identifies them, taking into account their syntactic properties. Secondly, we propose to adapt and combine data mining methods (sequential patterns and rules mining) and syntactic analysis in order to overcome the challenging process of identifying and extracting n-ary relation instances drowned in unstructured texts.Aujourd'hui, la communauté scientifique a l'opportunité de partager des connaissances et d'accéder à de nouvelles informations à travers les documents publiés et stockés dans les bases en ligne du web. Dans ce contexte, la valorisation des données disponibles reste un défi majeur pour permettre aux experts de les réutiliser et les analyser afin de produire de la connaissance du domaine. Pour être valorisées, les données pertinentes doivent être extraites des documents puis structurées. Nos travaux s'inscrivent dans la problématique de la capitalisation des données expérimentales issues des articles scientifiques, sélectionnés dans des bases en ligne, afin de les réutiliser dans des outils d'aide à la décision. Les mesures expérimentales (par exemple, la perméabilité à l'oxygène d'un emballage ou le broyage d'une biomasse) réalisées sur différents objets d'études (par exemple, emballage ou procédé de bioraffinerie) sont représentées sous forme de relations n-aires dans une Ressource Termino-Ontologique (RTO). La RTO est modélisée pour représenter les relations n-aires en associant une partie terminologique et/ou linguistique aux ontologies afin d'établir une distinction claire entre la manifestation linguistique (le terme) et la notion qu'elle dénote (le concept). La thèse a pour objectif de proposer une contribution méthodologique d'extraction automatique ou semi-automatique d'arguments de relations n-aires provenant de documents textuels afin de peupler la RTO avec de nouvelles instances. Les méthodologies proposées exploitent et adaptent conjointement des approches de Traitement automatique de la Langue (TAL) et de fouille de données, le tout s'appuyant sur le support sémantique apporté par la RTO de domaine. De manière précise, nous cherchons, dans un premier temps, à extraire des termes, dénotant les concepts d'unités de mesure, réputés difficiles à identifier du fait de leur forte variation typographique dans les textes. Après la localisation de ces derniers par des méthodes de classification automatique, les variants d'unités sont identifiés en utilisant des mesures d'édition originales. La seconde contribution méthodologique de nos travaux repose sur l'adaptation et la combinaison de méthodes de fouille de données (extraction de motifs et règles séquentiels) et d'analyse syntaxique pour identifier les instances d'arguments de la relation n-aire recherchée

    Analyse d'images : Filtrage et segmentation

    Get PDF
    Ouvrage publié avec l'aide du Ministère des affaires étrangères, direction de la coopération scientifique et technique. AVERTISSEMENT Le livre publié en 1995 chez MASSON (EAN13 : 9782225849237) est épuisé. Cette version pdf est une version élaborée à partie de la version préliminaire transmise à l'éditeur. La mise en page est légèrement différente de celle du livre. Malheureusement quelques figures de l'annexe C ont été perdues.International audienceL'analyse d'image touche à l'heure actuelle de nombreux domaines, avec des objectifs aussi variés que l'aide au diagnostic pour les images médicales, la vision artificielle en robotique ou l'analyse des ressources terrestres à partir des images prises par satellite. Le but du traitement de ces images est à la fois simple dans son concept et difficile dans sa réalisation. Simple en effet, puisqu'il s'agit de reconnaître des objets que notre système visuel perçoit rapidement, du moins pour la majorité d'entre eux. Difficile cependant, car dans la grande quantité d'informations contenues dans l'image, il faut extraire des éléments pertinents pour l'application visée et ceci indépendamment de la qualité de l'image. L'analyse d'image s'est donc dotée d'outils et de méthodes puissants issus de domaines aussi variés que les mathématiques, le traitement du signal, ou l'informatique. Cet ouvrage présente un des aspects les plus importants du traitement des images : la " segmentation ". Il récapitule d'abord les grandeurs observables et calculables sur une image et les algorithmes de manipulation des structures de données associées. Il détaille ensuite les traitements préliminaires, tels le filtrage du bruit et les deux types d'approche de la segmentation, l'extraction des contours et celle des régions. Chacune fait l'objet d'une étude théorique et de nombreux résultats illustrent les performances. Une des originalités de l'ouvrage est l'étude comparative des différentes techniques appliquées sur un même corpus d'images réelles

    Société Francophone de Classification (SFC) Actes des 26èmes Rencontres

    Get PDF
    National audienceLes actes des rencontres de la Société Francophone de Classification (SFC, http://www.sfc-classification.net/) contiennent l'ensemble des contributions,présentés lors des rencontres entre les 3 et 5 septembre 2019 au Centre de Recherche Inria Nancy Grand Est/LORIA Nancy. La classification sous toutes ces formes, mathématiques, informatique (apprentissage, fouille de données et découverte de connaissances ...), et statistiques, est la thématique étudiée lors de ces journées. L'idée est d'illustrer les différentes facettes de la classification qui reflètent les intérêts des chercheurs dans la matière, provenant des mathématiques et de l'informatique

    Analyse des signaux stabilométriques et de la stabilité chez l’Homme : application à la biométrie

    Get PDF
    Biometrics refers to automatic recognition of individuals. It is based on their physiological and / or behavioral. The postural control, despite that is a human behavioral characteristic, has not been well developed in the field of biometrics. The work performed in this thesis is based on the stabilometric signals analysis ant biometric application. Firstly, a study of the postural information especially the stabilometric signal is carried out through traditional analysis namely temporal, frequency and stochastic analysis and two decomposition methods named principle components analysis (ACP) decomposition and wavelet decomposition. The ACP method, based on the additive model, allows decomposing the signal into three components: a trend signal, a rambling signal and a trembling signal. The wavelet decomposition method allows decomposing the signal into three levels of detail signals and three signal levels of approximation. Through the study of postural stability, spectral analysis and phase analysis of the different components from the ACP and the wavelet decomposition, the comparison of these two methods concludes that the ACP method is more appropriate than the wavelet decomposition to analyze the stabilogram. From the decomposition methods and classical methods of analysis, several parameters are extracted to study the effect of different factors on postural stability and the center of mass displacement. These factors are named vision, direction, proprioception, age, gender, height and weight. A second aspect of this work is devoted to the application of biometrics, from the extracted parameters and through ANOVA statistic analysis, those that are most discriminative are used to identify subjects and classify them according to age, gender, weight and size. This biometric application is performed by three classification methods namely, K-NN, LDA and SVM. Biometric applications result in respectable recognition rate exceeding 80%. Therefore, it is inferred that the analysis of postural control is promising in the field of biometricsLa biométrie se réfère à la reconnaissance automatique des individus. Elle est basée sur leurs caractéristiques physiologiques et/ou comportementales. Le contrôle postural, bien que soit une caractéristique comportementale de l'Homme, n'a pas été bien développée dans le domaine de la biométrie. Le travail mené dans cette thèse repose sur l'analyse des signaux stabilométriques et l'application à la biométrie. Dans un premier volet, une étude de l'information posturale, en particulier le signal stabilométrique, est effectuée à travers des méthodes d'analyses classiques à savoir et l'analyse spatio-temporelle, spectrale et stochastique et à travers aussi deux méthodes de décomposition : la décomposition appelée analyse en composantes principales (ACP) et la décomposition en ondelettes. La méthode ACP, basée sur le modèle additif, permet de décomposer le signal en trois composantes: un signal de tendance, un signal d'excursion et un signal de tremblements. La méthode de décomposition en ondelettes permet de décomposer le signal en trois niveaux de signaux de détail et trois niveaux de signaux d'approximation. Suite à l'étude de la stabilité posturale, l'analyse spectrale et l'analyse de la phase des différentes composantes issues de la ACP et de la décomposition en ondelettes, la comparaison de ces deux méthodes conclut que la méthode ACP est plus appropriée que la décomposition en ondelettes pour analyser le stabilogramme. A partir des méthodes de décomposition et des méthodes d'analyses classiques, des paramètres sont extraits afin d'étudier l'effet de différents facteurs sur la stabilité posturale et sur le déplacement du centre de masse. Ces facteurs sont la vision, la direction, la proprioception, l'âge, le genre, la taille et le poids. Un deuxième volet de ce travail est consacré à l'application biométrique, à partir des paramètres extraits et suite à une analyse statistique ANOVA, ceux qui sont les plus discriminatifs sont utilisés pour identifier des sujets et les classer selon leur âge, genre, poids et taille. Cette application biométrique est effectuée par trois méthodes de classification à savoir, K-ppv, ADL et SVM. Les applications biométriques aboutissent à des taux de reconnaissance respectables dépassant 80%. De ce fait, il est à déduire que l'analyse du contrôle postural est prometteuse dans le domaine de la biométri

    Contribution à la segmentation supervisée de données volumiques : modèle conceptuel et développement d'outils interactifs d'aide à l'interprétation d'images sismiques

    Get PDF
    Ce mémoire porte sur l’étude et la conception de nouveaux outils d’aide à l’interprétation des images sismiques. L’objectif est de permettre au géologue d’extraire de manière interactive les réseaux de failles tridimensionnelles visibles dans les blocs sismiques. Dans la première partie du manuscrit, nous abordons l’étude des mécanismes perceptifs mis en jeux lors de l’inspection visuelle des données sismiques dans le but de détecter les failles. Cette analyse nous permet de proposer une nouvelle technique de segmentation supervisée, nommée pointé dynamique, qui est présentée dans la deuxième partie du manuscrit. Le mémoire se termine par la présentation de résultats de segmentation obtenus par pointé dynamique.This thesis concerns the design of new tools for the analysis and interpretation of seismic images. Its main goal is the interactive extraction of three-dimensional fault networks found in volumetric seismic data. The first part of this work is devoted to the study of perceptual mechanisms that occur during the visual inspection of seismic data for fault detection. This analysis leads to the proposal of a new technique for the supervised segmentation of volumetric data, called dynamic pointing, which is introduced in the second part of this document. It concludes with the presentation of several segmentations obtained using the technique of dynamic pointing

    L'AIS : une donnée pour l'analyse des activités en mer

    Get PDF
    4 pages, session "Mer et littoral"International audienceCette contribution présente des éléments méthodologiques pour la description des activités humaines en mer dans une perspective d'aide à la gestion. Différentes procédures, combinant l'exploitation de bases de données spatio-temporelles issue de données AIS archivées à des analyses spatiales au sein d'un SIG, sont testées afin de caractériser le transport maritime en Mer d'Iroise (Bretagne, France) sur les plans spatiaux, temporels et quantitatifs au cours d'une année

    Modélisation multi-échelles de la morphologie urbaine à partir de données carroyées de population et de bâti

    Get PDF
    Since a couple of decades the relationships between urban form and travel patterns are central to reflection on sustainable urban planning and transport policy. The increasing distribution of regular grid data is in this context a new perspective for modeling urban structures from measurements of density freed from the constraints of administrative division. Population density data are now available on 200 meters grids covering France. We complete these data with built area densities in order to propose two types of classified images adapted to the study of travel patterns and urban development: classifications of urban fabrics and classifications of morphotypes of urban development. The construction of such classified images is based on theoretical and experimental which raise methodological issues regarding the classification of a statistically various urban spaces. To proceed exhaustively those spaces, we proposed a per-pixel classification method of urban fabrics by supervised transfer learning. Hidden Markov random fields are used to take into account the dependencies in the spatial data. The classifications of morphotypes are then obtained by broadening the knowledge of urban fabrics. These classifications are formalized from chorematique theoretical models and implemented by qualitative spatial reasoning. The analysis of these classifications by methods of quantitative spatial reasoning and factor analysis allowed us to reveal the morphological diversity of 50 metropolitan areas. It highlights the relevance of these classifications to characterize urban areas in accordance with various development issues related to the density or multipolar developmentLa question des liens entre forme urbaine et transport se trouve depuis une vingtaine d'années au cœur des réflexions sur la mise en place de politiques d'aménagement durable. L'essor de la diffusion de données sur grille régulière constitue dans ce cadre une nouvelle perspective pour la modélisation de structures urbaines à partir de mesures de densités affranchies de toutes les contraintes des maillages administratifs. A partir de données de densité de population et de surface bâtie disponibles à l'échelle de la France sur des grilles à mailles de 200 mètres de côté, nous proposons deux types de classifications adaptées à l'étude des pratiques de déplacement et du développement urbain : des classifications des tissus urbains et des classifications des morphotypes de développement urbain. La construction de telles images classées se base sur une démarche de modélisation théorique et expérimentale soulevant de forts enjeux méthodologiques quant à la classification d'espaces urbains statistiquement variés. Pour nous adapter au traitement exhaustif de ces espaces, nous avons proposé une méthode de classification des tissus urbains par transfert d'apprentissage supervisé. Cette méthode utilise le formalisme des champs de Markov cachés pour prendre en compte les dépendances présentes dans ces données spatialisées. Les classifications en morphotypes sont ensuite obtenus par un enrichissement de ces premières images classées, formalisé à partir de modèles chorématiques et mis à œuvre par raisonnement spatial qualitatif. L'analyse de ces images classées par des méthodes de raisonnement spatial quantitatif et d'analyses factorielles nous a permis de révéler la diversité morphologique de 50 aires urbaines françaises. Elle nous a permis de mettre en avant la pertinence de ces classifications pour caractériser les espaces urbains en accord avec différents enjeux d'aménagement relatifs à la densité ou à la multipolarit

    Extraction de motifs fermés dans des relations n-aires bruitées

    No full text
    National audienceL'extraction de motifs fermés (ou concepts formels) dans des relations binaires s'est révélée utile dans de multiples applications. En fait, dans de nombreux cas, la relation à fouiller apparait naturellement comme étant une relation n-aire (n>2) par ailleurs bruitée (nécessité d'une tolérance aux exceptions). Ces deux problèmes ont été étudiés récemment de façon indépendante. Nous étudions ici la combinaison de ces deux fonctionnalités. Des expériences conduites sur plusieurs jeux de données synthétiques démontrent l'utilité de notre proposition, notamment en présence de relations très bruitées et/ou de grande arité
    corecore