15 research outputs found

    Fouille de données de santé

    Get PDF
    Dans le domaine de la santĂ©, les techniques d’analyse de donnĂ©es sont de plus en plus populaires et se rĂ©vĂšlent mĂȘme indispensables pour gĂ©rer les gros volumes de donnĂ©es produits pour un patient et par le patient. Deux thĂ©matiques seront abordĂ©es dans cette prĂ©sentation d'HDR.La premiĂšre porte sur la dĂ©finition, la formalisation, l’implĂ©mentation et la validation de mĂ©thodes d’analyse permettant de dĂ©crire le contenu de bases de donnĂ©es mĂ©dicales. Je me suis particuliĂšrement intĂ©ressĂ©e aux donnĂ©es sĂ©quentielles. J’ai fait Ă©voluer la classique notion de motif sĂ©quentiel pour y intĂ©grer des composantes contextuelles, spatiales et sur l’ordre partiel des Ă©lĂ©ments composant les motifs. Ces nouvelles informations enrichissent la sĂ©mantique initiale de ces motifs.La seconde thĂ©matique se focalise sur l’analyse des productions et des interactions des patients au travers des mĂ©dias sociaux. J’ai principalement travaillĂ© sur des mĂ©thodes permettant d’analyser les productions narratives des patients selon leurs temporalitĂ©s, leurs thĂ©matiques, les sentiments associĂ©s ou encore le rĂŽle et la rĂ©putation du locuteur s’étant exprimĂ© dans les messages

    L'AIS : une donnée pour l'analyse des activités en mer

    Get PDF
    4 pages, session "Mer et littoral"International audienceCette contribution présente des éléments méthodologiques pour la description des activités humaines en mer dans une perspective d'aide à la gestion. Différentes procédures, combinant l'exploitation de bases de données spatio-temporelles issue de données AIS archivées à des analyses spatiales au sein d'un SIG, sont testées afin de caractériser le transport maritime en Mer d'Iroise (Bretagne, France) sur les plans spatiaux, temporels et quantitatifs au cours d'une année

    Formalisation d'un environnement d'aide à l'analyse géovisuelle: Application à la sécurité et sûreté de la maritimisation de l'énergie

    Get PDF
    The maritime space is still a sensitive area due to many accidents and dangers, such as collisions or pirate attacks. In order to ensure the control of safety and security of this area, it is essential to study near real-time movement information (surveillance) or past events (analysis). Controllers and analysts are then faced to large sets of data, which must be studied with systems using maps and other visualizations. However, these tools are limited in terms of analysis capacities. Using geovisual analytics could be used to improve pattern identification, anomalies detection and knowledge discovery. However, due to the complexity of their use, most methods are still at the stage of research, and are not used yet in the operational word for studying maritime risks.In this context, we propose a geovisual analytics support system to guide users in the visualization and the analysis of maritime risks. Our research methodology is based on the formalization of use cases, of users and of several visualization methods. Ontologies and rules are used to create a knowledge-based system, to select adequate solutions for the visualization and the analysis of ships’ trajectories. Some examples for analyzing maritime risks are then presented to illustrate the use of such a system.L’espace maritime est encore aujourd’hui le contexte de nombreux accidents et dangers, comme des collisions ou des attaques pirates. Afin de garantir le contrĂŽle de la sĂ»retĂ© et de la sĂ©curitĂ© de cet espace, il est nĂ©cessaire d’étudier les donnĂ©es de mouvement en temps rĂ©el (surveillance) et les Ă©vĂšnements passĂ©s (analyse). ContrĂŽleurs et analystes sont alors confrontĂ©s Ă  de grandes quantitĂ©s de donnĂ©es, qui doivent ĂȘtre Ă©tudiĂ©es grĂące Ă  des systĂšmes utilisant des cartes et autres visualisations. Cependant, ces outils sont limitĂ©s en termes de capacitĂ©s d’analyse. L’utilisation de mĂ©thodes d’analyse gĂ©ovisuelle pourrait alors faciliter la reconnaissance de motifs, la dĂ©tection d’anomalies et la dĂ©couverte de connaissances. Toutefois, en raison de leur complexitĂ© d’utilisation, plusieurs de ces mĂ©thodes n’ont pas dĂ©passĂ© le stade acadĂ©mique, et ne sont pas encore utilisĂ©es de maniĂšre opĂ©rationnelle dans l’étude des risques maritimes.Dans ce contexte, nous proposons un environnement d’aide Ă  l’analyse gĂ©ovisuelle, qui permet de guider l’utilisateur dans la visualisation et l’analyse d’informations pour l’étude des risques maritimes. Notre dĂ©marche de thĂšse se fonde sur la formalisation des cas d’utilisation, des utilisateurs et des mĂ©thodes de visualisation. Le recours Ă  des ontologies et des rĂšgles permet de concevoir un systĂšme Ă  base de connaissances, afin de proposer des mĂ©thodes adĂ©quates pour la visualisation et l’analyse des trajectoires de navires. Nous illustrons cette proposition par plusieurs exemples d’analyse de risques en mer

    Actes des 25es journées francophones d'Ingénierie des Connaissances (IC 2014)

    Get PDF
    National audienceLes JournĂ©es Francophones d'IngĂ©nierie des Connaissances fĂȘtent cette annĂ©e leurs 25 ans. Cette confĂ©rence est le rendez-vous annuel de la communautĂ© française et francophone qui se retrouve pour Ă©changer et rĂ©flĂ©chir sur des problĂšmes de recherche qui se posent en acquisition, reprĂ©sentation et gestion des connaissances. Parmi les vingt et un articles sĂ©lectionnĂ©s pour publication et prĂ©sentation Ă  la confĂ©rence, un thĂšme fondateur de l'ingĂ©nierie des connaissances domine : celui de la modĂ©lisation de domaines. Six articles traitent de la conception d'ontologies, trois articles de l'annotation sĂ©mantique et du peuplement d'ontologies et deux articles de l'exploitation d'ontologies dans des systĂšmes Ă  base de connaissances. L'informatique mĂ©dicale est le domaine d'application privilĂ©giĂ© des travaux prĂ©sentĂ©s, que l'on retrouve dans sept articles. L'ingĂ©nierie des connaissances accompagne l'essor des technologies du web sĂ©mantique, en inventant les modĂšles, mĂ©thodes et outils permettant l'intĂ©gration de connaissances et le raisonnement dans des systĂšmes Ă  base de connaissances sur le web. Ainsi, on retrouve les thĂšmes de la reprĂ©sentation des connaissances et du raisonnement dans six articles abordant les problĂ©matiques du web de donnĂ©es : le liage des donnĂ©es, leur transformation et leur interrogation ; la reprĂ©sentation et la rĂ©utilisation de rĂšgles sur le web de donnĂ©es ; la programmation d'applications exploitant le web de donnĂ©es. L'essor des sciences et technologies de l'information et de la communication, et notamment des technologies du web, dans l'ensemble de la sociĂ©tĂ© engendre des mutations dans les pratiques individuelles et collectives. L'ingĂ©nierie des connaissances accompagne cette Ă©volution en plaçant l'utilisateur au cƓur des systĂšmes informatiques, pour l'assister dans le traitement de la masse de donnĂ©es disponibles. Quatre articles sont dĂ©diĂ©s aux problĂ©matiques du web social : analyse de rĂ©seaux sociaux, dĂ©tection de communautĂ©s, folksonomies, personnalisation de recommandations, reprĂ©sentation et prise en compte de points de vue dans la recherche d'information. Deux articles traitent de l'adaptation des systĂšmes aux utilisateurs et de l'assistance aux utilisateurs et deux autres de l'aide Ă  la prise de dĂ©cision. Le taux de sĂ©lection de cette Ă©dition de la confĂ©rence est de 50%, avec dix-neuf articles longs et deux articles courts acceptĂ©s parmi quarante-deux soumissions. S'y ajoutent une sĂ©lection de neuf posters et dĂ©monstrations parmi douze soumissions, prĂ©sentĂ©s dans une session dĂ©diĂ©e et inclus dans les actes. Enfin, une innovation de cette Ă©dition 2014 de la confĂ©rence est la programmation d'une session spĂ©ciale " Projets et Industrie ", animĂ©e par FrĂ©dĂ©rique Segond (Viseo), Ă  laquelle participeront Laurent Pierre (EDF), Alain Berger (Ardans) et MylĂšne Leitzelman (Mnemotix). Trois confĂ©renciĂšres invitĂ©es ouvriront chacune des journĂ©es de la confĂ©rence que je remercie chaleureusement de leur participation. Nathalie Aussenac-Gilles (IRIT) retracera l'Ă©volution de l'ingĂ©nierie des connaissances en France depuis 25 ans, de la pĂ©nurie Ă  la surabondance. A sa suite, FrĂ©dĂ©rique Segond (Viseo) abordera le problĂšme de " l'assouvissement " de la faim de connaissances dans la nouvelle Ăšre des connaissances dans laquelle nous sommes entrĂ©s. Enfin, Marie-Laure Mugnier (LIRMM) prĂ©sentera un nouveau cadre pour l'interrogation de donnĂ©es basĂ©e sur une ontologie, fondĂ© sur des rĂšgles existentielles

    Sur les traces du futur : entre comprendre et predire

    Get PDF
    Empirical modelling, which relies on data, also referred to as traces, is an approach for modelling phenomena,systems or objects. It has the characteristics of modeling the “reality” of these phenomena.The researches I have conducted are dedicated to both descriptive and predictive modelling. They focusedon robustness, complexity and quality of the models, but also on the identification of triggering orexplanatory factors in data.My contributions have been applied and validated in the frame of e-commerce and, more recently, one-education through the use of traces of behavior, of preferences, etc.My future research goes a step further and will focus on prescriptive modelling : what can be done toreach a given objective ? Some considerations related to algorithms that can explain themselves and thatare transparent (explainable AI), as well as the management of multiple sources of data will be studied.La modĂ©lisation empirique, reposant sur des donnĂ©es de rĂ©alisation ou de traces, est une approche demodĂ©lisation de phĂ©nomĂšnes, systĂšmes ou objets, et a la caractĂ©ristique de s’intĂ©resser Ă  la “rĂ©alitĂ©â€ de cesderniers. Les travaux de recherche que je mĂšne s’intĂ©ressent Ă  la modĂ©lisation descriptive et prĂ©dictive. Jeme suis intĂ©ressĂ©e Ă  des problĂ©matiques gĂ©nĂ©rales telles que la robustesse, la complexitĂ©, et la qualitĂ© desmodĂšles, tout en me focalisant sur des dĂ©fis plus spĂ©cifiques tels que le dĂ©marrage Ă  froid et le manquegĂ©nĂ©ral de donnĂ©es, mais aussi l’identification de facteurs influents ou explicatifs au sein des donnĂ©es.Mes contributions ont Ă©tĂ© appliquĂ©es et validĂ©es principalement sur en contexte e-commerce et plusrĂ©cemment en Ă©ducation : traces de comportement, de prĂ©fĂ©rences, etc.Mes recherches futures iront un pas plus loin dans la modĂ©lisation, et auront pour objectif la modĂ©lisationprescriptive : que faire pour arriver Ă  un but fixĂ© ? Des aspects relatifs Ă  la transparence et Ă l’explicabilitĂ© des algorithmes, de mĂȘme qu’à la gestion de sources de donnĂ©es multiples seront au coeurde ces travaux

    Extraction d'arguments de relations n-aires dans les textes guidée par une RTO de domaine

    Get PDF
    Today, a huge amount of data is made available to the research community through several web-based libraries. Enhancing data collected from scientific documents is a major challenge in order to analyze and reuse efficiently domain knowledge. To be enhanced, data need to be extracted from documents and structured in a common representation using a controlled vocabulary as in ontologies. Our research deals with knowledge engineering issues of experimental data, extracted from scientific articles, in order to reuse them in decision support systems. Experimental data can be represented by n-ary relations which link a studied object (e.g. food packaging, transformation process) with its features (e.g. oxygen permeability in packaging, biomass grinding) and capitalized in an Ontological and Terminological Ressource (OTR). An OTR associates an ontology with a terminological and/or a linguistic part in order to establish a clear distinction between the term and the notion it denotes (the concept). Our work focuses on n-ary relation extraction from scientific documents in order to populate a domain OTR with new instances. Our contributions are based on Natural Language Processing (NLP) together with data mining approaches guided by the domain OTR. More precisely, firstly, we propose to focus on unit of measure extraction which are known to be difficult to identify because of their typographic variations. We propose to rely on automatic classification of texts, using supervised learning methods, to reduce the search space of variants of units, and then, we propose a new similarity measure that identifies them, taking into account their syntactic properties. Secondly, we propose to adapt and combine data mining methods (sequential patterns and rules mining) and syntactic analysis in order to overcome the challenging process of identifying and extracting n-ary relation instances drowned in unstructured texts.Aujourd'hui, la communautĂ© scientifique a l'opportunitĂ© de partager des connaissances et d'accĂ©der Ă  de nouvelles informations Ă  travers les documents publiĂ©s et stockĂ©s dans les bases en ligne du web. Dans ce contexte, la valorisation des donnĂ©es disponibles reste un dĂ©fi majeur pour permettre aux experts de les rĂ©utiliser et les analyser afin de produire de la connaissance du domaine. Pour ĂȘtre valorisĂ©es, les donnĂ©es pertinentes doivent ĂȘtre extraites des documents puis structurĂ©es. Nos travaux s'inscrivent dans la problĂ©matique de la capitalisation des donnĂ©es expĂ©rimentales issues des articles scientifiques, sĂ©lectionnĂ©s dans des bases en ligne, afin de les rĂ©utiliser dans des outils d'aide Ă  la dĂ©cision. Les mesures expĂ©rimentales (par exemple, la permĂ©abilitĂ© Ă  l'oxygĂšne d'un emballage ou le broyage d'une biomasse) rĂ©alisĂ©es sur diffĂ©rents objets d'Ă©tudes (par exemple, emballage ou procĂ©dĂ© de bioraffinerie) sont reprĂ©sentĂ©es sous forme de relations n-aires dans une Ressource Termino-Ontologique (RTO). La RTO est modĂ©lisĂ©e pour reprĂ©senter les relations n-aires en associant une partie terminologique et/ou linguistique aux ontologies afin d'Ă©tablir une distinction claire entre la manifestation linguistique (le terme) et la notion qu'elle dĂ©note (le concept). La thĂšse a pour objectif de proposer une contribution mĂ©thodologique d'extraction automatique ou semi-automatique d'arguments de relations n-aires provenant de documents textuels afin de peupler la RTO avec de nouvelles instances. Les mĂ©thodologies proposĂ©es exploitent et adaptent conjointement des approches de Traitement automatique de la Langue (TAL) et de fouille de donnĂ©es, le tout s'appuyant sur le support sĂ©mantique apportĂ© par la RTO de domaine. De maniĂšre prĂ©cise, nous cherchons, dans un premier temps, Ă  extraire des termes, dĂ©notant les concepts d'unitĂ©s de mesure, rĂ©putĂ©s difficiles Ă  identifier du fait de leur forte variation typographique dans les textes. AprĂšs la localisation de ces derniers par des mĂ©thodes de classification automatique, les variants d'unitĂ©s sont identifiĂ©s en utilisant des mesures d'Ă©dition originales. La seconde contribution mĂ©thodologique de nos travaux repose sur l'adaptation et la combinaison de mĂ©thodes de fouille de donnĂ©es (extraction de motifs et rĂšgles sĂ©quentiels) et d'analyse syntaxique pour identifier les instances d'arguments de la relation n-aire recherchĂ©e

    TOTh 2011 Proceedings - Terminology & Ontology: Theories and applications

    Get PDF
    International audienceAvant-proposLa Terminologie est un domaine scientifique par nature pluridisciplinaire. Elle puise, entre autres, Ă  la linguistique, la thĂ©orie de la connaissance, la logique. Pour que cette diversitĂ© soit une richesse, il faut lui offrir un cadre appropriĂ© au sein duquel elle puisse s’exprimer et s’épanouir : c’est une des raisons d’ĂȘtre des ConfĂ©rences TOTh. Dans ce contexte, la formation et la transmission des connaissances jouent un rĂŽle essentiel. La Formation TOTh, programmĂ©e sur un jour et demi prĂ©cĂ©dant la confĂ©rence, se dĂ©roule depuis 2011 sur deux annĂ©es consĂ©cutives dĂ©diĂ©es pour l’une Ă  la dimension linguistique et pour l’autre Ă  la dimension conceptuelle de la terminologie, deux dimensions intimement liĂ©es. La Disputatio, introduite Ă  partir de cette annĂ©e, renoue avec une forme d’enseignement et de recherche hĂ©ritĂ©e de la scolastique. Elle vise, Ă  travers une lecture commentĂ©e effectuĂ©e par un membre du comitĂ© scientifique, Ă  donner accĂšs Ă  des textes jugĂ©s fondateurs de notre domaine, trop souvent oubliĂ©s voire ignorĂ©s.La cinquiĂšme Ă©dition des ConfĂ©rences TOTh a Ă©galement Ă©tĂ© l’occasion de mettre en place un Prix « Jeune chercheur ». DĂ©cernĂ© par le comitĂ© scientifique lors de la confĂ©rence, il rĂ©compense le travail soumis Ă  TOTh d’un de nos jeunes collĂšgues. Notre collĂšgue Michele Prandi, professeur Ă  l’UniversitĂ  degli Studi di Genova, a ouvert la ConfĂ©rence TOTh 2011 par un exposĂ© passionnant sur : « Signes, signifiĂ©s, concepts : pour un tournant philosophique en linguistique ». Le ton Ă©tait donnĂ©.Ont suivi douze communications (hors confĂ©rence d’ouverture et disputatio) rĂ©parties sur deux jours en six sessions animĂ©es par diffĂ©rents prĂ©sidents. Elles ont permis d’aborder en profondeur – chaque intervention dure au minimum 45 minutes – de nombreux sujets tant thĂ©oriques que pratiques rappelant qu’il ne peut y avoir de terminologie sans langue de spĂ©cialitĂ© ni savoir spĂ©cialisĂ©.Les douze communications, Ă©quitablement rĂ©parties sur les deux langues officielles de la confĂ©rence et provenant de sept pays diffĂ©rents, confirment l’audience internationale acquise aujourd’hui par TOTh.Avant de vous souhaiter bonne lecture de ces actes, j’aimerais terminer en remerciant tous les participants de TOTh 2011 pour la richesse des dĂ©bats et des moments partagĂ©s. Christophe RochePrĂ©sident du comitĂ© scientifiqu

    Acquisition de liens sémantiques à partir d'éléments de mise en forme des textes: exploitation des structures énumératives

    Get PDF
    The past decade witnessed significant advances in the field of relation extraction from text, facilitating the building of lexical or semantic resources. However, the methods proposed so far (supervised learning, kernel methods, distant supervision, etc.) don't fully exploit the texts: they are usually applied at the sentential level and they don't take into account the layout and the formatting of texts.In such a context, this thesis aims at expanding those methods and makes them layout-aware for extracting relations expressed beyond sentence boundaries. For this purpose, we rely on the semantics conveyed by typographical (bullets, emphasis, etc.) and dispositional (visual indentations, carriage returns, etc.) features. Those features often substitute purely discursive formulations. In particular, the study reported here is dealing with the relations carried by the vertical enumerative structures. Although they display discontinuities between their various components, the enumerative structures can be dealt as a whole at the semantic level. They form textual structures prone to hierarchical relations.This study was divided into two parts. (i) The first part describes a model representing the hierarchical structure of documents. This model is falling within the theoretical framework representing the textual architecture: an abstraction of the layout and the formatting, as well as a strong connection with the rhetorical structure are achieved. However, our model focuses primarily on the efficiency of the analysis process rather than on the expressiveness of the representation. A bottom-up method intended for building automatically this model is presented and evaluated on a corpus of PDF documents.(ii) The second part aims at integrating this model into the process of relation extraction. In particular, we focused on vertical enumerative structures. A multidimensional typology intended for characterizing those structures was established and used into an annotation task. Thanks to corpus-based observations, we proposed a two-step method, by supervised learning, for qualifying the nature of the relation and identifying its arguments. The evaluation of our method showed that exploiting the formatting and the layout of documents, in combination with standard lexico-syntactic features, improves those two tasks.Ces derniĂšres annĂ©es de nombreux progrĂšs ont Ă©tĂ© faits dans le domaine de l'extraction de relations Ă  partir de textes, facilitant ainsi la construction de ressources lexicales ou sĂ©mantiques. Cependant, les mĂ©thodes proposĂ©es (apprentissage supervisĂ©, mĂ©thodes Ă  noyaux, apprentissage distant, etc.) n’exploitent pas tout le potentiel des textes : elles ont gĂ©nĂ©ralement Ă©tĂ© appliquĂ©es Ă  un niveau phrastique, sans tenir compte des Ă©lĂ©ments de mise en forme.Dans ce contexte, l'objectif de cette thĂšse est d'adapter ces mĂ©thodes Ă  l'extraction de relations exprimĂ©es au-delĂ  des frontiĂšres de la phrase. Pour cela, nous nous appuyons sur la sĂ©mantique vĂ©hiculĂ©e par les indices typographiques (puces, emphases, etc.) et dispositionnels (indentations visuelles, retours Ă  la ligne, etc.), qui complĂštent des formulations strictement discursives. En particulier, nous Ă©tudions les structures Ă©numĂ©ratives verticales qui, bien qu'affichant des discontinuitĂ©s entre leurs diffĂ©rents composants, prĂ©sentent un tout sur le plan sĂ©mantique. Ces structures textuelles sont souvent rĂ©vĂ©latrices de relations hiĂ©rarchiques. Notre travail est divisĂ© en deux parties. (i) La premiĂšre partie dĂ©crit un modĂšle pour reprĂ©senter la structure hiĂ©rarchique des documents. Ce modĂšle se positionne dans la suite des modĂšles thĂ©oriques proposĂ©s pour rendre compte de l'architecture textuelle : une abstraction de la mise en forme et une connexion forte avec la structure rhĂ©torique sont faites. Toutefois, notre modĂšle se dĂ©marque par une perspective d'analyse automatique des textes. Nous en proposons une implĂ©mentation efficace sous la forme d'une mĂ©thode ascendante et nous l'Ă©valuons sur un corpus de documents PDF. (ii) La seconde partie porte sur l'intĂ©gration de ce modĂšle dans le processus d'extraction de relations. Plus particuliĂšrement, nous nous sommes focalisĂ©s sur les structures Ă©numĂ©ratives verticales. Un corpus a Ă©tĂ© annotĂ© selon une typologie multi-dimensionnelle permettant de caractĂ©riser et de cibler les structures Ă©numĂ©ratives verticales porteuses de relations utiles Ă  la crĂ©ation de ressources. Les observations faites en corpus ont conduit Ă  procĂ©der en deux Ă©tapes par apprentissage supervisĂ© pour analyser ces structures : qualifier la relation puis en extraire les arguments. L'Ă©valuation de cette mĂ©thode montre que l'exploitation de la mise en forme, combinĂ©e Ă  un faisceau d'indices lexico-syntaxiques, amĂ©liore les rĂ©sultats
    corecore