15 research outputs found
Fouille de données de santé
Dans le domaine de la santĂ©, les techniques dâanalyse de donnĂ©es sont de plus en plus populaires et se rĂ©vĂšlent mĂȘme indispensables pour gĂ©rer les gros volumes de donnĂ©es produits pour un patient et par le patient. Deux thĂ©matiques seront abordĂ©es dans cette prĂ©sentation d'HDR.La premiĂšre porte sur la dĂ©finition, la formalisation, lâimplĂ©mentation et la validation de mĂ©thodes dâanalyse permettant de dĂ©crire le contenu de bases de donnĂ©es mĂ©dicales. Je me suis particuliĂšrement intĂ©ressĂ©e aux donnĂ©es sĂ©quentielles. Jâai fait Ă©voluer la classique notion de motif sĂ©quentiel pour y intĂ©grer des composantes contextuelles, spatiales et sur lâordre partiel des Ă©lĂ©ments composant les motifs. Ces nouvelles informations enrichissent la sĂ©mantique initiale de ces motifs.La seconde thĂ©matique se focalise sur lâanalyse des productions et des interactions des patients au travers des mĂ©dias sociaux. Jâai principalement travaillĂ© sur des mĂ©thodes permettant dâanalyser les productions narratives des patients selon leurs temporalitĂ©s, leurs thĂ©matiques, les sentiments associĂ©s ou encore le rĂŽle et la rĂ©putation du locuteur sâĂ©tant exprimĂ© dans les messages
L'AIS : une donnée pour l'analyse des activités en mer
4 pages, session "Mer et littoral"International audienceCette contribution présente des éléments méthodologiques pour la description des activités humaines en mer dans une perspective d'aide à la gestion. Différentes procédures, combinant l'exploitation de bases de données spatio-temporelles issue de données AIS archivées à des analyses spatiales au sein d'un SIG, sont testées afin de caractériser le transport maritime en Mer d'Iroise (Bretagne, France) sur les plans spatiaux, temporels et quantitatifs au cours d'une année
Formalisation d'un environnement d'aide à l'analyse géovisuelle: Application à la sécurité et sûreté de la maritimisation de l'énergie
The maritime space is still a sensitive area due to many accidents and dangers, such as collisions or pirate attacks. In order to ensure the control of safety and security of this area, it is essential to study near real-time movement information (surveillance) or past events (analysis). Controllers and analysts are then faced to large sets of data, which must be studied with systems using maps and other visualizations. However, these tools are limited in terms of analysis capacities. Using geovisual analytics could be used to improve pattern identification, anomalies detection and knowledge discovery. However, due to the complexity of their use, most methods are still at the stage of research, and are not used yet in the operational word for studying maritime risks.In this context, we propose a geovisual analytics support system to guide users in the visualization and the analysis of maritime risks. Our research methodology is based on the formalization of use cases, of users and of several visualization methods. Ontologies and rules are used to create a knowledge-based system, to select adequate solutions for the visualization and the analysis of shipsâ trajectories. Some examples for analyzing maritime risks are then presented to illustrate the use of such a system.Lâespace maritime est encore aujourdâhui le contexte de nombreux accidents et dangers, comme des collisions ou des attaques pirates. Afin de garantir le contrĂŽle de la sĂ»retĂ© et de la sĂ©curitĂ© de cet espace, il est nĂ©cessaire dâĂ©tudier les donnĂ©es de mouvement en temps rĂ©el (surveillance) et les Ă©vĂšnements passĂ©s (analyse). ContrĂŽleurs et analystes sont alors confrontĂ©s Ă de grandes quantitĂ©s de donnĂ©es, qui doivent ĂȘtre Ă©tudiĂ©es grĂące Ă des systĂšmes utilisant des cartes et autres visualisations. Cependant, ces outils sont limitĂ©s en termes de capacitĂ©s dâanalyse. Lâutilisation de mĂ©thodes dâanalyse gĂ©ovisuelle pourrait alors faciliter la reconnaissance de motifs, la dĂ©tection dâanomalies et la dĂ©couverte de connaissances. Toutefois, en raison de leur complexitĂ© dâutilisation, plusieurs de ces mĂ©thodes nâont pas dĂ©passĂ© le stade acadĂ©mique, et ne sont pas encore utilisĂ©es de maniĂšre opĂ©rationnelle dans lâĂ©tude des risques maritimes.Dans ce contexte, nous proposons un environnement dâaide Ă lâanalyse gĂ©ovisuelle, qui permet de guider lâutilisateur dans la visualisation et lâanalyse dâinformations pour lâĂ©tude des risques maritimes. Notre dĂ©marche de thĂšse se fonde sur la formalisation des cas dâutilisation, des utilisateurs et des mĂ©thodes de visualisation. Le recours Ă des ontologies et des rĂšgles permet de concevoir un systĂšme Ă base de connaissances, afin de proposer des mĂ©thodes adĂ©quates pour la visualisation et lâanalyse des trajectoires de navires. Nous illustrons cette proposition par plusieurs exemples dâanalyse de risques en mer
Conférence Nationale d'Intelligence Artificielle Année 2020
National audienc
Actes des 25es journées francophones d'Ingénierie des Connaissances (IC 2014)
National audienceLes JournĂ©es Francophones d'IngĂ©nierie des Connaissances fĂȘtent cette annĂ©e leurs 25 ans. Cette confĂ©rence est le rendez-vous annuel de la communautĂ© française et francophone qui se retrouve pour Ă©changer et rĂ©flĂ©chir sur des problĂšmes de recherche qui se posent en acquisition, reprĂ©sentation et gestion des connaissances. Parmi les vingt et un articles sĂ©lectionnĂ©s pour publication et prĂ©sentation Ă la confĂ©rence, un thĂšme fondateur de l'ingĂ©nierie des connaissances domine : celui de la modĂ©lisation de domaines. Six articles traitent de la conception d'ontologies, trois articles de l'annotation sĂ©mantique et du peuplement d'ontologies et deux articles de l'exploitation d'ontologies dans des systĂšmes Ă base de connaissances. L'informatique mĂ©dicale est le domaine d'application privilĂ©giĂ© des travaux prĂ©sentĂ©s, que l'on retrouve dans sept articles. L'ingĂ©nierie des connaissances accompagne l'essor des technologies du web sĂ©mantique, en inventant les modĂšles, mĂ©thodes et outils permettant l'intĂ©gration de connaissances et le raisonnement dans des systĂšmes Ă base de connaissances sur le web. Ainsi, on retrouve les thĂšmes de la reprĂ©sentation des connaissances et du raisonnement dans six articles abordant les problĂ©matiques du web de donnĂ©es : le liage des donnĂ©es, leur transformation et leur interrogation ; la reprĂ©sentation et la rĂ©utilisation de rĂšgles sur le web de donnĂ©es ; la programmation d'applications exploitant le web de donnĂ©es. L'essor des sciences et technologies de l'information et de la communication, et notamment des technologies du web, dans l'ensemble de la sociĂ©tĂ© engendre des mutations dans les pratiques individuelles et collectives. L'ingĂ©nierie des connaissances accompagne cette Ă©volution en plaçant l'utilisateur au cĆur des systĂšmes informatiques, pour l'assister dans le traitement de la masse de donnĂ©es disponibles. Quatre articles sont dĂ©diĂ©s aux problĂ©matiques du web social : analyse de rĂ©seaux sociaux, dĂ©tection de communautĂ©s, folksonomies, personnalisation de recommandations, reprĂ©sentation et prise en compte de points de vue dans la recherche d'information. Deux articles traitent de l'adaptation des systĂšmes aux utilisateurs et de l'assistance aux utilisateurs et deux autres de l'aide Ă la prise de dĂ©cision. Le taux de sĂ©lection de cette Ă©dition de la confĂ©rence est de 50%, avec dix-neuf articles longs et deux articles courts acceptĂ©s parmi quarante-deux soumissions. S'y ajoutent une sĂ©lection de neuf posters et dĂ©monstrations parmi douze soumissions, prĂ©sentĂ©s dans une session dĂ©diĂ©e et inclus dans les actes. Enfin, une innovation de cette Ă©dition 2014 de la confĂ©rence est la programmation d'une session spĂ©ciale " Projets et Industrie ", animĂ©e par FrĂ©dĂ©rique Segond (Viseo), Ă laquelle participeront Laurent Pierre (EDF), Alain Berger (Ardans) et MylĂšne Leitzelman (Mnemotix). Trois confĂ©renciĂšres invitĂ©es ouvriront chacune des journĂ©es de la confĂ©rence que je remercie chaleureusement de leur participation. Nathalie Aussenac-Gilles (IRIT) retracera l'Ă©volution de l'ingĂ©nierie des connaissances en France depuis 25 ans, de la pĂ©nurie Ă la surabondance. A sa suite, FrĂ©dĂ©rique Segond (Viseo) abordera le problĂšme de " l'assouvissement " de la faim de connaissances dans la nouvelle Ăšre des connaissances dans laquelle nous sommes entrĂ©s. Enfin, Marie-Laure Mugnier (LIRMM) prĂ©sentera un nouveau cadre pour l'interrogation de donnĂ©es basĂ©e sur une ontologie, fondĂ© sur des rĂšgles existentielles
Sur les traces du futur : entre comprendre et predire
Empirical modelling, which relies on data, also referred to as traces, is an approach for modelling phenomena,systems or objects. It has the characteristics of modeling the ârealityâ of these phenomena.The researches I have conducted are dedicated to both descriptive and predictive modelling. They focusedon robustness, complexity and quality of the models, but also on the identification of triggering orexplanatory factors in data.My contributions have been applied and validated in the frame of e-commerce and, more recently, one-education through the use of traces of behavior, of preferences, etc.My future research goes a step further and will focus on prescriptive modelling : what can be done toreach a given objective ? Some considerations related to algorithms that can explain themselves and thatare transparent (explainable AI), as well as the management of multiple sources of data will be studied.La modĂ©lisation empirique, reposant sur des donnĂ©es de rĂ©alisation ou de traces, est une approche demodĂ©lisation de phĂ©nomĂšnes, systĂšmes ou objets, et a la caractĂ©ristique de sâintĂ©resser Ă la ârĂ©alitĂ©â de cesderniers. Les travaux de recherche que je mĂšne sâintĂ©ressent Ă la modĂ©lisation descriptive et prĂ©dictive. Jeme suis intĂ©ressĂ©e Ă des problĂ©matiques gĂ©nĂ©rales telles que la robustesse, la complexitĂ©, et la qualitĂ© desmodĂšles, tout en me focalisant sur des dĂ©fis plus spĂ©cifiques tels que le dĂ©marrage Ă froid et le manquegĂ©nĂ©ral de donnĂ©es, mais aussi lâidentification de facteurs influents ou explicatifs au sein des donnĂ©es.Mes contributions ont Ă©tĂ© appliquĂ©es et validĂ©es principalement sur en contexte e-commerce et plusrĂ©cemment en Ă©ducation : traces de comportement, de prĂ©fĂ©rences, etc.Mes recherches futures iront un pas plus loin dans la modĂ©lisation, et auront pour objectif la modĂ©lisationprescriptive : que faire pour arriver Ă un but fixĂ© ? Des aspects relatifs Ă la transparence et Ă lâexplicabilitĂ© des algorithmes, de mĂȘme quâĂ la gestion de sources de donnĂ©es multiples seront au coeurde ces travaux
Extraction d'arguments de relations n-aires dans les textes guidée par une RTO de domaine
Today, a huge amount of data is made available to the research community through several web-based libraries. Enhancing data collected from scientific documents is a major challenge in order to analyze and reuse efficiently domain knowledge. To be enhanced, data need to be extracted from documents and structured in a common representation using a controlled vocabulary as in ontologies. Our research deals with knowledge engineering issues of experimental data, extracted from scientific articles, in order to reuse them in decision support systems. Experimental data can be represented by n-ary relations which link a studied object (e.g. food packaging, transformation process) with its features (e.g. oxygen permeability in packaging, biomass grinding) and capitalized in an Ontological and Terminological Ressource (OTR). An OTR associates an ontology with a terminological and/or a linguistic part in order to establish a clear distinction between the term and the notion it denotes (the concept). Our work focuses on n-ary relation extraction from scientific documents in order to populate a domain OTR with new instances. Our contributions are based on Natural Language Processing (NLP) together with data mining approaches guided by the domain OTR. More precisely, firstly, we propose to focus on unit of measure extraction which are known to be difficult to identify because of their typographic variations. We propose to rely on automatic classification of texts, using supervised learning methods, to reduce the search space of variants of units, and then, we propose a new similarity measure that identifies them, taking into account their syntactic properties. Secondly, we propose to adapt and combine data mining methods (sequential patterns and rules mining) and syntactic analysis in order to overcome the challenging process of identifying and extracting n-ary relation instances drowned in unstructured texts.Aujourd'hui, la communautĂ© scientifique a l'opportunitĂ© de partager des connaissances et d'accĂ©der Ă de nouvelles informations Ă travers les documents publiĂ©s et stockĂ©s dans les bases en ligne du web. Dans ce contexte, la valorisation des donnĂ©es disponibles reste un dĂ©fi majeur pour permettre aux experts de les rĂ©utiliser et les analyser afin de produire de la connaissance du domaine. Pour ĂȘtre valorisĂ©es, les donnĂ©es pertinentes doivent ĂȘtre extraites des documents puis structurĂ©es. Nos travaux s'inscrivent dans la problĂ©matique de la capitalisation des donnĂ©es expĂ©rimentales issues des articles scientifiques, sĂ©lectionnĂ©s dans des bases en ligne, afin de les rĂ©utiliser dans des outils d'aide Ă la dĂ©cision. Les mesures expĂ©rimentales (par exemple, la permĂ©abilitĂ© Ă l'oxygĂšne d'un emballage ou le broyage d'une biomasse) rĂ©alisĂ©es sur diffĂ©rents objets d'Ă©tudes (par exemple, emballage ou procĂ©dĂ© de bioraffinerie) sont reprĂ©sentĂ©es sous forme de relations n-aires dans une Ressource Termino-Ontologique (RTO). La RTO est modĂ©lisĂ©e pour reprĂ©senter les relations n-aires en associant une partie terminologique et/ou linguistique aux ontologies afin d'Ă©tablir une distinction claire entre la manifestation linguistique (le terme) et la notion qu'elle dĂ©note (le concept). La thĂšse a pour objectif de proposer une contribution mĂ©thodologique d'extraction automatique ou semi-automatique d'arguments de relations n-aires provenant de documents textuels afin de peupler la RTO avec de nouvelles instances. Les mĂ©thodologies proposĂ©es exploitent et adaptent conjointement des approches de Traitement automatique de la Langue (TAL) et de fouille de donnĂ©es, le tout s'appuyant sur le support sĂ©mantique apportĂ© par la RTO de domaine. De maniĂšre prĂ©cise, nous cherchons, dans un premier temps, Ă extraire des termes, dĂ©notant les concepts d'unitĂ©s de mesure, rĂ©putĂ©s difficiles Ă identifier du fait de leur forte variation typographique dans les textes. AprĂšs la localisation de ces derniers par des mĂ©thodes de classification automatique, les variants d'unitĂ©s sont identifiĂ©s en utilisant des mesures d'Ă©dition originales. La seconde contribution mĂ©thodologique de nos travaux repose sur l'adaptation et la combinaison de mĂ©thodes de fouille de donnĂ©es (extraction de motifs et rĂšgles sĂ©quentiels) et d'analyse syntaxique pour identifier les instances d'arguments de la relation n-aire recherchĂ©e
TOTh 2011 Proceedings - Terminology & Ontology: Theories and applications
International audienceAvant-proposLa Terminologie est un domaine scientifique par nature pluridisciplinaire. Elle puise, entre autres, Ă la linguistique, la thĂ©orie de la connaissance, la logique. Pour que cette diversitĂ© soit une richesse, il faut lui offrir un cadre appropriĂ© au sein duquel elle puisse sâexprimer et sâĂ©panouir : câest une des raisons dâĂȘtre des ConfĂ©rences TOTh. Dans ce contexte, la formation et la transmission des connaissances jouent un rĂŽle essentiel. La Formation TOTh, programmĂ©e sur un jour et demi prĂ©cĂ©dant la confĂ©rence, se dĂ©roule depuis 2011 sur deux annĂ©es consĂ©cutives dĂ©diĂ©es pour lâune Ă la dimension linguistique et pour lâautre Ă la dimension conceptuelle de la terminologie, deux dimensions intimement liĂ©es. La Disputatio, introduite Ă partir de cette annĂ©e, renoue avec une forme dâenseignement et de recherche hĂ©ritĂ©e de la scolastique. Elle vise, Ă travers une lecture commentĂ©e effectuĂ©e par un membre du comitĂ© scientifique, Ă donner accĂšs Ă des textes jugĂ©s fondateurs de notre domaine, trop souvent oubliĂ©s voire ignorĂ©s.La cinquiĂšme Ă©dition des ConfĂ©rences TOTh a Ă©galement Ă©tĂ© lâoccasion de mettre en place un Prix « Jeune chercheur ». DĂ©cernĂ© par le comitĂ© scientifique lors de la confĂ©rence, il rĂ©compense le travail soumis Ă TOTh dâun de nos jeunes collĂšgues. Notre collĂšgue Michele Prandi, professeur Ă lâUniversitĂ degli Studi di Genova, a ouvert la ConfĂ©rence TOTh 2011 par un exposĂ© passionnant sur : « Signes, signifiĂ©s, concepts : pour un tournant philosophique en linguistique ». Le ton Ă©tait donnĂ©.Ont suivi douze communications (hors confĂ©rence dâouverture et disputatio) rĂ©parties sur deux jours en six sessions animĂ©es par diffĂ©rents prĂ©sidents. Elles ont permis dâaborder en profondeur â chaque intervention dure au minimum 45 minutes â de nombreux sujets tant thĂ©oriques que pratiques rappelant quâil ne peut y avoir de terminologie sans langue de spĂ©cialitĂ© ni savoir spĂ©cialisĂ©.Les douze communications, Ă©quitablement rĂ©parties sur les deux langues officielles de la confĂ©rence et provenant de sept pays diffĂ©rents, confirment lâaudience internationale acquise aujourdâhui par TOTh.Avant de vous souhaiter bonne lecture de ces actes, jâaimerais terminer en remerciant tous les participants de TOTh 2011 pour la richesse des dĂ©bats et des moments partagĂ©s. Christophe RochePrĂ©sident du comitĂ© scientifiqu
Acquisition de liens sémantiques à partir d'éléments de mise en forme des textes: exploitation des structures énumératives
The past decade witnessed significant advances in the field of relation extraction from text, facilitating the building of lexical or semantic resources. However, the methods proposed so far (supervised learning, kernel methods, distant supervision, etc.) don't fully exploit the texts: they are usually applied at the sentential level and they don't take into account the layout and the formatting of texts.In such a context, this thesis aims at expanding those methods and makes them layout-aware for extracting relations expressed beyond sentence boundaries. For this purpose, we rely on the semantics conveyed by typographical (bullets, emphasis, etc.) and dispositional (visual indentations, carriage returns, etc.) features. Those features often substitute purely discursive formulations. In particular, the study reported here is dealing with the relations carried by the vertical enumerative structures. Although they display discontinuities between their various components, the enumerative structures can be dealt as a whole at the semantic level. They form textual structures prone to hierarchical relations.This study was divided into two parts. (i) The first part describes a model representing the hierarchical structure of documents. This model is falling within the theoretical framework representing the textual architecture: an abstraction of the layout and the formatting, as well as a strong connection with the rhetorical structure are achieved. However, our model focuses primarily on the efficiency of the analysis process rather than on the expressiveness of the representation. A bottom-up method intended for building automatically this model is presented and evaluated on a corpus of PDF documents.(ii) The second part aims at integrating this model into the process of relation extraction. In particular, we focused on vertical enumerative structures. A multidimensional typology intended for characterizing those structures was established and used into an annotation task. Thanks to corpus-based observations, we proposed a two-step method, by supervised learning, for qualifying the nature of the relation and identifying its arguments. The evaluation of our method showed that exploiting the formatting and the layout of documents, in combination with standard lexico-syntactic features, improves those two tasks.Ces derniĂšres annĂ©es de nombreux progrĂšs ont Ă©tĂ© faits dans le domaine de l'extraction de relations Ă partir de textes, facilitant ainsi la construction de ressources lexicales ou sĂ©mantiques. Cependant, les mĂ©thodes proposĂ©es (apprentissage supervisĂ©, mĂ©thodes Ă noyaux, apprentissage distant, etc.) nâexploitent pas tout le potentiel des textes : elles ont gĂ©nĂ©ralement Ă©tĂ© appliquĂ©es Ă un niveau phrastique, sans tenir compte des Ă©lĂ©ments de mise en forme.Dans ce contexte, l'objectif de cette thĂšse est d'adapter ces mĂ©thodes Ă l'extraction de relations exprimĂ©es au-delĂ des frontiĂšres de la phrase. Pour cela, nous nous appuyons sur la sĂ©mantique vĂ©hiculĂ©e par les indices typographiques (puces, emphases, etc.) et dispositionnels (indentations visuelles, retours Ă la ligne, etc.), qui complĂštent des formulations strictement discursives. En particulier, nous Ă©tudions les structures Ă©numĂ©ratives verticales qui, bien qu'affichant des discontinuitĂ©s entre leurs diffĂ©rents composants, prĂ©sentent un tout sur le plan sĂ©mantique. Ces structures textuelles sont souvent rĂ©vĂ©latrices de relations hiĂ©rarchiques. Notre travail est divisĂ© en deux parties. (i) La premiĂšre partie dĂ©crit un modĂšle pour reprĂ©senter la structure hiĂ©rarchique des documents. Ce modĂšle se positionne dans la suite des modĂšles thĂ©oriques proposĂ©s pour rendre compte de l'architecture textuelle : une abstraction de la mise en forme et une connexion forte avec la structure rhĂ©torique sont faites. Toutefois, notre modĂšle se dĂ©marque par une perspective d'analyse automatique des textes. Nous en proposons une implĂ©mentation efficace sous la forme d'une mĂ©thode ascendante et nous l'Ă©valuons sur un corpus de documents PDF. (ii) La seconde partie porte sur l'intĂ©gration de ce modĂšle dans le processus d'extraction de relations. Plus particuliĂšrement, nous nous sommes focalisĂ©s sur les structures Ă©numĂ©ratives verticales. Un corpus a Ă©tĂ© annotĂ© selon une typologie multi-dimensionnelle permettant de caractĂ©riser et de cibler les structures Ă©numĂ©ratives verticales porteuses de relations utiles Ă la crĂ©ation de ressources. Les observations faites en corpus ont conduit Ă procĂ©der en deux Ă©tapes par apprentissage supervisĂ© pour analyser ces structures : qualifier la relation puis en extraire les arguments. L'Ă©valuation de cette mĂ©thode montre que l'exploitation de la mise en forme, combinĂ©e Ă un faisceau d'indices lexico-syntaxiques, amĂ©liore les rĂ©sultats