10 research outputs found

    Intégration et analyse de données hétérogènes massives pour une observation intelligente du territoire

    No full text
    The advent of new communication and information technologies (NICT) accelerates the growth of data produced by services that smart cities offer to their population in various fields. Among these data, we can notice: textual data (available on the Web), satellite images (surveillance data), data from sensors, etc. These data are essentially derived from the services offered by the cities to meet the daily needs of the inhabitants such as mobility, communication, health, as well as services for the management of various resources such as water, agricultural and urban operations, energy, etc. This significant growth of data is challenging the completeness and efficiency of the methods and techniques traditionally used in data mining for knowledge discovery. The difficulties encountered are mainly related to the volume of the data, but also to their complexity such as the high heterogeneity. Our research topic is part of the EcoCity initiative of the Montpellier Mediterranean Metropolis (3M), and aims to develop an intelligent observation approach of the territory from the massive data available.In this thesis, we are interested in the mutual enrichment between highly heterogeneous data for the monitoring of territories. We limit our study to three themes which are urbanization, agriculture and hydrology on the territory of the metropolis of Montpellier. To do this, we decline in this study, a chain of treatment which gathers approaches allowing: 1) to collect time series of textual data for the constitution of thematic corpora with a spatial anchoring and to analyze them, 2) to store these massive and heterogeneous data in order to make them accessible and analyzable by all, without deteriorating them, 3) to extract indicators allowing to put in relation the data of the different thematics, as well on the spatial, temporal and thematic level, and 4) to extract knowledge from these data, in order to show the impact of these thematics on the evolution of the territory in a global way. From these different approaches, we highlight the importance of linking data that have been managed in silo until now, by bringing out knowledge that can be used as a decision support system.The set of methodological approaches that we propose in this study constitutes a complete processing chain, from the collection of heterogeneous data to their linking and analysis for the extraction of knowledge for the description of territorial events on the spatio-temporal level.L’avènement des nouvelles technologies de la communication et de l’information (NTIC) accélère la croissance des données produites par les services qu’offrent les grandes villes à leur population dans divers domaines. Parmi ces données, nous pouvons citer : les données textuelles (disponibles sur le Web), les images satellites (données de surveillance), les données issues de capteurs, etc. Ces données sont essentiellement issues des services proposés pour répondre aux besoins quotidiens des habitants comme la mobilité, la communication, la santé, ainsi que les services de gestion des différentes ressources comme l’eau, les exploitations agricoles et urbaines, l’énergie, etc. Cette forte croissance remet en question la complétude et l'efficacité des méthodes et techniques classiquement utilisées en fouille de données. Les difficultés rencontrées sont principalement liées à la volumétrie des données, mais aussi à leur complexité telle que la forte hétérogénéité. Notre sujet de recherche s’inscrit dans le cadre de la démarche ÉcoCité de la Métropole de Montpellier Méditerranée (3M), et vise à développer une démarche d’observation intelligente du territoire à partir des masses de données dont-elle dispose.Dans cette thèse, nous nous intéressons à l'enrichissement mutuelle entre des données fortement hétérogènes pour le suivi des territoires. Nous limitons notre étude à trois thématiques qui sont, l’urbanisation, l’agriculture et l’hydrologie sur le territoire de la métropole de Montpellier. Pour ce faire, nous déclinons dans cette étude, une chaîne de traitement qui regroupe des approches permettant : 1) de collecter des séries temporelles de données textuelles pour la constitution de corpus thématiques avec un ancrage sur le plan spatial et de les analyser, 2) de stocker ces données massives et hétérogènes afin de les rendre accessibles et analysables par tous, sans pour autant les détériorer, 3) d’extraire des indicateurs permettant de mettre en relation les données des différentes thématiques, tant sur le plan spatial, temporel que thématique, et 4) d’extraire des connaissances à partir de ces données, afin de montrer l’impact de ces thématiques sur l’évolution du territoire de façon globale. À partir de ces différentes approches, nous mettons en évidence l'importance de la mise en relation de données gérées jusqu'ici en silo, en faisant ressortir des connaissances pouvant servir de système d’aide à la décision.L'ensemble des approches méthodologiques que nous proposons dans cette étude, constitue une chaîne de traitement complète, allant de la collecte des données hétérogènes à leur mise en relation et analyse pour l'extraction des connaissances pour la description d’événements territoriaux sur le plan spatio-temporel

    Intégration et analyse de données hétérogènes massives pour une observation intelligente du territoire

    No full text
    The advent of new communication and information technologies (NICT) accelerates the growth of data produced by services that smart cities offer to their population in various fields. Among these data, we can notice: textual data (available on the Web), satellite images (surveillance data), data from sensors, etc. These data are essentially derived from the services offered by the cities to meet the daily needs of the inhabitants such as mobility, communication, health, as well as services for the management of various resources such as water, agricultural and urban operations, energy, etc. This significant growth of data is challenging the completeness and efficiency of the methods and techniques traditionally used in data mining for knowledge discovery. The difficulties encountered are mainly related to the volume of the data, but also to their complexity such as the high heterogeneity. Our research topic is part of the EcoCity initiative of the Montpellier Mediterranean Metropolis (3M), and aims to develop an intelligent observation approach of the territory from the massive data available.In this thesis, we are interested in the mutual enrichment between highly heterogeneous data for the monitoring of territories. We limit our study to three themes which are urbanization, agriculture and hydrology on the territory of the metropolis of Montpellier. To do this, we decline in this study, a chain of treatment which gathers approaches allowing: 1) to collect time series of textual data for the constitution of thematic corpora with a spatial anchoring and to analyze them, 2) to store these massive and heterogeneous data in order to make them accessible and analyzable by all, without deteriorating them, 3) to extract indicators allowing to put in relation the data of the different thematics, as well on the spatial, temporal and thematic level, and 4) to extract knowledge from these data, in order to show the impact of these thematics on the evolution of the territory in a global way. From these different approaches, we highlight the importance of linking data that have been managed in silo until now, by bringing out knowledge that can be used as a decision support system.The set of methodological approaches that we propose in this study constitutes a complete processing chain, from the collection of heterogeneous data to their linking and analysis for the extraction of knowledge for the description of territorial events on the spatio-temporal level.L’avènement des nouvelles technologies de la communication et de l’information (NTIC) accélère la croissance des données produites par les services qu’offrent les grandes villes à leur population dans divers domaines. Parmi ces données, nous pouvons citer : les données textuelles (disponibles sur le Web), les images satellites (données de surveillance), les données issues de capteurs, etc. Ces données sont essentiellement issues des services proposés pour répondre aux besoins quotidiens des habitants comme la mobilité, la communication, la santé, ainsi que les services de gestion des différentes ressources comme l’eau, les exploitations agricoles et urbaines, l’énergie, etc. Cette forte croissance remet en question la complétude et l'efficacité des méthodes et techniques classiquement utilisées en fouille de données. Les difficultés rencontrées sont principalement liées à la volumétrie des données, mais aussi à leur complexité telle que la forte hétérogénéité. Notre sujet de recherche s’inscrit dans le cadre de la démarche ÉcoCité de la Métropole de Montpellier Méditerranée (3M), et vise à développer une démarche d’observation intelligente du territoire à partir des masses de données dont-elle dispose.Dans cette thèse, nous nous intéressons à l'enrichissement mutuelle entre des données fortement hétérogènes pour le suivi des territoires. Nous limitons notre étude à trois thématiques qui sont, l’urbanisation, l’agriculture et l’hydrologie sur le territoire de la métropole de Montpellier. Pour ce faire, nous déclinons dans cette étude, une chaîne de traitement qui regroupe des approches permettant : 1) de collecter des séries temporelles de données textuelles pour la constitution de corpus thématiques avec un ancrage sur le plan spatial et de les analyser, 2) de stocker ces données massives et hétérogènes afin de les rendre accessibles et analysables par tous, sans pour autant les détériorer, 3) d’extraire des indicateurs permettant de mettre en relation les données des différentes thématiques, tant sur le plan spatial, temporel que thématique, et 4) d’extraire des connaissances à partir de ces données, afin de montrer l’impact de ces thématiques sur l’évolution du territoire de façon globale. À partir de ces différentes approches, nous mettons en évidence l'importance de la mise en relation de données gérées jusqu'ici en silo, en faisant ressortir des connaissances pouvant servir de système d’aide à la décision.L'ensemble des approches méthodologiques que nous proposons dans cette étude, constitue une chaîne de traitement complète, allant de la collecte des données hétérogènes à leur mise en relation et analyse pour l'extraction des connaissances pour la description d’événements territoriaux sur le plan spatio-temporel

    Integration and analysis of massive and heterogeneous data for an intelligent observation/monitoring of the territory

    No full text
    L’avènement des nouvelles technologies de la communication et de l’information (NTIC) accélère la croissance des données produites par les services qu’offrent les grandes villes à leur population dans divers domaines. Parmi ces données, nous pouvons citer : les données textuelles (disponibles sur le Web), les images satellites (données de surveillance), les données issues de capteurs, etc. Ces données sont essentiellement issues des services proposés pour répondre aux besoins quotidiens des habitants comme la mobilité, la communication, la santé, ainsi que les services de gestion des différentes ressources comme l’eau, les exploitations agricoles et urbaines, l’énergie, etc. Cette forte croissance remet en question la complétude et l'efficacité des méthodes et techniques classiquement utilisées en fouille de données. Les difficultés rencontrées sont principalement liées à la volumétrie des données, mais aussi à leur complexité telle que la forte hétérogénéité. Notre sujet de recherche s’inscrit dans le cadre de la démarche ÉcoCité de la Métropole de Montpellier Méditerranée (3M), et vise à développer une démarche d’observation intelligente du territoire à partir des masses de données dont-elle dispose.Dans cette thèse, nous nous intéressons à l'enrichissement mutuelle entre des données fortement hétérogènes pour le suivi des territoires. Nous limitons notre étude à trois thématiques qui sont, l’urbanisation, l’agriculture et l’hydrologie sur le territoire de la métropole de Montpellier. Pour ce faire, nous déclinons dans cette étude, une chaîne de traitement qui regroupe des approches permettant : 1) de collecter des séries temporelles de données textuelles pour la constitution de corpus thématiques avec un ancrage sur le plan spatial et de les analyser, 2) de stocker ces données massives et hétérogènes afin de les rendre accessibles et analysables par tous, sans pour autant les détériorer, 3) d’extraire des indicateurs permettant de mettre en relation les données des différentes thématiques, tant sur le plan spatial, temporel que thématique, et 4) d’extraire des connaissances à partir de ces données, afin de montrer l’impact de ces thématiques sur l’évolution du territoire de façon globale. À partir de ces différentes approches, nous mettons en évidence l'importance de la mise en relation de données gérées jusqu'ici en silo, en faisant ressortir des connaissances pouvant servir de système d’aide à la décision.L'ensemble des approches méthodologiques que nous proposons dans cette étude, constitue une chaîne de traitement complète, allant de la collecte des données hétérogènes à leur mise en relation et analyse pour l'extraction des connaissances pour la description d’événements territoriaux sur le plan spatio-temporel.The advent of new communication and information technologies (NICT) accelerates the growth of data produced by services that smart cities offer to their population in various fields. Among these data, we can notice: textual data (available on the Web), satellite images (surveillance data), data from sensors, etc. These data are essentially derived from the services offered by the cities to meet the daily needs of the inhabitants such as mobility, communication, health, as well as services for the management of various resources such as water, agricultural and urban operations, energy, etc. This significant growth of data is challenging the completeness and efficiency of the methods and techniques traditionally used in data mining for knowledge discovery. The difficulties encountered are mainly related to the volume of the data, but also to their complexity such as the high heterogeneity. Our research topic is part of the EcoCity initiative of the Montpellier Mediterranean Metropolis (3M), and aims to develop an intelligent observation approach of the territory from the massive data available.In this thesis, we are interested in the mutual enrichment between highly heterogeneous data for the monitoring of territories. We limit our study to three themes which are urbanization, agriculture and hydrology on the territory of the metropolis of Montpellier. To do this, we decline in this study, a chain of treatment which gathers approaches allowing: 1) to collect time series of textual data for the constitution of thematic corpora with a spatial anchoring and to analyze them, 2) to store these massive and heterogeneous data in order to make them accessible and analyzable by all, without deteriorating them, 3) to extract indicators allowing to put in relation the data of the different thematics, as well on the spatial, temporal and thematic level, and 4) to extract knowledge from these data, in order to show the impact of these thematics on the evolution of the territory in a global way. From these different approaches, we highlight the importance of linking data that have been managed in silo until now, by bringing out knowledge that can be used as a decision support system.The set of methodological approaches that we propose in this study constitutes a complete processing chain, from the collection of heterogeneous data to their linking and analysis for the extraction of knowledge for the description of territorial events on the spatio-temporal level

    SNEToolkit: Spatial named entities disambiguation toolkit

    No full text
    International audience‘‘Can you tell me where San Jose is located?’’ ‘‘Uh! Do you know that there are more than 1700 locations named San Jose in the world?’’ The official name of a location is often not the name with which we are familiar. Spatial named entity (SNE) disambiguation is the process of identifying and assigning precise coordinates to a place name that can be identified in a text. This task is not always straightforward, especially when the place name in question is ambiguous for various reasons. In this context, we are interested in the disambiguation of spatial named entities that can be identified in a textual document on a country level. The solution that we propose is based on a set of techniques that allow us to disambiguate the spatial entity considering the context in which it is mentioned from a certain number of characteristics that are specific to it. The solution uses as input a textual document and extricates the named entities identified therein while associating them with the correct coordinates. SNE disambiguation is designed to support the process of fast exploration of spatiotemporal data analysis, most often for event tracking. The proposed approach was tested on 1360 SNEs extracted from the GeoVirus dataset. The results show that SNEToolkit outperformed the baseline, the standard Geonames geocoder, with a recall value of 0.911 against a recall value of 0.871 for the baseline. A flexible Python package is provided for end users

    H-TFIDF: What makes areas specific over time in the massive flow of tweets related to the covid pandemic?

    Get PDF
    International audienceData produced by social networks may contain weak signals of possible epidemic outbreaks. In this paper, we focus on Twitter data during the waiting period before the appearance of COVID-19 first cases outside China. Among the huge flow of tweets that reflects a global growing concern in all countries, we propose to analyze such data with an adaptation of the TF-IDF measure. It allows the users to extract the discriminant vocabularies used across time and space. The results are then discussed to show how the specific spatio-temporal anchoring of the extracted terms make it possible to follow the crisis dynamics on different scales of time and space

    Modélisation de la dynamique des territoires : méta-données et lacs de données dédiés à l'information spatiale

    No full text
    International audienceData lake management requires an efficient metadata management system. Some works have already addressed this aspect in order to describe the datasets recorded and ensure their proper use. However, little work has been done on data lake dedicated to spatial information. However, geographical dimension is fundamental when we wish to explore the different trajectories of development projects within a territory. In this article, we are particularly interested in the implementation of a data lake for Montpellier metropolis. The proposed conceptual solution is based on the ISO 19115 standard to describe extended spatial metadata within the context of data lakes. The implementation based on HDFS and GeoNetwork is presented and discussed.La gestion efficace d'un lac de données nécessite un système de gestion de méta-données performant. De nombreux travaux se sont penchés sur cet aspect en proposant des solutions. Néanmoins, peu de travaux se sont intéressés aux lacs de données dédiés aux informations spatiales. Pourtant, cette dimension géographique est fondamentale dès lors que l'on souhaite explorer les différentes trajectoires de projets d'aménagement au sein d'un même territoire. Dans cet article, nous nous intéressons tout particulièrement à la mise en oeuvre d'un lac de données pour la métropole de Montpellier. La solution conceptuelle proposée s'adosse à la norme ISO 19115 pour décrire des méta-données spatiales qui est étendue dans le cadre des lacs de données. L'implémentation basée sur HDFS et GeoNetwork est présentée et discutée. Le code source est également mis à disposition de la communauté

    Spatial Data Lake for Smart Cities: From Design to Implementation

    No full text
    International audienceIn this paper, we propose a methodology for designing data lake dedicated to Spatial Data and an implementation of this specific framework. Inspired from previous proposals on general data lake Design and based on the Geographic information-Metadata normalization (ISO 19115), the contribution presented in this paper integrates, with the same philosophy, the spatial and thematic dimensions of heterogeneous data (remote sensing images, textual documents and sensor data, etc). To support our proposal, the process has been implemented in a real data project in collaboration with Montpellier Métropole Méditerranée (3M), a metropolis in the South of France. This framework offers a uniform management of the spatial and thematic information embedded in the elements of the data lake

    ITEXT-BIO: Intelligent Term EXTraction for BIOmedical Analysis

    Get PDF
    International audienceHere, we introduce ITEXT-BIO, an intelligent process for biomedical domain terminology extraction from textual documents and subsequent analysis. The proposed methodology consists of two complementary approaches, including free and driven term extraction. The first is based on term extraction with statistical measures, while the second considers morphosyntactic variation rules to extract term variants from the corpus. The combination of two term extraction and analysis strategies is the keystone of ITEXT-BIO. These include combined intra-corpus strategies that enable term extraction and analysis either from a single corpus (intra), or from corpora (inter). We assessed the two approaches, the corpus or corpora to be analysed and the type of statistical measures used. Our experimental findings revealed that the proposed methodology could be used: (1) to efficiently extract representative, discriminant and new terms from a given corpus or corpora, and (2) to provide quantitative and qualitative analyses on these terms regarding the study domain

    An annotated dataset for event-based surveillance of antimicrobial resistance

    No full text
    International audienceThis paper presents an annotated dataset used in the MOOD Antimicrobial Resistance (AMR) hackathon, hosted in Montpellier, June 2022. The collected data concerns unstructured data from news items, scientific publications and national or international reports, collected from four eventbased surveillance (EBS) Systems, i.e. ProMED, PADI-web, HealthMap and MedISys. Data was annotated by relevance for epidemic intelligence (EI) purposes with the help of AMR experts and an annotation guideline. Extracted data were intended to include relevant events on the emergence and spread of AMR such as reports on AMR trends, discovery of new drug-bug resistances, or new AMR genes in human, animal or environmental reservoirs. This dataset can be used to train or evaluate classification approaches to automatically identify written text on AMR events across the different reservoirs and sectors of One Health (i.e. human, animal
    corecore