78 research outputs found

    Fouille visuelle de données temporelles avec DataTube2

    Get PDF
    International audienceNous nous intĂ©ressons dans cet article Ă  la fouille visuelle de donnĂ©es temporelles, oĂč les donnĂ©es ont Ă©tĂ© mises sous la forme de n attributs dont les valeurs sont enregistrĂ©es pendant k instants. AprĂšs un Ă©tat de l'art sur les diffĂ©rentes approches de visualisation de telles sĂ©ries, nous prĂ©sentons plus particuliĂšrement une approche ayant reçue encore peu d'attention ("DataTube"). DataTube place les donnĂ©es dans un tube dont l'axe reprĂ©sente le temps. Nous Ă©tendons ensuite cette approche : tout d'abord nous dĂ©finissons plusieurs modes de visualisations (couleurs, formes, etc) et nous ajoutons un axe temporel. Ensuite nous introduisons des interactions avec la possibilitĂ© de sĂ©lectionner des attributs et des instants, afficher des donnĂ©es complexes ou encore insĂ©rer des annotations sur la visualisation. Nous ajoutons une Ă©tape de classification non supervisĂ©e afin de regrouper dans la visualisation les attributs similaires. Enfin nous intĂ©grons cette visualisation dans notre plateforme de fouille de donnĂ©es en rĂ©alitĂ© virtuelle VRMiner, avec un affichage stĂ©rĂ©oscopique et des possibilitĂ©s de navigation interactive. Nous appliquons cette visualisation sur plusieurs ensembles de donnĂ©es rĂ©elles et nous montrons qu'elle peut gĂ©rer jusqu'Ă  1,5 million de valeurs. Nous prĂ©sentons Ă©galement une Ă©valuation utilisateur

    Extraction automatique et visualisation des thÚmes abordés dans des résumés de mémoires et de thÚses en anthropologie au Québec, de 1985 à 2009

    Full text link
    S’insĂ©rant dans les domaines de la Lecture et de l’Analyse de Textes AssistĂ©es par Ordinateur (LATAO), de la Gestion Électronique des Documents (GÉD), de la visualisation de l’information et, en partie, de l’anthropologie, cette recherche exploratoire propose l’expĂ©rimentation d’une mĂ©thodologie descriptive en fouille de textes afin de cartographier thĂ©matiquement un corpus de textes anthropologiques. Plus prĂ©cisĂ©ment, nous souhaitons Ă©prouver la mĂ©thode de classification hiĂ©rarchique ascendante (CHA) pour extraire et analyser les thĂšmes issus de rĂ©sumĂ©s de mĂ©moires et de thĂšses octroyĂ©s de 1985 Ă  2009 (1240 rĂ©sumĂ©s), par les dĂ©partements d’anthropologie de l’UniversitĂ© de MontrĂ©al et de l’UniversitĂ© Laval, ainsi que le dĂ©partement d’histoire de l’UniversitĂ© Laval (pour les rĂ©sumĂ©s archĂ©ologiques et ethnologiques). En premiĂšre partie de mĂ©moire, nous prĂ©sentons notre cadre thĂ©orique, c'est-Ă -dire que nous expliquons ce qu’est la fouille de textes, ses origines, ses applications, les Ă©tapes mĂ©thodologiques puis, nous complĂ©tons avec une revue des principales publications. La deuxiĂšme partie est consacrĂ©e au cadre mĂ©thodologique et ainsi, nous abordons les diffĂ©rentes Ă©tapes par lesquelles ce projet fut conduit; la collecte des donnĂ©es, le filtrage linguistique, la classification automatique, pour en nommer que quelques-unes. Finalement, en derniĂšre partie, nous prĂ©sentons les rĂ©sultats de notre recherche, en nous attardant plus particuliĂšrement sur deux expĂ©rimentations. Nous abordons Ă©galement la navigation thĂ©matique et les approches conceptuelles en thĂ©matisation, par exemple, en anthropologie, la dichotomie culture Ìž biologie. Nous terminons avec les limites de ce projet et les pistes d’intĂ©rĂȘts pour de futures recherches.Taking advantage of the recent development of automated analysis of textual data, digital records of documents, data graphics and anthropology, this study was set forth using data mining techniques to create a thematic map of anthropological documents. In this exploratory research, we propose to evaluate the usefulness of thematic analysis by using automated classification of textual data, as well as information visualizations (based on network analysis). More precisely, we want to examine the method of hierarchical clustering (HCA, agglomerative) for thematic analysis and information extraction. We built our study from a database consisting of 1 240 thesis abstracts, granted from 1985 to 2009, by anthropological departments at the University of Montreal and University Laval, as well as historical department at University Laval (for archaeological and ethnological abstracts). In the first section, we present our theoretical framework; we expose definitions of text mining, its origins, the practical applications and the methodology, and in the end, we present a literature review. The second part is devoted to the methodological framework and we discuss the various stages through which the project was conducted; construction of database, linguistic and statistical filtering, automated classification, etc. Finally, in the last section, we display results of two specific experiments and we present our interpretations. We also discuss about thematic navigation and conceptual approaches. We conclude with the limitations we faced through this project and paths of interest for future research

    Algorithmes automatiques pour la fouille visuelle de donnĂ©es et la visualisation de rĂšgles d’association : application aux donnĂ©es aĂ©ronautiques

    Get PDF
    Depuis quelques années, nous assistons à une véritable explosion de la production de données dans de nombreux domaines, comme les réseaux sociaux ou le commerce en ligne. Ce phénomÚne récent est renforcé par la généralisation des périphériques connectés, dont l'utilisation est devenue aujourd'hui quasi-permanente. Le domaine aéronautique n'échappe pas à cette tendance. En effet, le besoin croissant de données, dicté par l'évolution des systÚmes de gestion du trafic aérien et par les événements, donne lieu à une prise de conscience sur leur importance et sur une nouvelle maniÚre de les appréhender, qu'il s'agisse de stockage, de mise à disposition et de valorisation. Les capacités d'hébergement ont été adaptées, et ne constituent pas une difficulté majeure. Celle-ci réside plutÎt dans le traitement de l'information et dans l'extraction de connaissances. Dans le cadre du Visual Analytics, discipline émergente née des conséquences des attentats de 2001, cette extraction combine des approches algorithmiques et visuelles, afin de bénéficier simultanément de la flexibilité, de la créativité et de la connaissance humaine, et des capacités de calculs des systÚmes informatiques. Ce travail de thÚse a porté sur la réalisation de cette combinaison, en laissant à l'homme une position centrale et décisionnelle. D'une part, l'exploration visuelle des données, par l'utilisateur, pilote la génération des rÚgles d'association, qui établissent des relations entre elles. D'autre part, ces rÚgles sont exploitées en configurant automatiquement la visualisation des données concernées par celles-ci, afin de les mettre en valeur. Pour cela, ce processus bidirectionnel entre les données et les rÚgles a été formalisé, puis illustré, à l'aide d'enregistrements de trafic aérien récent, sur la plate-forme Videam que nous avons développée. Celle-ci intÚgre, dans un environnement modulaire et évolutif, plusieurs briques IHM et algorithmiques, permettant l'exploration interactive des données et des rÚgles d'association, tout en laissant à l'utilisateur la maßtrise globale du processus, notamment en paramétrant et en pilotant les algorithmes. ABSTRACT : In the past few years, we have seen a large scale data production in many areas, such as social networks and e-business. This recent phenomenon is enhanced by the widespread use of devices, which are permanently connected. The aeronautical field is also involved in this trend. Indeed, its growing need for data, which is driven by air trafic management systems evolution and by events, leads to a widescale focus on its key role and on new ways to manage it. It deals with storage, availability and exploitation. Data hosting capacity, that has been adapted, is not a major challenge. The issue is now in data processing and knowledge extraction from it. Visual Analytics is an emerging field, stemming from the September 2001 events. It combines automatic and visual approaches, in order to benefit simultaneously from human flexibility, creativity and knowledge, and also from processing capacities of computers. This PhD thesis has focused on this combination, by giving to the operator a centered and decisionmaking role. On the one hand, the visual data exploration drives association rules extraction. They correspond to links between the data. On the other hand, these rules are exploited by automatically con_gurating the visualization of the concerned data, in order to highlight it. To achieve this, a bidirectional process has been formalized, between data and rules. It has been illustrated by air trafic recordings, thanks to the Videam platform, that we have developed. By integrating several HMI and algorithmic applications in a modular and upgradeable environment, it allows interactive exploration of both data and association rules. This is done by giving to human the mastering of the global process, especially by setting and driving algorithms

    Fouille de données : vers une nouvelle approche intégrant de façon cohérente et transparente la composante spatiale

    Get PDF
    Depuis quelques dĂ©cennies, on assiste Ă  une prĂ©sence de plus en plus accrue de l’information gĂ©o-spatiale au sein des organisations. Cela a eu pour consĂ©quence un stockage massif d’informations de ce type. Ce phĂ©nomĂšne, combinĂ© au potentiel d’informations que renferment ces donnĂ©es, on fait naĂźtre le besoin d’en apprendre davantage sur elles, de les utiliser Ă  des fins d’extraction de connaissances qui puissent servir de support au processus de dĂ©cision de l’entreprise. Pour cela, plusieurs approches ont Ă©tĂ© envisagĂ©es dont premiĂšrement la mise Ă  contribution des outils de fouille de donnĂ©es « traditionnelle ». Mais face Ă  la particularitĂ© de l’information gĂ©o-spatiale, cette approche s’est soldĂ©e par un Ă©chec. De cela, est apparue la nĂ©cessitĂ© d’ériger le processus d’extraction de connaissances Ă  partir de donnĂ©es gĂ©ographiques en un domaine Ă  part entiĂšre : le Geographic Knowlegde Discovery (GKD). La rĂ©ponse Ă  cette problĂ©matique, par le GKD, s’est traduite par la mise en Ɠuvre d’approches qu’on peut catĂ©goriser en deux grandes catĂ©gories: les approches dites de prĂ©traitement et celles de traitement dynamique de l’information spatiale. Pour faire face aux limites de ces mĂ©thodes et outils nous proposons une nouvelle approche intĂ©grĂ©e qui exploite l’existant en matiĂšre de fouille de donnĂ©es « traditionnelle ». Cette approche, Ă  cheval entre les deux prĂ©cĂ©dentes vise comme objectif principal, le support du type gĂ©o-spatial Ă  toutes les Ă©tapes du processus de fouille de donnĂ©es. Pour cela, cette approche s’attachera Ă  exploiter les relations usuelles que les entitĂ©s gĂ©o-spatiales entretiennent entre elles. Un cadre viendra par la suite dĂ©crire comment cette approche supporte la composante spatiale en mettant Ă  contribution des bibliothĂšques de traitement de la donnĂ©e gĂ©o-spatiale et les outils de fouille « traditionnelle »In recent decades, geospatial data has been more and more present within our organization. This has resulted in massive storage of such information and this, combined with the learning potential of such information, gives birth to the need to learn from these data, to extract knowledge that can be useful in supporting decision-making process. For this purpose, several approaches have been proposed. Among this, the first has been to deal with existing data mining tools in order to extract any knowledge of such data. But due to a specificity of geospatial information, this approach failed. From this arose the need to erect the process of extracting knowledge from geospatial data in its own right; this lead to Geographic Knowledge Discovery. The answer to this problem, by GKD, is reflected in the implementation of approaches that can be categorized into two: the so-called pre-processing approaches and the dynamic treatment of spatial relationships. Given the limitations of these approaches we propose a new approach that exploits the existing data mining tools. This approach can be seen as a compromise of the two previous. It main objective is to support geospatial data type during all steps of data mining process. To do this, the proposed approach will exploit the usual relationships that geo-spatial entities share each other. A framework will then describe how this approach supports the spatial component involving geo-spatial libraries and "traditional" data mining tool

    Comprendre et manipuler les données ouvertes de l'administration publique : la situation au Gouvernement du Québec et à la Ville de Montréal

    Full text link
    Ce mĂ©moire cherche Ă  faire le point sur l’ouverture des donnĂ©es de l’administration publique, qui s’est gĂ©nĂ©ralisĂ©e depuis de 2009. Les donnĂ©es ouvertes s’inscrivent dans le mouvement du droit d’accĂšs Ă  l’information, mais se caractĂ©risent par leur caractĂšre proactif : plutĂŽt que d’ĂȘtre diffusĂ©e Ă  la demande, les donnĂ©es ouvertes sont divulguĂ©es en ligne, gĂ©nĂ©ralement regroupĂ©es sur un portail. L’ouverture des donnĂ©es vise plusieurs objectifs, dont notamment l’instauration d’un rĂ©gime de transparence au sein de l’administration publique, et la stimulation de l’activitĂ© Ă©conomique et de la participation citoyenne. Les applications des donnĂ©es ouvertes ont surtout Ă©tĂ© logicielles, mais nous avons repĂ©rĂ© plusieurs sources qui dĂ©montrent le potentiel analytique du phĂ©nomĂšne. Pour ce faire, les donnĂ©es doivent nĂ©anmoins rĂ©pondre Ă  plusieurs conditions : format, qualitĂ© et couverture appropriĂ©s, licence adĂ©quate, etc. Nous avons examinĂ© les politiques et pratiques sur deux sites quĂ©bĂ©cois — DonnĂ©es QuĂ©bec et le portail de donnĂ©es ouvertes de la ville de MontrĂ©al — afin de voir si ces conditions Ă©taient respectĂ©es. Bien que la situation soit essentiellement convenable, nous avons notĂ© certaines pratiques susceptibles de nuire Ă  la rĂ©utilisation des donnĂ©es. Afin d’exposer ces problĂšmes et de proposer des stratĂ©gies pour les rĂ©soudre, nous avons procĂ©dĂ© Ă  des opĂ©rations de nettoyage et d’intĂ©gration de donnĂ©es. Nous expliquerons enfin l’intĂ©rĂȘt analytique du croisement de plusieurs sources de donnĂ©es, en dĂ©pit des difficultĂ©s que prĂ©sente cette approche.The goal of this masters thesis is to assess the opening of public sector data, a phenomenon that became widespread since 2009. Open data stem from the freedom of information movement, with however a proactive dimension : rather than being provided on demand, open data are published online and usually centralized on a portal. Open data have several goals, in particular the promotion of transparency within the public sector, and the stimulation of both economic activity and civic participation. Open data have been mostly used to create software applications, but we found several sources that demonstrate the analytic potential of the phenomenon. However, to realize this potential, open data must comply with several conditions, such as appropriate format, quality and coverage, adequate user license, etc. We looked into the policies and practices of two Quebec portals — DonnĂ©es QuĂ©bec and Montreal City open data portal — to see if these conditions were met. While the overall situation was acceptable, we noted some practices that could be detrimental to the reuse of data. In order to illustrate these problems and offer possible strategies to solve them, we performed data cleaning and integration. Finally, we explain the analytic gain of the data integration, despite the difficulties of the operation

    Modélisation des informations et extraction des connaissances pour la gestion des crises

    Get PDF
    L’essor des technologies Ă©mergentes de collecte de donnĂ©es offre des opportunitĂ©s nouvelles pour diverses disciplines scientifiques. L’informatique est appelĂ© Ă  jouer sa partition par le dĂ©veloppement de techniques d’analyse intelligente des donnĂ©es pour apporter un certain Ă©clairage dans la rĂ©solution de problĂšmes complexes. Le contenu de ce mĂ©moire de recherche doctorale s’inscrit dans la problĂ©matique gĂ©nĂ©rale de l’extraction des connaissances Ă  partir de donnĂ©es par les techniques informatiques. Ce travail de thĂšse s’intĂ©resse dans un premier temps Ă  la problĂ©matique de la modĂ©lisation des informations pour la gestion de crise nĂ©cessitant des prises en charge mĂ©dicale, Ă  l’aide d’une collaboration des applications informatiques de la tĂ©lĂ©mĂ©decine. Nous avons proposĂ© une mĂ©thodologie de gestion d’une crise Ă  distance en trois Ă©tapes. Elle est principalement axĂ©e sur la collaboration des actes de tĂ©lĂ©mĂ©decine (TĂ©lĂ©consultation, TĂ©lĂ©expertise, TĂ©lĂ©surveillance, TĂ©lĂ©assistance, et la RĂ©gulation mĂ©dicale), de la phase de transport des victimes Ă  la phase de traitements mĂ©dicaux dans et/ou entre les structures de santĂ©. Cette mĂ©thodologie permet non seulement de mettre Ă  la disposition des gestionnaires de crise un systĂšme d'aide Ă  la dĂ©cision informatisĂ©, mais aussi de minimiser les coĂ»ts financiers et rĂ©duire le temps de rĂ©ponse des secours Ă  travers une gestion organisĂ©e de la crise. Dans un deuxiĂšme temps, nous avons Ă©tudiĂ© en dĂ©tail l’extraction de la connaissance Ă  l’aide des techniques de data mining sur les images satellitaires afin de dĂ©couvrir des zones Ă  risques d’épidĂ©mie, dont l’étude de cas a portĂ© sur l’épidĂ©mie de cholĂ©ra dans la rĂ©gion de Mopti, au Mali. Ainsi, une mĂ©thodologie de six phases a Ă©tĂ© prĂ©sentĂ©e en mettant en relation les donnĂ©es collectĂ©es sur le terrain et les donnĂ©es satellitaires pour prĂ©venir et surveiller plus efficacement les crises d’épidĂ©mie. Les rĂ©sultats nous indiquent qu’à 66% le taux de contamination est liĂ© au fleuve Niger, en plus de certains facteurs sociĂ©taux comme le jet des ordures en pĂ©riode hivernale. Par consĂ©quent, nous avons pu Ă©tablir le lien entre l’épidĂ©mie et son environnement d’évolution, ce qui permettra aux dĂ©cideurs de mieux gĂ©rer une Ă©ventuelle crise d’épidĂ©mie. Et enfin, en dernier lieu, pendant une situation de crise d’épidĂ©mie, nous nous sommes focalisĂ©s sur l’analyse mĂ©dicale, plus prĂ©cisĂ©ment par l’usage des microscopes portables afin de confirmer ou non la prĂ©sence des agents pathogĂšnes dans les prĂ©lĂšvements des cas suspects. Pour ce faire, nous avons prĂ©sentĂ© une mĂ©thodologie de six phases, basĂ©e sur les techniques du deep learning notamment l’une des techniques des rĂ©seaux de neurones convolutifs, l’apprentissage par transfert qui tirent parti des systĂšmes complexes avec des invariants permettant la modĂ©lisation et l'analyse efficace de grandes quantitĂ©s de donnĂ©es. Le principe consiste Ă  entraĂźner les rĂ©seaux de neurones convolutifs Ă  la classification automatique d’images des agents pathogĂšnes. Par exemple dans notre cas d’étude, cette approche a Ă©tĂ© utilisĂ©e pour distinguer une image microscopique contenant le virus de l’épidĂ©mie de cholĂ©ra appelĂ© Vibrio cholerae d’une image microscopique contenant le virus de l’épidĂ©mie du paludisme appelĂ© Plasmodium. Ceci nous a permis d’obtenir un taux de rĂ©ussite de classification de 99%. Par la suite, l’idĂ©e est de dĂ©ployer cette solution de reconnaissance d’images d’agents pathogĂšnes dans les microscopes portables intelligents pour les analyses de routine et applications de diagnostic mĂ©dical dans la gestion de situations de crise. Ce qui permettra de combler le manque de spĂ©cialistes en manipulation microscopique et un gain de temps considĂ©rable dans l’analyse des prĂ©lĂšvements avec des mesures prĂ©cises favorisant l’accomplissement du travail dans de meilleures conditions

    Visualisation de donnĂ©es dans le domaine de l’E-recrutement

    Full text link
    La rĂ©cente profusion des donnĂ©es, communĂ©ment appelĂ©e Big Data, nĂ©cessite une analyse pertinente de ces larges volumes de donnĂ©es afin d’en tirer l’information utile nĂ©cessaire Ă  la prise de dĂ©cision. La visualisation de donnĂ©es se rĂ©vĂšle Ă  cet Ă©gard un moyen efficace pour transmettre cette information de façon interactive et synthĂ©tique. Le travail dĂ©crit dans ce mĂ©moire qui constitue un volet du projet BPP, collaboration entre le RALI et la sociĂ©tĂ© LittleBigJob (LBJ), vise Ă  rĂ©pondre Ă  ce besoin par l’implĂ©mentation d’un tableau de bord permettant la visualisation des offres d’emploi sur le web. Ces offres Ă©tant composĂ©es de plusieurs sections : titre de l’offre, compagnie qui recrute, description de l’offre, etc. Certaines informations contenues dans la description de l’offre ne peuvent pas ĂȘtre extraites directement. Ainsi, pour l’extraction des compĂ©tences citĂ©es dans une offre, nous utilisons les techniques de l’apprentissage automatique et plus particuliĂšrement les champs markoviens conditionnels (CRF) utilisĂ©s pour l’étiquetage des sĂ©quences. Les expĂ©riences menĂ©es visent Ă©galement Ă  tester la capacitĂ© de ces modĂšles Ă  trouver ces compĂ©tences dans la description de l’offre avec un ensemble d’entraĂźnement partiellement Ă©tiquetĂ©, d’une part parce que nous ne disposons pas d’une liste complĂšte de compĂ©tences nĂ©cessaire Ă  l’étiquetage, et d’autre part, parce que de nouvelles compĂ©tences apparaissent continuellement.The large amount of data available nowadays, so-called Big Data, requires a relevant analysis to derive information and get insights for decision making. Data visualization is an effective way to convey this information interactively and synthetically. This work, which is part of BPP Project, a collaboration between the RALI and LBJ, aims to meet this need by implementing a dashboard for visualization of job offers on the web. These offers consist of several sections: title, company, description, etc. Some information contained in the description cannot be extracted directly. Thus, for the extraction of skills from the description of an offer, we use machine learning techniques, especially Conditional Random Fields (CRF) used for sequence labeling. We also tested the ability of those models to find skills in the description of the offer with partial labeled training dataset, as we do not have a complete list of skills required for labeling, and also because new skills appear constantly
    • 

    corecore