78 research outputs found
Fouille visuelle de données temporelles avec DataTube2
International audienceNous nous intĂ©ressons dans cet article Ă la fouille visuelle de donnĂ©es temporelles, oĂč les donnĂ©es ont Ă©tĂ© mises sous la forme de n attributs dont les valeurs sont enregistrĂ©es pendant k instants. AprĂšs un Ă©tat de l'art sur les diffĂ©rentes approches de visualisation de telles sĂ©ries, nous prĂ©sentons plus particuliĂšrement une approche ayant reçue encore peu d'attention ("DataTube"). DataTube place les donnĂ©es dans un tube dont l'axe reprĂ©sente le temps. Nous Ă©tendons ensuite cette approche : tout d'abord nous dĂ©finissons plusieurs modes de visualisations (couleurs, formes, etc) et nous ajoutons un axe temporel. Ensuite nous introduisons des interactions avec la possibilitĂ© de sĂ©lectionner des attributs et des instants, afficher des donnĂ©es complexes ou encore insĂ©rer des annotations sur la visualisation. Nous ajoutons une Ă©tape de classification non supervisĂ©e afin de regrouper dans la visualisation les attributs similaires. Enfin nous intĂ©grons cette visualisation dans notre plateforme de fouille de donnĂ©es en rĂ©alitĂ© virtuelle VRMiner, avec un affichage stĂ©rĂ©oscopique et des possibilitĂ©s de navigation interactive. Nous appliquons cette visualisation sur plusieurs ensembles de donnĂ©es rĂ©elles et nous montrons qu'elle peut gĂ©rer jusqu'Ă 1,5 million de valeurs. Nous prĂ©sentons Ă©galement une Ă©valuation utilisateur
Extraction automatique et visualisation des thÚmes abordés dans des résumés de mémoires et de thÚses en anthropologie au Québec, de 1985 à 2009
SâinsĂ©rant dans les domaines de la Lecture et de lâAnalyse de Textes AssistĂ©es par Ordinateur (LATAO), de la Gestion Ălectronique des Documents (GĂD), de la visualisation de lâinformation et, en partie, de lâanthropologie, cette recherche exploratoire propose lâexpĂ©rimentation dâune mĂ©thodologie descriptive en fouille de textes afin de cartographier thĂ©matiquement un corpus de textes anthropologiques. Plus prĂ©cisĂ©ment, nous souhaitons Ă©prouver la mĂ©thode de classification hiĂ©rarchique ascendante (CHA) pour extraire et analyser les thĂšmes issus de rĂ©sumĂ©s de mĂ©moires et de thĂšses octroyĂ©s de 1985 Ă 2009 (1240 rĂ©sumĂ©s), par les dĂ©partements dâanthropologie de lâUniversitĂ© de MontrĂ©al et de lâUniversitĂ© Laval, ainsi que le dĂ©partement dâhistoire de lâUniversitĂ© Laval (pour les rĂ©sumĂ©s archĂ©ologiques et ethnologiques). En premiĂšre partie de mĂ©moire, nous prĂ©sentons notre cadre thĂ©orique, c'est-Ă -dire que nous expliquons ce quâest la fouille de textes, ses origines, ses applications, les Ă©tapes mĂ©thodologiques puis, nous complĂ©tons avec une revue des principales publications. La deuxiĂšme partie est consacrĂ©e au cadre mĂ©thodologique et ainsi, nous abordons les diffĂ©rentes Ă©tapes par lesquelles ce projet fut conduit; la collecte des donnĂ©es, le filtrage linguistique, la classification automatique, pour en nommer que quelques-unes. Finalement, en derniĂšre partie, nous prĂ©sentons les rĂ©sultats de notre recherche, en nous attardant plus particuliĂšrement sur deux expĂ©rimentations. Nous abordons Ă©galement la navigation thĂ©matique et les approches conceptuelles en thĂ©matisation, par exemple, en anthropologie, la dichotomie culture Ìž biologie. Nous terminons avec les limites de ce projet et les pistes dâintĂ©rĂȘts pour de futures recherches.Taking advantage of the recent development of automated analysis of textual data, digital records of documents, data graphics and anthropology, this study was set forth using data mining techniques to create a thematic map of anthropological documents. In this exploratory research, we propose to evaluate the usefulness of thematic analysis by using automated classification of textual data, as well as information visualizations (based on network analysis). More precisely, we want to examine the method of hierarchical clustering (HCA, agglomerative) for thematic analysis and information extraction. We built our study from a database consisting of 1 240 thesis abstracts, granted from 1985 to 2009, by anthropological departments at the University of Montreal and University Laval, as well as historical department at University Laval (for archaeological and ethnological abstracts). In the first section, we present our theoretical framework; we expose definitions of text mining, its origins, the practical applications and the methodology, and in the end, we present a literature review. The second part is devoted to the methodological framework and we discuss the various stages through which the project was conducted; construction of database, linguistic and statistical filtering, automated classification, etc. Finally, in the last section, we display results of two specific experiments and we present our interpretations. We also discuss about thematic navigation and conceptual approaches. We conclude with the limitations we faced through this project and paths of interest for future research
Algorithmes automatiques pour la fouille visuelle de donnĂ©es et la visualisation de rĂšgles dâassociation : application aux donnĂ©es aĂ©ronautiques
Depuis quelques années, nous assistons à une véritable explosion de la production de données dans de nombreux domaines, comme les réseaux sociaux ou le commerce en ligne. Ce phénomÚne récent est renforcé par la généralisation des périphériques connectés, dont l'utilisation est devenue aujourd'hui quasi-permanente. Le domaine aéronautique n'échappe pas à cette tendance. En effet, le besoin croissant de données, dicté par l'évolution des systÚmes de gestion du trafic aérien et par les événements, donne lieu à une prise de conscience sur leur importance et sur une nouvelle maniÚre de les appréhender, qu'il s'agisse de stockage, de mise à disposition et de valorisation. Les capacités d'hébergement ont été adaptées, et ne constituent pas une difficulté majeure. Celle-ci réside plutÎt dans le traitement de l'information et dans l'extraction de connaissances. Dans le cadre du Visual Analytics, discipline émergente née des conséquences des attentats de 2001, cette extraction combine des approches algorithmiques et visuelles, afin de bénéficier simultanément de la flexibilité, de la créativité et de la connaissance humaine, et des capacités de calculs des systÚmes informatiques. Ce travail de thÚse a porté sur la réalisation de cette combinaison, en laissant à l'homme une position centrale et décisionnelle. D'une part, l'exploration visuelle des données, par l'utilisateur, pilote la génération des rÚgles d'association, qui établissent des relations entre elles. D'autre part, ces rÚgles sont exploitées en configurant automatiquement la visualisation des données concernées par celles-ci, afin de les mettre en valeur. Pour cela, ce processus bidirectionnel entre les données et les rÚgles a été formalisé, puis illustré, à l'aide d'enregistrements de trafic aérien récent, sur la plate-forme Videam que nous avons développée. Celle-ci intÚgre, dans un environnement modulaire et évolutif, plusieurs briques IHM et algorithmiques, permettant l'exploration interactive des données et des rÚgles d'association, tout en laissant à l'utilisateur la maßtrise globale du processus, notamment en paramétrant et en pilotant les algorithmes. ABSTRACT : In the past few years, we have seen a large scale data production in many areas, such as social networks and e-business. This recent phenomenon is enhanced by the widespread use of devices, which are permanently connected. The aeronautical field is also involved in this trend. Indeed, its growing need for data, which is driven by air trafic management systems evolution and by events, leads to a widescale focus on its key role and on new ways to manage it. It deals with storage, availability and exploitation. Data hosting capacity, that has been adapted, is not a major challenge. The issue is now in data processing and knowledge extraction from it. Visual Analytics is an emerging field, stemming from the September 2001 events. It combines automatic and visual approaches, in order to benefit simultaneously from human flexibility, creativity and knowledge, and also from processing capacities of computers. This PhD thesis has focused on this combination, by giving to the operator a centered and decisionmaking role. On the one hand, the visual data exploration drives association rules extraction. They correspond to links between the data. On the other hand, these rules are exploited by automatically con_gurating the visualization of the concerned data, in order to highlight it. To achieve this, a bidirectional process has been formalized, between data and rules. It has been illustrated by air trafic recordings, thanks to the Videam platform, that we have developed. By integrating several HMI and algorithmic applications in a modular and upgradeable environment, it allows interactive exploration of both data and association rules. This is done by giving to human the mastering of the global process, especially by setting and driving algorithms
Fouille de données : vers une nouvelle approche intégrant de façon cohérente et transparente la composante spatiale
Depuis quelques dĂ©cennies, on assiste Ă une prĂ©sence de plus en plus accrue de lâinformation gĂ©o-spatiale au sein des organisations. Cela a eu pour consĂ©quence un stockage massif dâinformations de ce type. Ce phĂ©nomĂšne, combinĂ© au potentiel dâinformations que renferment ces donnĂ©es, on fait naĂźtre le besoin dâen apprendre davantage sur elles, de les utiliser Ă des fins dâextraction de connaissances qui puissent servir de support au processus de dĂ©cision de lâentreprise. Pour cela, plusieurs approches ont Ă©tĂ© envisagĂ©es dont premiĂšrement la mise Ă contribution des outils de fouille de donnĂ©es « traditionnelle ». Mais face Ă la particularitĂ© de lâinformation gĂ©o-spatiale, cette approche sâest soldĂ©e par un Ă©chec. De cela, est apparue la nĂ©cessitĂ© dâĂ©riger le processus dâextraction de connaissances Ă partir de donnĂ©es gĂ©ographiques en un domaine Ă part entiĂšre : le Geographic Knowlegde Discovery (GKD). La rĂ©ponse Ă cette problĂ©matique, par le GKD, sâest traduite par la mise en Ćuvre dâapproches quâon peut catĂ©goriser en deux grandes catĂ©gories: les approches dites de prĂ©traitement et celles de traitement dynamique de lâinformation spatiale. Pour faire face aux limites de ces mĂ©thodes et outils nous proposons une nouvelle approche intĂ©grĂ©e qui exploite lâexistant en matiĂšre de fouille de donnĂ©es « traditionnelle ». Cette approche, Ă cheval entre les deux prĂ©cĂ©dentes vise comme objectif principal, le support du type gĂ©o-spatial Ă toutes les Ă©tapes du processus de fouille de donnĂ©es. Pour cela, cette approche sâattachera Ă exploiter les relations usuelles que les entitĂ©s gĂ©o-spatiales entretiennent entre elles. Un cadre viendra par la suite dĂ©crire comment cette approche supporte la composante spatiale en mettant Ă contribution des bibliothĂšques de traitement de la donnĂ©e gĂ©o-spatiale et les outils de fouille « traditionnelle »In recent decades, geospatial data has been more and more present within our organization. This has resulted in massive storage of such information and this, combined with the learning potential of such information, gives birth to the need to learn from these data, to extract knowledge that can be useful in supporting decision-making process. For this purpose, several approaches have been proposed. Among this, the first has been to deal with existing data mining tools in order to extract any knowledge of such data. But due to a specificity of geospatial information, this approach failed. From this arose the need to erect the process of extracting knowledge from geospatial data in its own right; this lead to Geographic Knowledge Discovery. The answer to this problem, by GKD, is reflected in the implementation of approaches that can be categorized into two: the so-called pre-processing approaches and the dynamic treatment of spatial relationships. Given the limitations of these approaches we propose a new approach that exploits the existing data mining tools. This approach can be seen as a compromise of the two previous. It main objective is to support geospatial data type during all steps of data mining process. To do this, the proposed approach will exploit the usual relationships that geo-spatial entities share each other. A framework will then describe how this approach supports the spatial component involving geo-spatial libraries and "traditional" data mining tool
Comprendre et manipuler les données ouvertes de l'administration publique : la situation au Gouvernement du Québec et à la Ville de Montréal
Ce mĂ©moire cherche Ă faire le point sur lâouverture des donnĂ©es de lâadministration publique, qui sâest gĂ©nĂ©ralisĂ©e depuis de 2009. Les donnĂ©es ouvertes sâinscrivent dans le mouvement du droit dâaccĂšs Ă lâinformation, mais se caractĂ©risent par leur caractĂšre proactif : plutĂŽt que dâĂȘtre diffusĂ©e Ă la demande, les donnĂ©es ouvertes sont divulguĂ©es en ligne, gĂ©nĂ©ralement regroupĂ©es sur un portail. Lâouverture des donnĂ©es vise plusieurs objectifs, dont notamment lâinstauration dâun rĂ©gime de transparence au sein de lâadministration publique, et la stimulation de lâactivitĂ© Ă©conomique et de la participation citoyenne. Les applications des donnĂ©es ouvertes ont surtout Ă©tĂ© logicielles, mais nous avons repĂ©rĂ© plusieurs sources qui dĂ©montrent le potentiel analytique du phĂ©nomĂšne. Pour ce faire, les donnĂ©es doivent nĂ©anmoins rĂ©pondre Ă plusieurs conditions : format, qualitĂ© et couverture appropriĂ©s, licence adĂ©quate, etc. Nous avons examinĂ© les politiques et pratiques sur deux sites quĂ©bĂ©cois â DonnĂ©es QuĂ©bec et le portail de donnĂ©es ouvertes de la ville de MontrĂ©al â afin de voir si ces conditions Ă©taient respectĂ©es. Bien que la situation soit essentiellement convenable, nous avons notĂ© certaines pratiques susceptibles de nuire Ă la rĂ©utilisation des donnĂ©es. Afin dâexposer ces problĂšmes et de proposer des stratĂ©gies pour les rĂ©soudre, nous avons procĂ©dĂ© Ă des opĂ©rations de nettoyage et dâintĂ©gration de donnĂ©es. Nous expliquerons enfin lâintĂ©rĂȘt analytique du croisement de plusieurs sources de donnĂ©es, en dĂ©pit des difficultĂ©s que prĂ©sente cette approche.The goal of this masters thesis is to assess the opening of public sector data, a phenomenon that became widespread since 2009. Open data stem from the freedom of information movement, with however a proactive dimension : rather than being provided on demand, open data are published online and usually centralized on a portal. Open data have several goals, in particular the promotion of transparency within the public sector, and the stimulation of both economic activity and civic participation. Open data have been mostly used to create software applications, but we found several sources that demonstrate the analytic potential of the phenomenon. However, to realize this potential, open data must comply with several conditions, such as appropriate format, quality and coverage, adequate user license, etc. We looked into the policies and practices of two Quebec portals â DonnĂ©es QuĂ©bec and Montreal City open data portal â to see if these conditions were met. While the overall situation was acceptable, we noted some practices that could be detrimental to the reuse of data. In order to illustrate these problems and offer possible strategies to solve them, we performed data cleaning and integration. Finally, we explain the analytic gain of the data integration, despite the difficulties of the operation
Modélisation des informations et extraction des connaissances pour la gestion des crises
Lâessor des technologies Ă©mergentes de collecte de donnĂ©es offre des opportunitĂ©s nouvelles pour diverses disciplines scientifiques. Lâinformatique est appelĂ© Ă jouer sa partition par le dĂ©veloppement de techniques dâanalyse intelligente des donnĂ©es pour apporter un certain Ă©clairage dans la rĂ©solution de problĂšmes complexes. Le contenu de ce mĂ©moire de recherche doctorale sâinscrit dans la problĂ©matique gĂ©nĂ©rale de lâextraction des connaissances Ă partir de donnĂ©es par les techniques informatiques. Ce travail de thĂšse sâintĂ©resse dans un premier temps Ă la problĂ©matique de la modĂ©lisation des informations pour la gestion de crise nĂ©cessitant des prises en charge mĂ©dicale, Ă lâaide dâune collaboration des applications informatiques de la tĂ©lĂ©mĂ©decine. Nous avons proposĂ© une mĂ©thodologie de gestion dâune crise Ă distance en trois Ă©tapes. Elle est principalement axĂ©e sur la collaboration des actes de tĂ©lĂ©mĂ©decine (TĂ©lĂ©consultation, TĂ©lĂ©expertise, TĂ©lĂ©surveillance, TĂ©lĂ©assistance, et la RĂ©gulation mĂ©dicale), de la phase de transport des victimes Ă la phase de traitements mĂ©dicaux dans et/ou entre les structures de santĂ©. Cette mĂ©thodologie permet non seulement de mettre Ă la disposition des gestionnaires de crise un systĂšme d'aide Ă la dĂ©cision informatisĂ©, mais aussi de minimiser les coĂ»ts financiers et rĂ©duire le temps de rĂ©ponse des secours Ă travers une gestion organisĂ©e de la crise. Dans un deuxiĂšme temps, nous avons Ă©tudiĂ© en dĂ©tail lâextraction de la connaissance Ă lâaide des techniques de data mining sur les images satellitaires afin de dĂ©couvrir des zones Ă risques dâĂ©pidĂ©mie, dont lâĂ©tude de cas a portĂ© sur lâĂ©pidĂ©mie de cholĂ©ra dans la rĂ©gion de Mopti, au Mali. Ainsi, une mĂ©thodologie de six phases a Ă©tĂ© prĂ©sentĂ©e en mettant en relation les donnĂ©es collectĂ©es sur le terrain et les donnĂ©es satellitaires pour prĂ©venir et surveiller plus efficacement les crises dâĂ©pidĂ©mie. Les rĂ©sultats nous indiquent quâĂ 66% le taux de contamination est liĂ© au fleuve Niger, en plus de certains facteurs sociĂ©taux comme le jet des ordures en pĂ©riode hivernale. Par consĂ©quent, nous avons pu Ă©tablir le lien entre lâĂ©pidĂ©mie et son environnement dâĂ©volution, ce qui permettra aux dĂ©cideurs de mieux gĂ©rer une Ă©ventuelle crise dâĂ©pidĂ©mie. Et enfin, en dernier lieu, pendant une situation de crise dâĂ©pidĂ©mie, nous nous sommes focalisĂ©s sur lâanalyse mĂ©dicale, plus prĂ©cisĂ©ment par lâusage des microscopes portables afin de confirmer ou non la prĂ©sence des agents pathogĂšnes dans les prĂ©lĂšvements des cas suspects. Pour ce faire, nous avons prĂ©sentĂ© une mĂ©thodologie de six phases, basĂ©e sur les techniques du deep learning notamment lâune des techniques des rĂ©seaux de neurones convolutifs, lâapprentissage par transfert qui tirent parti des systĂšmes complexes avec des invariants permettant la modĂ©lisation et l'analyse efficace de grandes quantitĂ©s de donnĂ©es. Le principe consiste Ă entraĂźner les rĂ©seaux de neurones convolutifs Ă la classification automatique dâimages des agents pathogĂšnes. Par exemple dans notre cas dâĂ©tude, cette approche a Ă©tĂ© utilisĂ©e pour distinguer une image microscopique contenant le virus de lâĂ©pidĂ©mie de cholĂ©ra appelĂ© Vibrio cholerae dâune image microscopique contenant le virus de lâĂ©pidĂ©mie du paludisme appelĂ© Plasmodium. Ceci nous a permis dâobtenir un taux de rĂ©ussite de classification de 99%. Par la suite, lâidĂ©e est de dĂ©ployer cette solution de reconnaissance dâimages dâagents pathogĂšnes dans les microscopes portables intelligents pour les analyses de routine et applications de diagnostic mĂ©dical dans la gestion de situations de crise. Ce qui permettra de combler le manque de spĂ©cialistes en manipulation microscopique et un gain de temps considĂ©rable dans lâanalyse des prĂ©lĂšvements avec des mesures prĂ©cises favorisant lâaccomplissement du travail dans de meilleures conditions
Visualisation de donnĂ©es dans le domaine de lâE-recrutement
La rĂ©cente profusion des donnĂ©es, communĂ©ment appelĂ©e Big Data, nĂ©cessite une analyse pertinente de ces larges volumes de donnĂ©es afin dâen tirer lâinformation utile
nĂ©cessaire Ă la prise de dĂ©cision. La visualisation de donnĂ©es se rĂ©vĂšle Ă cet Ă©gard un moyen efficace pour transmettre cette information de façon interactive et synthĂ©tique. Le travail dĂ©crit dans ce mĂ©moire qui constitue un volet du projet BPP, collaboration entre le RALI et la sociĂ©tĂ© LittleBigJob (LBJ), vise Ă rĂ©pondre Ă ce besoin par lâimplĂ©mentation dâun tableau de bord permettant la visualisation des offres dâemploi sur le web. Ces offres Ă©tant composĂ©es de plusieurs sections : titre de lâoffre, compagnie qui recrute, description de lâoffre, etc. Certaines informations contenues dans la description de lâoffre ne peuvent pas ĂȘtre extraites directement. Ainsi, pour lâextraction des compĂ©tences citĂ©es dans une offre, nous utilisons les techniques de lâapprentissage automatique et plus particuliĂšrement les champs markoviens conditionnels (CRF) utilisĂ©s pour lâĂ©tiquetage des sĂ©quences. Les expĂ©riences menĂ©es visent Ă©galement Ă tester la capacitĂ© de ces modĂšles Ă trouver ces compĂ©tences dans la description de lâoffre avec un ensemble dâentraĂźnement partiellement Ă©tiquetĂ©, dâune part parce que nous ne disposons pas dâune liste complĂšte de compĂ©tences nĂ©cessaire Ă lâĂ©tiquetage, et dâautre part, parce que de nouvelles compĂ©tences apparaissent continuellement.The large amount of data available nowadays, so-called Big Data, requires a relevant analysis to derive information and get insights for decision making. Data visualization is an effective way to convey this information interactively and synthetically. This work, which is part of BPP Project, a collaboration between the RALI and LBJ, aims to meet this need by implementing a dashboard for visualization of job offers on the web. These offers consist of several sections: title, company, description, etc. Some information
contained in the description cannot be extracted directly. Thus, for the extraction of skills from the description of an offer, we use machine learning techniques, especially Conditional Random Fields (CRF) used for sequence labeling. We also tested the ability of those models to find skills in the description of the offer with partial labeled training dataset, as we do not have a complete list of skills required for labeling, and also because new skills appear constantly
- âŠ