Search CORE

78 research outputs found

Fouille visuelle de données temporelles avec DataTube2

Author: Bouali Fatma
Bouséba Amina
Plantard Frédéric
Venturini Gilles
Publication venue: 'Centre pour la Communication Scientifique Directe (CCSD)'
Publication date: 06/10/2014
Field of study

International audienceNous nous intéressons dans cet article à la fouille visuelle de données temporelles, où les données ont été mises sous la forme de n attributs dont les valeurs sont enregistrées pendant k instants. Après un état de l'art sur les différentes approches de visualisation de telles séries, nous présentons plus particulièrement une approche ayant reçue encore peu d'attention ("DataTube"). DataTube place les données dans un tube dont l'axe représente le temps. Nous étendons ensuite cette approche : tout d'abord nous définissons plusieurs modes de visualisations (couleurs, formes, etc) et nous ajoutons un axe temporel. Ensuite nous introduisons des interactions avec la possibilité de sélectionner des attributs et des instants, afficher des données complexes ou encore insérer des annotations sur la visualisation. Nous ajoutons une étape de classification non supervisée afin de regrouper dans la visualisation les attributs similaires. Enfin nous intégrons cette visualisation dans notre plateforme de fouille de données en réalité virtuelle VRMiner, avec un affichage stéréoscopique et des possibilités de navigation interactive. Nous appliquons cette visualisation sur plusieurs ensembles de données réelles et nous montrons qu'elle peut gérer jusqu'à 1,5 million de valeurs. Nous présentons également une évaluation utilisateur

Crossref

Episciences.org

HAL Université de Tours

Extraction automatique et visualisation des thèmes abordés dans des résumés de mémoires et de thèses en anthropologie au Québec, de 1985 à 2009

Author: Samson Anne-Renée
Publication venue
Publication date: 01/06/2013
Field of study

S’insérant dans les domaines de la Lecture et de l’Analyse de Textes Assistées par Ordinateur (LATAO), de la Gestion Électronique des Documents (GÉD), de la visualisation de l’information et, en partie, de l’anthropologie, cette recherche exploratoire propose l’expérimentation d’une méthodologie descriptive en fouille de textes afin de cartographier thématiquement un corpus de textes anthropologiques. Plus précisément, nous souhaitons éprouver la méthode de classification hiérarchique ascendante (CHA) pour extraire et analyser les thèmes issus de résumés de mémoires et de thèses octroyés de 1985 à 2009 (1240 résumés), par les départements d’anthropologie de l’Université de Montréal et de l’Université Laval, ainsi que le département d’histoire de l’Université Laval (pour les résumés archéologiques et ethnologiques). En première partie de mémoire, nous présentons notre cadre théorique, c'est-à-dire que nous expliquons ce qu’est la fouille de textes, ses origines, ses applications, les étapes méthodologiques puis, nous complétons avec une revue des principales publications. La deuxième partie est consacrée au cadre méthodologique et ainsi, nous abordons les différentes étapes par lesquelles ce projet fut conduit; la collecte des données, le filtrage linguistique, la classification automatique, pour en nommer que quelques-unes. Finalement, en dernière partie, nous présentons les résultats de notre recherche, en nous attardant plus particulièrement sur deux expérimentations. Nous abordons également la navigation thématique et les approches conceptuelles en thématisation, par exemple, en anthropologie, la dichotomie culture ̸ biologie. Nous terminons avec les limites de ce projet et les pistes d’intérêts pour de futures recherches.Taking advantage of the recent development of automated analysis of textual data, digital records of documents, data graphics and anthropology, this study was set forth using data mining techniques to create a thematic map of anthropological documents. In this exploratory research, we propose to evaluate the usefulness of thematic analysis by using automated classification of textual data, as well as information visualizations (based on network analysis). More precisely, we want to examine the method of hierarchical clustering (HCA, agglomerative) for thematic analysis and information extraction. We built our study from a database consisting of 1 240 thesis abstracts, granted from 1985 to 2009, by anthropological departments at the University of Montreal and University Laval, as well as historical department at University Laval (for archaeological and ethnological abstracts). In the first section, we present our theoretical framework; we expose definitions of text mining, its origins, the practical applications and the methodology, and in the end, we present a literature review. The second part is devoted to the methodological framework and we discuss the various stages through which the project was conducted; construction of database, linguistic and statistical filtering, automated classification, etc. Finally, in the last section, we display results of two specific experiments and we present our interpretations. We also discuss about thematic navigation and conceptual approaches. We conclude with the limitations we faced through this project and paths of interest for future research

Dépôt Institutionnel Numérique

Algorithmes automatiques pour la fouille visuelle de données et la visualisation de règles d’association : application aux données aéronautiques

Author: Bothorel Gwenael
Publication venue: École Doctorale Mathématiques, Informatique et Télécommunications (Toulouse);142547247
Publication date: 18/11/2014
Field of study

Depuis quelques années, nous assistons à une véritable explosion de la production de données dans de nombreux domaines, comme les réseaux sociaux ou le commerce en ligne. Ce phénomène récent est renforcé par la généralisation des périphériques connectés, dont l'utilisation est devenue aujourd'hui quasi-permanente. Le domaine aéronautique n'échappe pas à cette tendance. En effet, le besoin croissant de données, dicté par l'évolution des systèmes de gestion du trafic aérien et par les événements, donne lieu à une prise de conscience sur leur importance et sur une nouvelle manière de les appréhender, qu'il s'agisse de stockage, de mise à disposition et de valorisation. Les capacités d'hébergement ont été adaptées, et ne constituent pas une difficulté majeure. Celle-ci réside plutôt dans le traitement de l'information et dans l'extraction de connaissances. Dans le cadre du Visual Analytics, discipline émergente née des conséquences des attentats de 2001, cette extraction combine des approches algorithmiques et visuelles, afin de bénéficier simultanément de la flexibilité, de la créativité et de la connaissance humaine, et des capacités de calculs des systèmes informatiques. Ce travail de thèse a porté sur la réalisation de cette combinaison, en laissant à l'homme une position centrale et décisionnelle. D'une part, l'exploration visuelle des données, par l'utilisateur, pilote la génération des règles d'association, qui établissent des relations entre elles. D'autre part, ces règles sont exploitées en configurant automatiquement la visualisation des données concernées par celles-ci, afin de les mettre en valeur. Pour cela, ce processus bidirectionnel entre les données et les règles a été formalisé, puis illustré, à l'aide d'enregistrements de trafic aérien récent, sur la plate-forme Videam que nous avons développée. Celle-ci intègre, dans un environnement modulaire et évolutif, plusieurs briques IHM et algorithmiques, permettant l'exploration interactive des données et des règles d'association, tout en laissant à l'utilisateur la maîtrise globale du processus, notamment en paramétrant et en pilotant les algorithmes. ABSTRACT : In the past few years, we have seen a large scale data production in many areas, such as social networks and e-business. This recent phenomenon is enhanced by the widespread use of devices, which are permanently connected. The aeronautical field is also involved in this trend. Indeed, its growing need for data, which is driven by air trafic management systems evolution and by events, leads to a widescale focus on its key role and on new ways to manage it. It deals with storage, availability and exploitation. Data hosting capacity, that has been adapted, is not a major challenge. The issue is now in data processing and knowledge extraction from it. Visual Analytics is an emerging field, stemming from the September 2001 events. It combines automatic and visual approaches, in order to benefit simultaneously from human flexibility, creativity and knowledge, and also from processing capacities of computers. This PhD thesis has focused on this combination, by giving to the operator a centered and decisionmaking role. On the one hand, the visual data exploration drives association rules extraction. They correspond to links between the data. On the other hand, these rules are exploited by automatically con_gurating the visualization of the concerned data, in order to highlight it. To achieve this, a bidirectional process has been formalized, between data and rules. It has been illustrated by air trafic recordings, thanks to the Videam platform, that we have developed. By integrating several HMI and algorithmic applications in a modular and upgradeable environment, it allows interactive exploration of both data and association rules. This is done by giving to human the mastering of the global process, especially by setting and driving algorithms

Thèses en Ligne

Scientific Publications of the University of Toulouse II Le Mirail

Open Archive Toulouse Archive Ouverte

Institut National Polytechnique de Toulouse (Theses)

Fouille de données : vers une nouvelle approche intégrant de façon cohérente et transparente la composante spatiale

Author: Ouattara Mamadou
Publication venue: Bibliotheque de l' Universite Laval
Publication date: 01/01/2010
Field of study

Depuis quelques décennies, on assiste à une présence de plus en plus accrue de l’information géo-spatiale au sein des organisations. Cela a eu pour conséquence un stockage massif d’informations de ce type. Ce phénomène, combiné au potentiel d’informations que renferment ces données, on fait naître le besoin d’en apprendre davantage sur elles, de les utiliser à des fins d’extraction de connaissances qui puissent servir de support au processus de décision de l’entreprise. Pour cela, plusieurs approches ont été envisagées dont premièrement la mise à contribution des outils de fouille de données « traditionnelle ». Mais face à la particularité de l’information géo-spatiale, cette approche s’est soldée par un échec. De cela, est apparue la nécessité d’ériger le processus d’extraction de connaissances à partir de données géographiques en un domaine à part entière : le Geographic Knowlegde Discovery (GKD). La réponse à cette problématique, par le GKD, s’est traduite par la mise en œuvre d’approches qu’on peut catégoriser en deux grandes catégories: les approches dites de prétraitement et celles de traitement dynamique de l’information spatiale. Pour faire face aux limites de ces méthodes et outils nous proposons une nouvelle approche intégrée qui exploite l’existant en matière de fouille de données « traditionnelle ». Cette approche, à cheval entre les deux précédentes vise comme objectif principal, le support du type géo-spatial à toutes les étapes du processus de fouille de données. Pour cela, cette approche s’attachera à exploiter les relations usuelles que les entités géo-spatiales entretiennent entre elles. Un cadre viendra par la suite décrire comment cette approche supporte la composante spatiale en mettant à contribution des bibliothèques de traitement de la donnée géo-spatiale et les outils de fouille « traditionnelle »In recent decades, geospatial data has been more and more present within our organization. This has resulted in massive storage of such information and this, combined with the learning potential of such information, gives birth to the need to learn from these data, to extract knowledge that can be useful in supporting decision-making process. For this purpose, several approaches have been proposed. Among this, the first has been to deal with existing data mining tools in order to extract any knowledge of such data. But due to a specificity of geospatial information, this approach failed. From this arose the need to erect the process of extracting knowledge from geospatial data in its own right; this lead to Geographic Knowledge Discovery. The answer to this problem, by GKD, is reflected in the implementation of approaches that can be categorized into two: the so-called pre-processing approaches and the dynamic treatment of spatial relationships. Given the limitations of these approaches we propose a new approach that exploits the existing data mining tools. This approach can be seen as a compromise of the two previous. It main objective is to support geospatial data type during all steps of data mining process. To do this, the proposed approach will exploit the usual relationships that geo-spatial entities share each other. A framework will then describe how this approach supports the spatial component involving geo-spatial libraries and "traditional" data mining tool

CorpusUL

Identification d'indicateurs stratégiques dans les documents

Author: Hasnaoui Ali
Publication venue
Publication date: 01/01/2019
Field of study

Dépôt numérique de UQTR

Comprendre et manipuler les données ouvertes de l'administration publique : la situation au Gouvernement du Québec et à la Ville de Montréal

Author: Dickner Nicolas
Publication venue
Publication date: 01/04/2017
Field of study

Ce mémoire cherche à faire le point sur l’ouverture des données de l’administration publique, qui s’est généralisée depuis de 2009. Les données ouvertes s’inscrivent dans le mouvement du droit d’accès à l’information, mais se caractérisent par leur caractère proactif : plutôt que d’être diffusée à la demande, les données ouvertes sont divulguées en ligne, généralement regroupées sur un portail. L’ouverture des données vise plusieurs objectifs, dont notamment l’instauration d’un régime de transparence au sein de l’administration publique, et la stimulation de l’activité économique et de la participation citoyenne. Les applications des données ouvertes ont surtout été logicielles, mais nous avons repéré plusieurs sources qui démontrent le potentiel analytique du phénomène. Pour ce faire, les données doivent néanmoins répondre à plusieurs conditions : format, qualité et couverture appropriés, licence adéquate, etc. Nous avons examiné les politiques et pratiques sur deux sites québécois — Données Québec et le portail de données ouvertes de la ville de Montréal — afin de voir si ces conditions étaient respectées. Bien que la situation soit essentiellement convenable, nous avons noté certaines pratiques susceptibles de nuire à la réutilisation des données. Afin d’exposer ces problèmes et de proposer des stratégies pour les résoudre, nous avons procédé à des opérations de nettoyage et d’intégration de données. Nous expliquerons enfin l’intérêt analytique du croisement de plusieurs sources de données, en dépit des difficultés que présente cette approche.The goal of this masters thesis is to assess the opening of public sector data, a phenomenon that became widespread since 2009. Open data stem from the freedom of information movement, with however a proactive dimension : rather than being provided on demand, open data are published online and usually centralized on a portal. Open data have several goals, in particular the promotion of transparency within the public sector, and the stimulation of both economic activity and civic participation. Open data have been mostly used to create software applications, but we found several sources that demonstrate the analytic potential of the phenomenon. However, to realize this potential, open data must comply with several conditions, such as appropriate format, quality and coverage, adequate user license, etc. We looked into the policies and practices of two Quebec portals — Données Québec and Montreal City open data portal — to see if these conditions were met. While the overall situation was acceptable, we noted some practices that could be detrimental to the reuse of data. In order to illustrate these problems and offer possible strategies to solve them, we performed data cleaning and integration. Finally, we explain the analytic gain of the data integration, despite the difficulties of the operation

Dépôt Institutionnel Numérique

Modélisation des informations et extraction des connaissances pour la gestion des crises

Author: Traoré Boukaye Boubacar
Publication venue
Publication date: 23/11/2018
Field of study

L’essor des technologies émergentes de collecte de données offre des opportunités nouvelles pour diverses disciplines scientifiques. L’informatique est appelé à jouer sa partition par le développement de techniques d’analyse intelligente des données pour apporter un certain éclairage dans la résolution de problèmes complexes. Le contenu de ce mémoire de recherche doctorale s’inscrit dans la problématique générale de l’extraction des connaissances à partir de données par les techniques informatiques. Ce travail de thèse s’intéresse dans un premier temps à la problématique de la modélisation des informations pour la gestion de crise nécessitant des prises en charge médicale, à l’aide d’une collaboration des applications informatiques de la télémédecine. Nous avons proposé une méthodologie de gestion d’une crise à distance en trois étapes. Elle est principalement axée sur la collaboration des actes de télémédecine (Téléconsultation, Téléexpertise, Télésurveillance, Téléassistance, et la Régulation médicale), de la phase de transport des victimes à la phase de traitements médicaux dans et/ou entre les structures de santé. Cette méthodologie permet non seulement de mettre à la disposition des gestionnaires de crise un système d'aide à la décision informatisé, mais aussi de minimiser les coûts financiers et réduire le temps de réponse des secours à travers une gestion organisée de la crise. Dans un deuxième temps, nous avons étudié en détail l’extraction de la connaissance à l’aide des techniques de data mining sur les images satellitaires afin de découvrir des zones à risques d’épidémie, dont l’étude de cas a porté sur l’épidémie de choléra dans la région de Mopti, au Mali. Ainsi, une méthodologie de six phases a été présentée en mettant en relation les données collectées sur le terrain et les données satellitaires pour prévenir et surveiller plus efficacement les crises d’épidémie. Les résultats nous indiquent qu’à 66% le taux de contamination est lié au fleuve Niger, en plus de certains facteurs sociétaux comme le jet des ordures en période hivernale. Par conséquent, nous avons pu établir le lien entre l’épidémie et son environnement d’évolution, ce qui permettra aux décideurs de mieux gérer une éventuelle crise d’épidémie. Et enfin, en dernier lieu, pendant une situation de crise d’épidémie, nous nous sommes focalisés sur l’analyse médicale, plus précisément par l’usage des microscopes portables afin de confirmer ou non la présence des agents pathogènes dans les prélèvements des cas suspects. Pour ce faire, nous avons présenté une méthodologie de six phases, basée sur les techniques du deep learning notamment l’une des techniques des réseaux de neurones convolutifs, l’apprentissage par transfert qui tirent parti des systèmes complexes avec des invariants permettant la modélisation et l'analyse efficace de grandes quantités de données. Le principe consiste à entraîner les réseaux de neurones convolutifs à la classification automatique d’images des agents pathogènes. Par exemple dans notre cas d’étude, cette approche a été utilisée pour distinguer une image microscopique contenant le virus de l’épidémie de choléra appelé Vibrio cholerae d’une image microscopique contenant le virus de l’épidémie du paludisme appelé Plasmodium. Ceci nous a permis d’obtenir un taux de réussite de classification de 99%. Par la suite, l’idée est de déployer cette solution de reconnaissance d’images d’agents pathogènes dans les microscopes portables intelligents pour les analyses de routine et applications de diagnostic médical dans la gestion de situations de crise. Ce qui permettra de combler le manque de spécialistes en manipulation microscopique et un gain de temps considérable dans l’analyse des prélèvements avec des mesures précises favorisant l’accomplissement du travail dans de meilleures conditions

Thèses en Ligne

Open Archive Toulouse Archive Ouverte

Visualisation de données dans le domaine de l’E-recrutement

Author: Outerqiss Abdessamad
Publication venue
Publication date: 01/12/2016
Field of study

La récente profusion des données, communément appelée Big Data, nécessite une analyse pertinente de ces larges volumes de données afin d’en tirer l’information utile nécessaire à la prise de décision. La visualisation de données se révèle à cet égard un moyen efficace pour transmettre cette information de façon interactive et synthétique. Le travail décrit dans ce mémoire qui constitue un volet du projet BPP, collaboration entre le RALI et la société LittleBigJob (LBJ), vise à répondre à ce besoin par l’implémentation d’un tableau de bord permettant la visualisation des offres d’emploi sur le web. Ces offres étant composées de plusieurs sections : titre de l’offre, compagnie qui recrute, description de l’offre, etc. Certaines informations contenues dans la description de l’offre ne peuvent pas être extraites directement. Ainsi, pour l’extraction des compétences citées dans une offre, nous utilisons les techniques de l’apprentissage automatique et plus particulièrement les champs markoviens conditionnels (CRF) utilisés pour l’étiquetage des séquences. Les expériences menées visent également à tester la capacité de ces modèles à trouver ces compétences dans la description de l’offre avec un ensemble d’entraînement partiellement étiqueté, d’une part parce que nous ne disposons pas d’une liste complète de compétences nécessaire à l’étiquetage, et d’autre part, parce que de nouvelles compétences apparaissent continuellement.The large amount of data available nowadays, so-called Big Data, requires a relevant analysis to derive information and get insights for decision making. Data visualization is an effective way to convey this information interactively and synthetically. This work, which is part of BPP Project, a collaboration between the RALI and LBJ, aims to meet this need by implementing a dashboard for visualization of job offers on the web. These offers consist of several sections: title, company, description, etc. Some information contained in the description cannot be extracted directly. Thus, for the extraction of skills from the description of an offer, we use machine learning techniques, especially Conditional Random Fields (CRF) used for sequence labeling. We also tested the ability of those models to find skills in the description of the offer with partial labeled training dataset, as we do not have a complete list of skills required for labeling, and also because new skills appear constantly

Dépôt Institutionnel Numérique