28 research outputs found

    VizAssist (un assistant utilisateur pour le choix et le paramétrage des méthodes de fouille visuelle de données)

    Get PDF
    Nous nous intéressons dans cette thèse au problème de l automatisation du processus de choix et de paramétrage des visualisations en fouille visuelle de données. Pour résoudre ce problème, nous avons développé un assistant utilisateur "VizAssist" dont l objectif principal est de guider les utilisateurs (experts ou novices) durant le processus d exploration et d analyse de leur ensemble de données. Nous illustrons, l approche sur laquelle s appuie VizAssit pour guider les utilisateurs dans le choix et le paramétrage des visualisations. VizAssist propose un processus en deux étapes. La première étape consiste à recueillir les objectifs annoncés par l utilisateur ainsi que la description de son jeu de données à visualiser, pour lui proposer un sous ensemble de visualisations candidates pour le représenter. Dans cette phase, VizAssist suggère différents appariements entre la base de données à visualiser et les visualisations qu il gère. La seconde étape permet d affiner les différents paramétrages suggérés par le système. Dans cette phase, VizAssist utilise un algorithme génétique interactif qui a pour apport de permettre aux utilisateurs d évaluer et d ajuster visuellement ces paramétrages. Nous présentons enfin les résultats de l évaluation utilisateur que nous avons réalisé ainsi que les apports de notre outil à accomplir quelques tâches de fouille de données.In this thesis, we deal with the problem of automating the process of choosing an appropriate visualization and its parameters in the context of visual data mining. To solve this problem, we developed a user assistant "VizAssist" which mainly assist users (experts and novices) during the process of exploration and analysis of their dataset. We illustrate the approach used by VizAssit to help users in the visualization selection and parameterization process. VizAssist proposes a process based on two steps. In the first step, VizAssist collects the user s objectives and the description of his dataset, and then proposes a subset of candidate visualizations to represent them. In this step, VizAssist suggests a different mapping between the database for representation and the set of visualizations it manages. The second step allows user to adjust the different mappings suggested by the system. In this step, VizAssist uses an interactive genetic algorithm to allow users to visually evaluate and adjust such mappings. We present finally the results that we have obtained during the user evaluation that we performed and the contributions of our tool to accomplish some tasks of data mining.TOURS-Bibl.électronique (372610011) / SudocSudocFranceF

    Algorithmes automatiques pour la fouille visuelle de données et la visualisation de règles d’association : application aux données aéronautiques

    Get PDF
    Depuis quelques années, nous assistons à une véritable explosion de la production de données dans de nombreux domaines, comme les réseaux sociaux ou le commerce en ligne. Ce phénomène récent est renforcé par la généralisation des périphériques connectés, dont l'utilisation est devenue aujourd'hui quasi-permanente. Le domaine aéronautique n'échappe pas à cette tendance. En effet, le besoin croissant de données, dicté par l'évolution des systèmes de gestion du trafic aérien et par les événements, donne lieu à une prise de conscience sur leur importance et sur une nouvelle manière de les appréhender, qu'il s'agisse de stockage, de mise à disposition et de valorisation. Les capacités d'hébergement ont été adaptées, et ne constituent pas une difficulté majeure. Celle-ci réside plutôt dans le traitement de l'information et dans l'extraction de connaissances. Dans le cadre du Visual Analytics, discipline émergente née des conséquences des attentats de 2001, cette extraction combine des approches algorithmiques et visuelles, afin de bénéficier simultanément de la flexibilité, de la créativité et de la connaissance humaine, et des capacités de calculs des systèmes informatiques. Ce travail de thèse a porté sur la réalisation de cette combinaison, en laissant à l'homme une position centrale et décisionnelle. D'une part, l'exploration visuelle des données, par l'utilisateur, pilote la génération des règles d'association, qui établissent des relations entre elles. D'autre part, ces règles sont exploitées en configurant automatiquement la visualisation des données concernées par celles-ci, afin de les mettre en valeur. Pour cela, ce processus bidirectionnel entre les données et les règles a été formalisé, puis illustré, à l'aide d'enregistrements de trafic aérien récent, sur la plate-forme Videam que nous avons développée. Celle-ci intègre, dans un environnement modulaire et évolutif, plusieurs briques IHM et algorithmiques, permettant l'exploration interactive des données et des règles d'association, tout en laissant à l'utilisateur la maîtrise globale du processus, notamment en paramétrant et en pilotant les algorithmes. ABSTRACT : In the past few years, we have seen a large scale data production in many areas, such as social networks and e-business. This recent phenomenon is enhanced by the widespread use of devices, which are permanently connected. The aeronautical field is also involved in this trend. Indeed, its growing need for data, which is driven by air trafic management systems evolution and by events, leads to a widescale focus on its key role and on new ways to manage it. It deals with storage, availability and exploitation. Data hosting capacity, that has been adapted, is not a major challenge. The issue is now in data processing and knowledge extraction from it. Visual Analytics is an emerging field, stemming from the September 2001 events. It combines automatic and visual approaches, in order to benefit simultaneously from human flexibility, creativity and knowledge, and also from processing capacities of computers. This PhD thesis has focused on this combination, by giving to the operator a centered and decisionmaking role. On the one hand, the visual data exploration drives association rules extraction. They correspond to links between the data. On the other hand, these rules are exploited by automatically con_gurating the visualization of the concerned data, in order to highlight it. To achieve this, a bidirectional process has been formalized, between data and rules. It has been illustrated by air trafic recordings, thanks to the Videam platform, that we have developed. By integrating several HMI and algorithmic applications in a modular and upgradeable environment, it allows interactive exploration of both data and association rules. This is done by giving to human the mastering of the global process, especially by setting and driving algorithms

    La géomatique au service de l'archéologie de terrain : la solution Arch-Tablet

    Get PDF
    L'étude du processus actuel d'acquisition, de gestion et d'analyse des données, en particulier de la donnée géospatiale, sur un chantier de fouille archéologique, met en évidence des lacunes importantes : imprécision, lenteur, redondance, etc. Le SIG apparaît pour beaucoup comme une solution utile et pertinente. Pourtant, si les SIG soulèvent l'enthousiasme de la communauté archéo-informatique, les archéologues de terrain se montrent quant à eux beaucoup plus prudents, voir réticents, à l'idée d'introduire ces technologies sur les chantiers. Ce constat est à la base du questionnement général de cette recherche. Il relance la discussion sur la manière d'introduire efficacement les savoir-faire géomatiques au sein d'une organisation, ici plus spécifiquement au sein d'un chantier de fouille archéologique. L'objectif de cette recherche consiste à montrer que la conception et le développement participatif d'une solution logicielle géomatique nomade peut soutenir efficacement la géomatisation ± acceptée ¿ du processus d'acquisition des données lors de la fouille. Un prototype logiciel, baptisé Arch-Tablet, a ainsi été conçu et développé suivant une démarche participative centrée sur l'utilisateur. Il a ensuite été testé auprès des archéologues de Parcs Canada, en charge de la fouille du site de l'ancien château de St-Louis, situé sous les planches de la terrasse Dufferin, à Québec. Ces derniers ont accepté de s'investir comme partenaires du projet Archéogéomatique en général et de cette recherche en particulier, en nous accordant un droit de visite sur leur chantier et en nous consacrant, à la demande, un peu de leur temps. Des tests ont été menés sur le terrain dans un premier temps, puis en laboratoire dans un second temps. Les résultats obtenus démontrent, d'un point de vue technologique, que la solution répond efficacement aux différentes faiblesses qui avaient été préalablement identifiées au niveau du processus actuel d'acquisition des données. Par ailleurs, d'un point de vue méthodologique, les commentaires recueillis auprès des archéologues démontrent clairement que la solution a été bien acceptée sur le plan humain. L'alternative proposée par cette recherche s'avère donc prometteuse

    Caractérisation de visualisations et exploration interactive de grandes quantités de données multidimensionnelles

    Get PDF
    A great number of activities use IS (Information Systems) relying on interactive graphic visualizations. As a vector for the transmission of information, these visualizations aim at optimizing the bandwidth between the user and the visual information. To create effective visualizations, designers use methods based on their expertise and user tests. These methods affect the design process, they are time consuming, and they do not rely on specific detailed theories, which could avoid, in advance, errors of conception. In order to better study these visualizations, we propose to characterize them, which means to systematically number and define their properties explaining all the visual phenomena that enable transmission of information. The thesis that we hold to, consists in saying that the characterization of a visualization is important for their conception, and that their exploitation in the light of these methods and tools enable the creation of better interactive systems. Thus, we have determined that a characterization is composed of two elements: its contents and the way in which its content take form. We will show that the DataFlow model, a model that usually permits the description of the construction of the visualization, does not accomplish a sufficiently complete characterization. We will propose other models enabling characterization of the dynamic aspects, emerging information (notably those issuing from so-called "ecological" design) and especially graphic accumulation. In using visualization issuing from the milieu of air transportation, we will show how the characterization enables the understanding of their similarities and differences, to remove the ambiguities from the communication between designers and to conceive of, for example, a new schematic visualization of air routes. In addition, we have adapted the process to transform a collection of data into a visualization in the form of an exploration software of large numbers of multidimensional data. This software relies notably on an exploration of visual configuration and on a collection of original interactions with powerful implementation. FromDaDy (From Data to Display) enables the configuration and manipulation, in real-time, of rich and original visualizations, such as those using graphical accumulation.Un grand nombre d'activités utilise des outils informatisés s'appuyant sur des représentations graphiques interactives. En tant que vecteurs de transmission d'informations, ces visualisations visent à optimiser la bande passante entre le visuel et l'utilisateur. Pour créer des visualisations efficaces, les concepteurs utilisent des méthodes basées sur leur expertise et sur des tests utilisateurs. Ces méthodes altèrent le processus de design : elles sont chronophages et ne reposent pas sur des fondements théoriques précis qui pourraient éviter des erreurs de conception en amont. Afin de mieux étudier les visualisations, nous proposons de les caractériser, c'est-à-dire d'en énumérer et d'en définir systématiquement les propriétés, tout en explicitant les phénomènes visuels qui engendrent la transmission d'informations. La thèse que nous soutenons consiste à dire que la caractérisation des visualisations est importante pour leurs conceptions, et que son opérationnalisation par des méthodes et des outils permet de concevoir de meilleurs systèmes interactifs. Ainsi, nous avons déterminé qu'une caractérisation est composée de deux éléments : son contenu et sa mise en forme. Nous montrons que le modèle de Data Flow, modèle usuel permettant la description de la construction de visualisations, ne permet pas de les caractériser. Nous proposons d'autres modèles qui permettent de caractériser l'aspect dynamique, les informations émergentes (et notamment celles issues des visualisations dites "écologiques"), ainsi que l'accumulation graphique. En utilisant des visualisations issues du milieu du transport aérien, nous montrons comment la caractérisation permet de comprendre leurs similitudes et leurs différences, de lever les ambiguïtés de communication entre concepteurs, et de concevoir, par exemple, une nouvelle visualisation schématique de routes aériennes. Enfin, nous avons réifié le processus de transformation d'un ensemble de données vers une visualisation sous la forme d'un logiciel d'exploration et de visualisation de grandes quantités de données multidimensionnelles : From Data To Display (FromDaDy). Ce logiciel s'appuie notamment sur l'exploration des configurations visuelles, et sur un ensemble d'interactions originales avec une implémentation performante. FromDady permet de configurer et de manipuler en temps réel des visualisations riches et originales, comme celles utilisant l'accumulation

    Complexification des données et des techniques en linguistique : contributions du TAL aux solutions et aux problèmes

    Get PDF
    Ce mémoire d'habilitation est l'occasion de faire le bilan de mon activité d'enseignant-chercheur en traitement automatique des langues (TAL) dans un laboratoire de linguistique (CLLE-ERSS) et des principales évolutions de l'outillage informatique de la linguistique au cours des 15 dernières années. Mes recherches portent notamment sur le repérage de structures morphosyntaxiques dans les textes, l'analyse des structures du discours et l'acquisition de ressources lexicales à partir de corpus. Certaines se positionnent dans des cadres applicatifs comme la recherche d'information et la classification de textes, mais aussi dans des contextes plus spécifiques en lien avec d'autres disciplines (médecine, psychologie, sociologie...). En m'appuyant sur la diversité de ces travaux et de mes collaborations, j'identifie quatre dimensions d'évolution principales : - l'augmentation de la masse de données langagières disponibles et notamment la part croissante de l'utilisation du Web comme corpus ; - la complexification de l'outillage informatique disponible pour gérer la masse et la variété des données accessibles (outils de constitution et d'interrogation de corpus) ; - la complexification de l'annotation des données langagières, qu'elle soit manuelle, assistée ou automatique ; - la montée en puissance, en TAL mais aussi en linguistique descriptive, des méthodes quantitatives (depuis l'analyse statistique jusqu'aux techniques de fouille de données et d'apprentissage). Si les avancées techniques du TAL ont permis d'accroître de façon conséquente les potentialités d'investigation du matériau langagier, et dans certains cas de dégager de nouveaux questionnements, elles ont aussi contribué à creuser un fossé entre les deux composantes (informatique et linguistique) de la discipline. A travers ma propre expérience d'acteur ou d'accompagnateur de ces changements et avec une vocation de "passeur" interdisciplinaire, je cherche à dégager les principaux enjeux actuels pour la linguistique outillée : - doter la linguistique descriptive d'outils de visualisation de données pour aborder la complexité, en exploitant les avancées théoriques et techniques de ce nouveau champ disciplinaire et en les adaptant aux spécificités du matériau langagier ; - rendre abordables aux linguistes les techniques fondamentales de l'analyse statistique, mais aussi les méthodes d'apprentissage artificiel seules capables d'assister l'investigation et l'exploitation de données massives et complexes ; - replacer la linguistique au sein des développements actuels du TAL, notamment par le biais de l'utilisation de descripteurs linguistiques riches dans les outils de traitement par apprentissage, pour un bénéfice mutuel

    Actes des 29es Journées Francophones d'Ingénierie des Connaissances, IC 2018

    Get PDF
    International audienc

    Aide à la décision exploitant de la connaissance générale etcontextuelle (application à la maintenance d'hélicoptère)

    Get PDF
    Les travaux présentés dans cette thèse ont pour objectif de contribuer à l élaboration d un outil d aide à la décision en conception exploitant de la connaissance générale et de la connaissance contextuelle. L exploitation de la connaissance générale est effectuée à l aide d un moteur de filtrage de contraintes et l exploitation de la connaissance contextuelle repose sur des principes issus du raisonnement à partir de cas et du data-mining. Le résultat principal est basé sur une notion de contrainte dite "contextuelle". L idée forte revient à paramétrer une contrainte en fonction du contexte dans lequel celle-ci doit être filtrée. Suivant le niveau de confiance caractérisant la connaissance contextuelle, cette contrainte pourra soit être propagée de manière autonome dans le moteur de filtrage soit être utilisée pour fournir une forme de conseil à l utilisateur du système d aide. Nous proposons pour identifier le contexte d emploi de la contrainte d utiliser le principe de recherche par similarité très largement utilisé dans les travaux portant sur le raisonnement à partir de cas. Afin de compléter ou d affiner les informations résultant du filtrage de cette contrainte contextuelle, nous utilisons des algorithmes de comptage issus du data-mining pour fournir des fréquences d apparition caractérisant une forme de confiance dans le résultat. Nos travaux s inscrivent dans le cadre d un projet FUI portant sur la maintenance d hélicoptère. Le but de notre outil est d estimer au mieux la charge, le cycle, les coûts des activités opérationnelles de maintenance d un hélicoptère. L originalité des travaux est de considérer d une part les connaissances constructeurs (connaissance générale) pour déterminer une première estimation puis de la corriger suivant les conditions d utilisation effective de l hélicoptère (connaissance contextuelle).The works presented in this thesis aims to contribute to the development of a tool for design decision support exploiting general knowledge and contextual knowledge. The use of general knowledge is performed using a constraint filtering engine the exploitation of contextual knowledge is based on principles derived from case-based reasoning and data mining. The main result relies on a constraint notion called "contextual constraint". The principal idea consists to parameterize a constraint with respect to a context where it must be filtered. Depending on the level of confidence characterizing contextual knowledge, this constraint may either be propagated independently by a filtering engine or being used to provide help to the user. We propose in order to identify the context of the constraint to use the principle of similarity search widely used in case-based reasoning. To complete or refine the information resulting from this constraint contextual filtering, we use counting algorithms developed for data-mining to quantify the occurrence characterizing a kind of confidence in the result. Our work is based on a FUI project relating to helicopter maintenance. The aim of this tool is to better estimate the charge, the cycle, the operational costs of maintenance of an helicopter. The originality of this work is to consider both the manufacturers knowledge (general knowledge) to determine an initial estimate and then to correct it according to the conditions of effective use of the helicopter (contextual knowledge).TOULOUSE-INP (315552154) / SudocSudocFranceF

    Recherche d'information et contexte

    Get PDF
    My research work is related the field of Information Retrieval (IR) whose objective is to enable a user to find information that meets its needs within a large volume of information. The work in IR have focused primarily on improving information processing in terms of indexing to obtain optimal representations of documents and queries and in terms of matching between these representations. Contributions have long made no distinction between all searches assuming a unique type of search and when proposing a model intended to be effective for this unique type of search. The growing volume of information and diversity of situations have marked the limits of existing IR approaches bringing out the field of contextual IR. Contextual IR aims to better respond to users' needs taking into account the search context. The principle is to differentiate searches by integrating in the IR process, contextual factors that will influence the IRS effectiveness. The notion of context is broad and refers to all knowledge related to information conducted by a user querying an IRS. My research has been directed toward taking into account the contextual factors that are: the domain of information, the information structure and the user. The first three directions of my work consist in proposing models that incorporate each of these elements of context, and a fourth direction aims at exploring how to adapt the process to each search according to its context. Various European and national projects have provided application frameworks for this research and have allowed us to validate our proposals. This research has also led to development of various prototypes and allowed the conduct of PhD theses and research internships.Mes travaux de recherche s'inscrivent dans le domaine de la recherche d'information (RI) dont l'objectif est de permettre à un utilisateur de trouver de l'information répondant à son besoin au sein d'un volume important d'informations. Les recherches en RI ont été tout d'abord orientées système. Elles sont restées très longtemps axées sur l'appariement pour évaluer la correspondance entre les requêtes et les documents ainsi que sur l'indexation des documents et de requêtes pour obtenir une représentation qui supporte leur mise en correspondance. Cela a conduit à la définition de modèles théoriques de RI comme le modèle vectoriel ou le modèle probabiliste. L'objectif initialement visé a été de proposer un modèle de RI qui possède un comportement global le plus efficace possible. La RI s'est longtemps basée sur des hypothèses simplificatrices notamment en considérant un type unique d'interrogation et en appliquant le même traitement à chaque interrogation. Le contexte dans lequel s'effectue la recherche a été ignoré. Le champ d'application de la RI n'a cessé de s'étendre notamment grâce à l'essor d'internet. Le volume d'information toujours plus important combiné à une utilisation de SRI qui s'est démocratisée ont conduit à une diversité des situations. Cet essor a rendu plus difficile l'identification des informations correspondant à chaque besoin exprimé par un utilisateur, marquant ainsi les limites des approches de RI existantes. Face à ce constat, des propositions ont émergé, visant à faire évoluer la RI en rapprochant l'utilisateur du système tels que les notions de réinjection de pertinence utilisateur ou de profil utilisateur. Dans le but de fédérer les travaux et proposer des SRI offrant plus de précision en réponse au besoin de l'utilisateur, le domaine de la RI contextuelle a récemment émergé. L'objectif est de différencier les recherches au niveau des modèles de RI en intégrant des éléments de contexte susceptibles d'avoir une influence sur les performances du SRI. La notion de contexte est vaste et se réfère à toute connaissance liée à la recherche de l'utilisateur interrogeant un SRI. Mes travaux de recherche se sont orientés vers la prise en compte des éléments de contexte que sont le domaine de l'information, la structure de l'information et l'utilisateur. Ils consistent, dans le cadre de trois premières orientations, à proposer des modèles qui intègrent chacun de ces éléments de contexte, et, dans une quatrième orientation, d'étudier comment adapter les processus à chaque recherche en fonction de son contexte. Différents projets européens et nationaux ont servi de cadre applicatifs à ces recherches et ainsi à valider nos propositions. Mes travaux de recherche ont également fait l'objet de développements dans différents prototypes et ont permis le déroulement de thèses de doctorat et stages de recherche

    Méthodologie d'identification et d'évaluation de la sûreté de fonctionnement en phase de réponse à appel d'offre

    Get PDF
    La sûreté de fonctionnement (SdF) des produits, processus et services est une préoccupation permanente de tous les acteurs industriels. C'est le cas notamment dans le secteur automobile à l'exemple des équipementiers confrontés à des clients de plus en plus exigeants en matière de sûreté de fonctionnement. Jusqu'alors uniquement intéressé par les résultats, le client requiert aujourd'hui, dès les négociations couplées à l'appel d'offre (AO), une information précise sur la démarche même que le fournisseur prévoit de mettre en place pour satisfaire aux exigences SdF. Conscients de ces nouveaux besoins, nous nous sommes intéressés à la problématique d'identification de la "dimension SdF" du produit au stade de l'AO et à l'évaluation de l'impact économique de son intégration sur le développement futur du produit. Les conséquences de la prise en compte de la SdF sont doubles puisqu'elles concernent à la fois le produit qui voit sa robustesse optimisée mais aussi la démarche d'analyse permettant de dimensionner les solutions appropriées. Dans l'objectif de répondre à la problématique, nous avons proposé une organisation du processus de réponse à appel d'offre en différentes étapes instrumentées allant de l'identification des éléments relatifs à la SdF dans les documents clients fournis pour l'AO à la définition et à l'évaluation de l'impact SdF.Products Dependability, process and services is a major and permanent topic for industrial actors and especially in automotive industry, where products suppliers are faced to customers more and more aware about dependability. Until now, Customers was only interested about results, they request today, in bid process timeframe, informations about processes put in place in order to reach dependability objectives. Taking these new requirements into accounts, we have focused our work on dependability identification during bid process and the evaluation its cost impact on development. Taking dependability into account allow to increase product robustness but also to make better design choice in term of dependability. Thus, in order to reach this objective, we propose a step by step process for bid phases from dependability topics identification to cost impact.TOULOUSE-INP (315552154) / SudocSudocFranceF
    corecore