753 research outputs found

    Conception itérative et semi-supervisée d'assistants conversationnels par regroupement interactif des questions

    Get PDF
    National audienceThe design of a dataset needed to train a chatbot is most often the result of manual and tedious step. To guarantee the efficiency and objectivity of the annotation, we propose an active learning method based on constraints annotation. It’s an iterative approach, relying on a clustering algorithm to segment data and using annotator knowledge to lead clustering from unlabeled question to relevant intents structure. In this paper, we study the optimal modeling parameters to get an exploitable dataset with a minimum of annotations, and show that this approach allows to make a coherent structure for the training of a chatbot.La création d’un jeu de données pour l’entrainement d’un chatbot repose sur un a priori de connaissance du domaine. En conséquence, cette étape est le plus souvent manuelle, fastidieuse et soumise aux biais. Pour garantir l’efficacité et l’objectivité de l’annotation, nous proposons une méthodologie d’apprentissage actif par annotation de contraintes. Il s’agit d’une approche itérative, reposant sur un algorithme de clustering pour segmenter les données et tirant parti de la connaissance de l’annotateur pour guider le regroupement des questions en une structure d’intentions. Dans cet article, nous étudions les paramètres optimaux de modélisation pour réaliser une segmentation exploitable en un minimum d’annotations, et montrons que cette approche permet d’aboutir à une structure cohérente pour l’entrainement d’un assistant conversationnel

    VizAssist (un assistant utilisateur pour le choix et le paramétrage des méthodes de fouille visuelle de données)

    Get PDF
    Nous nous intéressons dans cette thèse au problème de l automatisation du processus de choix et de paramétrage des visualisations en fouille visuelle de données. Pour résoudre ce problème, nous avons développé un assistant utilisateur "VizAssist" dont l objectif principal est de guider les utilisateurs (experts ou novices) durant le processus d exploration et d analyse de leur ensemble de données. Nous illustrons, l approche sur laquelle s appuie VizAssit pour guider les utilisateurs dans le choix et le paramétrage des visualisations. VizAssist propose un processus en deux étapes. La première étape consiste à recueillir les objectifs annoncés par l utilisateur ainsi que la description de son jeu de données à visualiser, pour lui proposer un sous ensemble de visualisations candidates pour le représenter. Dans cette phase, VizAssist suggère différents appariements entre la base de données à visualiser et les visualisations qu il gère. La seconde étape permet d affiner les différents paramétrages suggérés par le système. Dans cette phase, VizAssist utilise un algorithme génétique interactif qui a pour apport de permettre aux utilisateurs d évaluer et d ajuster visuellement ces paramétrages. Nous présentons enfin les résultats de l évaluation utilisateur que nous avons réalisé ainsi que les apports de notre outil à accomplir quelques tâches de fouille de données.In this thesis, we deal with the problem of automating the process of choosing an appropriate visualization and its parameters in the context of visual data mining. To solve this problem, we developed a user assistant "VizAssist" which mainly assist users (experts and novices) during the process of exploration and analysis of their dataset. We illustrate the approach used by VizAssit to help users in the visualization selection and parameterization process. VizAssist proposes a process based on two steps. In the first step, VizAssist collects the user s objectives and the description of his dataset, and then proposes a subset of candidate visualizations to represent them. In this step, VizAssist suggests a different mapping between the database for representation and the set of visualizations it manages. The second step allows user to adjust the different mappings suggested by the system. In this step, VizAssist uses an interactive genetic algorithm to allow users to visually evaluate and adjust such mappings. We present finally the results that we have obtained during the user evaluation that we performed and the contributions of our tool to accomplish some tasks of data mining.TOURS-Bibl.électronique (372610011) / SudocSudocFranceF

    Classification interactive multi-label pour l’aide à l’organisation personnalisée des données

    Get PDF
    The growing importance given today to personalized contents led to the development of several interactive classification systems for various novel applications. Nevertheless, all these systems use a single-label item classification which greatly constrains the user’s expressiveness. The major problem common to all developers of an interactive multi-label system is: which multi-label classifier should we choose? Experimental evaluations of recent interactive learning systems are mainly subjective. The importance of their conclusions is consequently limited. To draw more general conclusions for guiding the selection of a suitable learning algorithm during the development of such a system, we extensively study the impact of the major interactivity constraints (learning from few examples in a limited time) on the classifier predictive and time-computation performances. The experiments demonstrate the potential of an ensemble learning approach Random Forest of Predictive Clustering Trees (RF-PCT). However, the strong constraint imposed by the interactivity on the computation time has led us to propose a new hybrid learning approach FMDI-RF+ which associates RF-PCT with an efficient matrix factorization approach for dimensionality reduction. The experimental results indicate that RF-FMDI+ is as accurate as RF-PCT in the predictions with a significant advantage to FMDI-RF + for the speed of computation.L’importance croissante donnée actuellement aux contenus personnalisés a conduit au développement de plusieurs systèmes de classification interactive pour diverses applications originales. Néanmoins, tous ces systèmes recourent à une classification mono-label des items qui limite fortement l’expressivité de l’utilisateur. Le problème majeur commun à tous les développeurs d’un système de classification interactif et multi-label est : quel classifieur multi-label devrions-nous choisir ? Les évaluations expérimentales des systèmes d’apprentissage interactifs récents sont essentiellement subjectives. L’importance de leurs conclusions est donc limitée. Pour tirer des conclusions plus générales qui permettent de guider la sélection de l’algorithme d’apprentissage approprié lors du développement d’un tel système, nous étudions de manière approfondie l’impact des contraintes d’interactivité majeures (apprentissage à partir de peu d’exemples en un temps limité) sur les performances prédictives et les temps de calcul des classifieurs. Les expérimentations mettent en évidence le potentiel d’une approche d’apprentissage ensemble Random Forest of Predictive Clustering Trees (RF-PCT). Cependant, la forte contrainte sur le temps de calcul posée par l’interactivité, nous a conduits à proposer une nouvelle approche d’apprentissage hybride FMDI-RF+ qui associe RF-PCT avec une approche de factorisation de matrice efficace pour la réduction de dimensions. Les résultats expérimentaux indiquent que FMDI-RF+ est aussi précise que RF-PCT dans les prédictions avec clairement un avantage à FMDI-RF+ pour la vitesse de calcul

    Classification interactive multi-label pour l’aide à l’organisation personnalisée des données

    Get PDF
    The growing importance given today to personalized contents led to the development of several interactive classification systems for various novel applications. Nevertheless, all these systems use a single-label item classification which greatly constrains the user’s expressiveness. The major problem common to all developers of an interactive multi-label system is: which multi-label classifier should we choose? Experimental evaluations of recent interactive learning systems are mainly subjective. The importance of their conclusions is consequently limited. To draw more general conclusions for guiding the selection of a suitable learning algorithm during the development of such a system, we extensively study the impact of the major interactivity constraints (learning from few examples in a limited time) on the classifier predictive and time-computation performances. The experiments demonstrate the potential of an ensemble learning approach Random Forest of Predictive Clustering Trees (RF-PCT). However, the strong constraint imposed by the interactivity on the computation time has led us to propose a new hybrid learning approach FMDI-RF+ which associates RF-PCT with an efficient matrix factorization approach for dimensionality reduction. The experimental results indicate that RF-FMDI+ is as accurate as RF-PCT in the predictions with a significant advantage to FMDI-RF + for the speed of computation.L’importance croissante donnée actuellement aux contenus personnalisés a conduit au développement de plusieurs systèmes de classification interactive pour diverses applications originales. Néanmoins, tous ces systèmes recourent à une classification mono-label des items qui limite fortement l’expressivité de l’utilisateur. Le problème majeur commun à tous les développeurs d’un système de classification interactif et multi-label est : quel classifieur multi-label devrions-nous choisir ? Les évaluations expérimentales des systèmes d’apprentissage interactifs récents sont essentiellement subjectives. L’importance de leurs conclusions est donc limitée. Pour tirer des conclusions plus générales qui permettent de guider la sélection de l’algorithme d’apprentissage approprié lors du développement d’un tel système, nous étudions de manière approfondie l’impact des contraintes d’interactivité majeures (apprentissage à partir de peu d’exemples en un temps limité) sur les performances prédictives et les temps de calcul des classifieurs. Les expérimentations mettent en évidence le potentiel d’une approche d’apprentissage ensemble Random Forest of Predictive Clustering Trees (RF-PCT). Cependant, la forte contrainte sur le temps de calcul posée par l’interactivité, nous a conduits à proposer une nouvelle approche d’apprentissage hybride FMDI-RF+ qui associe RF-PCT avec une approche de factorisation de matrice efficace pour la réduction de dimensions. Les résultats expérimentaux indiquent que FMDI-RF+ est aussi précise que RF-PCT dans les prédictions avec clairement un avantage à FMDI-RF+ pour la vitesse de calcul

    Structuration de bases multimédia pour une exploration visuelle

    Get PDF
    The large increase in multimedia data volume requires the development of effective solutions for visual exploration of multimedia databases. After reviewing the visualization process involved, we emphasis the need of data structuration. The main objective of this thesis is to propose and study clustering and classification of multimedia database for their visual exploration.We begin with a state of the art detailing the data and the metrics we can produce according to the nature of the variables describing each document. Follows a review of the projection and classification techniques. We also present in detail the Spectral Clustering method.Our first contribution is an original method that produces fusion of metrics using rank correlations. We validate this method on an animation movie database coming from an international festival. Then we propose a supervised classification method based on rank correlation. This contribution is evaluated on a multimedia challenge dataset. Then we focus on Spectral Clustering methods. We test a supervised Spectral Clustering technique and compare to state of the art methods. Finally we examine active semi-supervised Spectral Clustering methods. In this context, we propose and validate constraint propagation techniques and strategies to improve the convergence of these active methods.La forte augmentation du volume de données multimédia impose la mise au point de solutions adaptées pour une exploration visuelle efficace des bases multimédia. Après avoir examiné les processus de visualisation mis en jeu, nous remarquons que ceci demande une structuration des données. L’objectif principal de cette thèse est de proposer et d’étudier ces méthodes de structuration des bases multimédia en vue de leur exploration visuelle.Nous commençons par un état de l’art détaillant les données et les mesures que nous pouvons produire en fonction de la nature des variables décrivant les données. Suit un examen des techniques de structuration par projection et classification. Nous présentons aussi en détail la technique du Clustering Spectral sur laquelle nous nous focaliserons ensuite.Notre première réalisation est une méthode originale de production et fusion de métriques par corrélation de rang. Nous testons cette première méthode sur une base multimédia issue de la vidéothèque d’un festival de films. Nous continuons ensuite par la mise au point d’une méthode de classification supervisée par corrélation que nous testons avec les données vidéos d’un challenge de la communauté multimédia. Ensuite nous nous focalisons sur les techniques du Clustering Spectral. Nous testons une technique de Clustering Spectral supervisée que nous comparons aux techniques de l’état de l’art. Et pour finir nous examinons des techniques du Clustering Spectral semi-supervisé actif. Dans ce contexte, nous proposons et validons des techniques de propagation d’annotations et des stratégies permettant d’améliorer la convergence de ces méthodes de classement

    Système interactif d'aide à la décision basé sur des algorithmes génétiques pour l'optimisation multi-objectifs

    Get PDF
    Dans de nombreux secteurs de l'industrie, les décideurs sont confrontés à des problèmes complexes, de grande dimension et multi-objectifs. Prendre une décision, pour ce genre de problèmes, nécessite en général l'optimisation simultanée de plusieurs objectifs souvent contradictoires. Malheureusement, la complexité des problèmes industriels, le nombre sans cesse croissant d'objectifs à optimiser simultanément et la rapidité des changements de l'environnement raccourcissent considérablement les délais de prise de décision tout en rendant cette tâche plus difficile pour les gestionnaires. Des outils informatiques comme les systèmes interactifs d'aide à la décision (SIAD) s'avèrent donc d'une grande utilité pour le décideur car ils favorisent une répartition évolutive des compétences entre l'utilisateur et la machine et offrent une bonne intégration de l'homme et de la machine dans le processus de décision. Les SIAD permettent donc au décideur d'évaluer la situation, les diverses alternatives et leurs impacts éventuels. Récemment, les techniques d'optimisation multi-objectifs à l'aide d'algorithmes évolutionnaires, et plus particulièrement d'algorithmes génétiques, suscitent de plus en plus d'intérêt auprès des chercheurs notamment à cause de leur faculté à exploiter de vastes espaces de recherche et à générer des compromis multiples en une seule étape d'optimisation. Les algorithmes génétiques tentent de simuler le processus de sélection naturelle dans un environnement hostile lié au problème à résoudre en s'inspirant des théories de l'évolution proposées par Darwin et des méthodes de combinaison de gènes introduites par Mendel. Ce mémoire propose d'intégrer les systèmes interactifs d'aide à la décision, l'optimisation multi-objectifs et les algorithmes génétiques afin de proposer un outil performant permettant la résolution de problèmes d'optimisation multi-objectifs. Dans le SIAD proposé, le traitement d'un problème multi-objectifs se fera en deux phases. La première phase consiste à approximer l'ensemble Pareto optimal. Cette étape sera réalisée à l'aide d'un nouvel algorithme génétique multi-objectifs hybride. Cette approche combine un algorithme génétique basé sur les concepts d'élitisme, de niche et de dominance Pareto avec des opérateurs de recherche locale. La deuxième phase utilise l'expérience du décideur afin d'approfondir la recherche dans une zone plus spécifique de l'ensemble pseudo Pareto Optimal en fonction des préférences exprimées par celui-ci. Pour cela, une approche générique de recherche de solutions de compromis est combinée avec un algorithme génétique. Le SIAD proposé est un outil flexible et facile d'utilisation grâce à son interface homme-machine conviviale. Cet outil ne constitue qu'un support à la prise de décision, la décision finale restant du ressort du planificateur. Un exemple d'application du SIAD proposé a été réalisé pour aborder un problème d'ordonnancement industriel rencontré dans une entreprise de production d'aluminium. Cette application montre bien l'intérêt pratique de ce genre de système. Bien qu'ayant produit des résultats très encourageants, ce travail de recherche représente surtout une première exploration des possibilités offertes par la combinaison de trois domaines de recherche en constante évolution : les SIAD, l'optimisation multi-objectifs et les algorithmes génétiques. L'union de ces trois champs de recherche laisse entrevoir des possibilités intéressantes pouvant mener à la conception de nouveaux outils de résolution permettant l'élaboration de scénarios pour éclairer la prise de décision. Ce travail peut donc être considéré comme une contribution vers l'élaboration et l'implantation de ce genre d'outils

    Améliorations aux systèmes à initiative partagée humain-ordinateur pour l'optimisation des systèmes linéaires

    Get PDF
    La programmation linéaire permet d’effectuer l’optimisation de la gestion des réseaux de création de valeur. Dans la pratique, la taille de ces problèmes demande l’utilisation d’un ordinateur pour effectuer les calculs nécessaires, et l’algorithme du simplexe, entre autres, permet d’accomplir cette tâche. Ces solutions sont cependant construites sur des modèles approximatifs et l’humain est généralement méfiant envers les solutions sorties de « boîtes noires ». Les systèmes à initiative partagée permettent une synergie entre, d’une part, l’intuition et l’expérience d’un décideur humain et, d’autre part, la puissance de calcul de l’ordinateur. Des travaux précédents au sein du FORAC ont permis l’application de cette approche à la planification tactique des opérations des réseaux de création de valeur. L’approche permettrait l’obtention de solutions mieux acceptées. Elle a cependant une interface utilisateur limitée et contraint les solutions obtenues à un sous-espace de l’ensemble des solutions strictement optimales. Dans le cadre de ce mémoire, les principes de conception d’interface humain-machine sont appliqués pour concevoir une interface graphique plus adaptée à l’utilisateur type du système. Une interface basée sur le modèle de présentation de données de l’outil Logilab, à laquelle sont intégrées les interactivités proposées par Hamel et al. est présentée. Ensuite, afin de permettre à l’expérience et à l’intuition du décideur humain de compenser les approximations faites lors de la modélisation du réseau de création de valeur sous forme de problème linéaire, une tolérance quant à l’optimalité des solutions est introduite pour la recherche interactive de solutions alternatives. On trouvera un nouvel algorithme d’indexation des solutions à combiner et une nouvelle heuristique de combinaison convexe pour permettre cette flexibilité. Afin d‘augmenter la couverture de l’espace solutions accessible au décideur humain, un algorithme de recherche interactive de solution basé sur le simplexe est introduit. Cet algorithme présente une stabilité similaire à la méthode de Hamel et al., mais ses performances en temps de calcul sont trop basses pour offrir une interactivité en temps réel sur de vrais cas industriels avec les ordinateurs présentement disponibles.Une seconde approche d’indexation complète de l’espace solutions est proposée afin de réduire les temps de calcul. Les nouveaux algorithmes « Linear Redundancyless Recursive Research » (Recherche linéaire récursive sans redondance, LRRR) pour la cartographie et l’indexation de l’espace solutions et « N-Dimension Navigation Direction » (direction de navigation à n-dimensions, NDND) pour l’exploration interactive de celui-ci sont présentés. Ces algorithmes sont justes et rapides, mais ont cependant un coût mémoire au-delà de la capacité des ordinateurs contemporains. Finalement, d’autres pistes d’exploration sont présentées, notamment l’exploitation des méthodes du point intérieur et de l’algorithme de Karmarkar ainsi qu’une ébauche d’approche géométrique

    Classification automatique pour la compréhension de la parole (vers des systèmes semi-supervisés et auto-évolutifs)

    Get PDF
    La compréhension automatique de la parole est au confluent des deux grands domaines que sont la reconnaissance automatique de la parole et l'apprentissage automatique. Un des problèmes majeurs dans ce domaine est l'obtention d'un corpus de données conséquent afin d'obtenir des modèles statistiques performants. Les corpus de parole pour entraîner des modèles de compréhension nécessitent une intervention humaine importante, notamment dans les tâches de transcription et d'annotation sémantique. Leur coût de production est élevé et c'est la raison pour laquelle ils sont disponibles en quantité limitée.Cette thèse vise principalement à réduire ce besoin d'intervention humaine de deux façons : d'une part en réduisant la quantité de corpus annoté nécessaire à l'obtention d'un modèle grâce à des techniques d'apprentissage semi-supervisé (Self-Training, Co-Training et Active-Learning) ; et d'autre part en tirant parti des réponses de l'utilisateur du système pour améliorer le modèle de compréhension.Ce dernier point touche à un second problème rencontré par les systèmes de compréhension automatique de la parole et adressé par cette thèse : le besoin d'adapter régulièrement leurs modèles aux variations de comportement des utilisateurs ou aux modifications de l'offre de services du systèmeTwo wide research fields named Speech Recognition and Machine Learning meet with the Automatic Speech Language Understanding. One of the main problems in this domain is to obtain a sufficient corpus to train an efficient statistical model. Such speech corpora need a lot of human involvement to transcript and semantically annotate them. Their production cost is therefore quite high and they are difficultly available.This thesis mainly aims at reducing the need of human intervention in two ways: firstly, reducing the amount of corpus needed to build a model thanks to some semi-supervised learning methods (Self-Training, Co-Training and Active-Learning); And lastly, using the answers of the system end-user to improve the comprehension model.This last point addresses another problem related to automatic speech understanding systems: the need to adapt their models to the fluctuation of end-user habits or to the modification of the services list offered by the systemAVIGNON-Bib. numérique (840079901) / SudocSudocFranceF

    Acquisition, visualisation et reconstruction 3D de données anatomiques issues de dissection (application aux fibres blanches cérébrales)

    Get PDF
    Dans cette thèse, nous présentons un système complet permettant de sauvegarder un processus destructif tel qu'une dissection anatomique. Nous proposons une méthode depuis l'acquisition 3D des données jusqu'à la visualisation interactive et immersive, dans le but de créer une vérité terrain. L'acquisition 3D regroupe l'acquisition de la géométrie par scanner laser (maillage) ainsi que de l'information de couleur par le biais d'un appareil photo haute résolution (texture). Ce processus d'acquisition et répété au cours de la dissection du spécimen. Les différentes acquisitions du spécimen sont représentées par des surfaces 3D texturées. Elles sont ensuite recalées entre elles. Un expert anatomiste peut alors explorer ces différentes étapes de dissections modélisées dans une visualisation immersive en utilisant du matériel d'interaction (bras haptique). Un outil d'étiquetage permet une segmentation manuelle précise de régions d'intérêt visibles sur chacune des surfaces 3D. Un objet tridimensionnel peut ensuite être reconstruit et proposé à l'utilisateur sur la base des zones d'intérêt étiquetées. Le but étant de créer des vérité terrains afin de confronter des résultats issus de modalités d'acquisition volumiques (IRM). Nous montrons l'application de la méthode à la reconstruction de faisceaux de fibres blanches humaine dans le but de valider des résultats de tractographie.In this thesis, we present a system to keep track of a destructive process such as a medical specimen dissection, from data acquisition to interactive and immersive visualization, in order to build ground truth models. Acquisition is a two-step process, first involving a 3D laser scanner to get a 3D surface, and then a high resolution camera for capturing the texture. This acquisition process is repeated at each step of the dissection, depending on the expected accuracy and the specific objects to be studied. Thanks to fiducial markers, surfaces are registered on each others. Experts can then explore data using interaction hardware in an immersive 3D visualization. An interactive labeling tool is provided to the anatomist, in order to identify regions of interest on each acquired surface. 3D objects can then be reconstructed according to the selected surfaces. We aim to produce ground truths which for instance can be used to validate data acquired with MRI. The system is applied to the specific case of white fibers reconstruction in the human brain.TOURS-Bibl.électronique (372610011) / SudocSudocFranceF
    • …
    corecore