10 research outputs found

    Système adaptatif pour l’aide à la conception de processus d’analyse

    Get PDF
    The last few years have seen rapid growth in the amount of data stored by humanity. Many fields of activity have benefited from this growth by exploiting and analyzing these new masses of information. These new activities have increased the need for analysis and processing capacity. Unfortunately, data analysis remains a difficult and opaque activity, which often requires the intervention of specialized tools and experts trained in their use. However, a potential user of data analysis does not necessarily have the means to afford such services, nor the time to be fully trained in data analysis. Therefore, it appears that data analysis tools that are more accessible to a wider audience would benefit many people. From this observation emerges the main challenge that we must address: How can we help a user to create his own data analysis model, although he is not an expert in this field? By analyzing the lack of the state of the art and what has already been done to overcome this issue, we divide it into two more precise sub-issues, more focused on machine learning: How can we effectively recommend machine learning workflow to such a user? and how can we help such a user understand and analyze a data analysis model?. The state of the art partly provides some solutions to tackle these challenges. First, by replacing the need for human decision-making with the automation of analysis processes, in particular in the creation of machine learning models. Then, visualization tools presenting the data and their characteristics to make them more accessible to a human. The main problem with these solutions is that they are often designed to assist data analysis experts and therefore are not accessible to non-expert users. However, the field knowledge of a user who has collected the data used (for example a biologist) can be very useful in the analysis process. To take advantage of this field knowledge, we offer solutions to help data analysis that takes advantage of what the user knows. First of all, we describe in this document our data analysis workflow recommendation system. This takes into account the user’s preferences as to the type of performance he wishes to obtain for his final model and operates on a recommendation architecture based on collaborative filtering, which relies on comparing the user’s problem to previous existing problems. Thus, the user is entirely involved in the model creation process. Then, we also propose a method for describing how a predictive model uses the attributes of the dataset to produce a single prediction. This method, known as the additive prediction explanation method, assigns a weight to each attribute of the dataset. This weight represents the importance of the attribute in the prediction of the model. Thus, we use the knowledge that the user has on his data to explain to him how his final model works. This method surpasses those of the state of the art while maintaining a good precision, without suffering from a too-long computation time. Finally, we combine these two solutions to create a more comprehensive framework for supporting data analysis. By using our prediction explanations, we allow the user to judge the interest of the models that are recommended. By understanding how each model recommended uses the data provided to it, he can use his domain knowledge to assess and make informed decisions about the construction of the final model. Also, these explanations are used to allow the user to more intuitively explore new instances of his dataset while using his final model. While our proposals provide solutions to the challenges addressed in this thesis, there are still many aspects to explore. For example, the "sandbox" dimension of the general framework can be further developed by allowing a deeper customization of the workflow leading to the final model: Choosing dataset pretreatments, changing model parameters, using a feedback loop... Likewise, many solutions from the state of the art aim to assist a user in analyzing data by providing visualization and exploration methods. Those solutions could be extended by using prediction explanations, which when combined with this enhanced information bring out new insights on the data. By using prediction explanation, it becomes possible for a non-expert to perform many analysis tasks thanks to their field expertise rather than a training in data analysis.Ces dernières années ont vu une croissance rapide de la quantité de données stockées par l’humanité. De nombreux domaines d’activité ont bénéficié de cette croissance en exploitant et en analysant ces nouvelles masses d’informations. Ces nouvelles activités se sont traduites par une augmentation du besoin en capacité d’analyse et de traitement. Malheureusement, l’analyse de données reste une activité ardue et opaque, qui nécessite souvent l’intervention d’outils spécialisés et d’experts formés dans leur utilisation. Or, un utilisateur potentiel de l’analyse de données n’a pas forcément les moyens de s’offrir de tels services, ni le temps de se former complètement à l’analyse. Il apparaît donc que des outils d’analyse de données plus accessibles pour un public plus large seraient bénéfiques à de nombreuses personnes tels que des acteurs de terrain (biologistes, astronomes...). De cette constatation, découle un verrou principal qu’il nous faut adresser : Comment pouvons-nous aider un utilisateur à créer son propre modèle d’analyse de données, bien qu’il ne soit pas expert dans ce domaine ? En analysant les manques de l’état de l’art et ce qui a déjà été fait pour adresser ce verrou, nous le divisons en deux sous-verrous plus précis et davantage centrés sur l’apprentissage automatique : Comment pouvons-nous recommander efficacement une chaîne de traitement d’apprentissage automatique à un tel utilisateur ? Puis Comment pouvons- nous aider un tel utilisateur à comprendre et analyser un modèle d’analyse de données ?. L’état de l’art nous apporte en partie des solutions à ces verrous. D’abord, en rem- plaçant le besoin de décision humaine par l’automatisation des processus d’analyse, notamment dans la création de modèles d’apprentissage automatique. Ensuite, par des outils de visualisation présentant les données et leurs caractéristiques de manière à les rendre plus accessibles pour un humain. Le problème principal de ces solutions est qu’elles sont souvent conçues pour assister des experts en analyse de données et ne sont donc pas acces- sibles à des utilisateurs non-experts. Pourtant, les connaissances de terrain que possède un utilisateur qui a récolté les données utilisées (par exemple un biologiste) peuvent se révéler très utiles lors du processus d’analyse. Afin de mettre à profit ces connaissances de terrain, nous proposons donc des solutions d’aide à l’analyse de données qui mettent à profit ce que l’utilisateur connaît. Tout d’abord, nous décrivons dans ce mémoire de thèse notre système de recommandation de chaîne de traitements d’analyse de données. Celui-ci tient compte des préférences de l’utilisateur quant au type de performances qu’il désire obtenir pour son modèle final et est basé sur les méthodes éprouvées de filtrage collaboratif, qui reposent sur la comparaison du problème de l’utilisateur à des problèmes passés. Ceci nous permet de garder l’utilisateur impliqué dans le processus de création du modèle. Nous proposons également une méthode permettant de décrire comment un modèle prédictif utilise les attributs des données qui lui sont fournies pour produire une prédiction précise. Cette méthode, appelée méthode d’explication de prédiction additive, attribue un poids à chaque attribut du jeu de données. Ce poids représente l’importance de l’attribut dans la prédiction du modèle. Ainsi, nous utilisons les connaissances qu’a l’utilisateur sur ses données pour lui expliquer comment fonctionne son modèle final. Cette méthode surpasse l’état de l’art en conservant une bonne précision, sans pour autant souffrir d’un temps de calcul trop long. Enfin, nous combinons ces deux méthodes pour créer un cadre plus global d’aide à l’analyse de données. En utilisant nos explications de prédictions, nous permettons à l’utilisateur de juger de l’intérêt des modèles qui lui sont recommandés. En comprenant comment chaque modèle recommandé utilise les données qui lui sont fournies, il peut utiliser ses connaissances de terrain pour les évaluer et prendre des décisions informées quant à la construction de son modèle final. De plus, ces explications sont aussi utilisées pour permettre à l’utilisateur d’explorer plus intuitivement de nouvelles instances de ses données à partir des prédictions de son modèle final. Si nos propositions apportent des solutions aux verrous de cette thèse, il reste cependant de nombreux aspects à explorer. Par exemple la dimension "bac à sable" du cadre général peut être davantage développée par une personnalisation plus profonde de la chaîne de traitements menant au modèle final : choisir les prétraitements sur les données, paramétrer le modèle en profondeur, mettre en place une boucle d’apprentissage... De même, de nom- breuses propositions de l’état de l’art visent à assister à l’analyse de données par la visualisation et l’exploration des données de l’utilisateur. Ces solutions pourraient être améliorées par l’ajout d’explications de prédiction qui, misent en regard avec ces informations font émerger une nouvelle perspective sur ces données. En utilisant l’explication de prédiction de manière intelligente, il devient possible pour un non-expert d’effectuer de nombreuses tâches d’analyse en se reposant sur ses connaissances de terrain plutôt qu’une formation en analyse de données

    Adaptative system for assistance in data analysis processes creation

    No full text
    Le résumé en français n'a pas été communiqué par l'auteur.Le résumé en anglais n'a pas été communiqué par l'auteur

    Meta-analysis for workflow recommendation (student paper)

    No full text
    International audienceMeta-analysis for workflow recommendation auteurs : Gabriel Ferrettini, William Raynaut résumé : Short presentation of a system aiming to assist domain expert users in the developpment and exploitation of machine learning models. This is achieved through a recommendation system based on past experiments and a comprehensive prediction explanation system

    Explaining single predictions : a faster method

    Get PDF
    International audienceMachine learning has proven increasingly essential in manyfields. Yet, a lot obstacles still hinder its use by non-experts. The lack oftrust in the results obtained is foremost among them, and has inspiredseveral explanatory approaches in the literature. In this paper, we areinvestigating the domain of single prediction explanation. This is per-formed by providing the user a detailed explanation of the attribute'sinfluence on each single predicted instance, related to a particular ma-chine learning model. A lot of possible explanation methods have beendeveloped recently. Although, these approaches often require an impor-tant computation time in order to be efficient. That is why we are inves-tigating about new proposals of explanation methods, aiming to increasetime performances, for a small loss in accuracy

    Prédiction de temps de parcours de bus par chaînage des données d'entraînement

    No full text
    International audienceThe time required for a bus to finish its route and the inter-stops time are two relevant dimensions to predict in the context of bus route planning. If the full route is just the aggregation of the inter-stops, a solution is to train a chained model for each inter-stop and sum the individuals predictions to get the full route time. An efficient time prediction will use sequential information as input (i.e. the bus previous delay). However, model chaining fails to take into account the fact that each individual model use corrupted data (as prediction themselves) for its predictions while it was trained using observed data. We introduced a new chained model that correct this issue by chaining not only the prediction but also the training step.Experiments show that our method improve full route prediction in most cases. Moreover, the comparative study of full route and inter-stops time predictions shows that improving the latter does not necessarily improve the former. These observations opens interesting perspectives involving multi-objective optimization procedures.Dans le cadre de la planification de lignes de bus, il est intéressant de prédire à la fois la durée d'une course (du départ au terminus) et le temps de parcours de chaque inter-arrêt. Une solution est de chaîner les prédictions de modèles construits pour chaque inter-arrêt et de les sommer pour obtenir le temps total de la course. Cependant, ce modèle dit "chaîné" ne prend pas en compte la dégradation des données prédites d'une étape pour l'étape suivante. Nous proposons d'améliorer ce modèle en intégrant le chaînage des prédictions dans l'entraînement des modèles de chaque étape. L'évaluation de notre proposition montre que notre méthode améliore la prédiction de la durée totale d'une course. Cependant, l'analyse comparative des performances des modèles inter-arrêts et du modèle chaîné montre qu'une amélioration des premiers n'améliore pas forcément le second

    Un cadre d'aide à l'exploitation des résultats de prédictions, à destination d'experts de domaine

    Get PDF
    National audienceL’apprentissage automatique (ML) s’est révélé de plus en plus essentiel dans de nombreux domaines. Pourtant, de nombreux obstacles limitent encore son utilisation par des non-experts. Au premier rang de ceux ci se situe le manque de confiance dans les résultats obtenus et a inspiré plusieurs approches explicatives dans la littérature. Nous proposons ici un cadre pour exploiter cette capacité à expliquer les prédictions de ML de manière simple. Ceci a pour but de permettre aux outils ML existants de fournir une information plus interprétable aux utilisateurs ne maîtrisant pas encore l’apprentissage automatique. Ceci est effectué en fournissant à l’utilisateur une explication détaillée de l’influence des attributs pour chaque instance prédite, en relation avec le modèle d’apprentissage automatique. Nous montrerons également en quoi cette explication aide les utilisateurs non-experts à effectuer certaines tâches d’analyse complexes,telles que la sélection de modèles et l’ingénierie de fonctionnalités, et fournit une assistance pour exploiter efficacement les résultats d’un modèle prédictif

    A framework for user assistance on predictive models

    No full text
    International audienceData analysis generally requires very specialized skills, especiallywhen applying machine learning tasks. The ambition of the paperis to propose a framework assisting a domain expert user to analysehis data, in a context of predictive analysis. In particular, the frame-work includes a recommender system for the workflow of analysistasks. Because the lack of explanation in recommendations can leadto loss of confidence, a complementary system is proposed to betterunderstand the predictive models recommended. This complemen-tary system aims to help the user to understand and exploit theresults of the data analysis, by relying on his data expertise. Theframework is validated through a pool of questions and a mock-upshowing the interest of the approach

    Coalitional Strategies for Efficient Individual Prediction Explanation

    No full text
    International audienceAs Machine Learning (ML) is now widely applied in many domains, in both research and industry, an understanding of what is happening inside the black box is becoming a growing demand, especially by non-experts of these models. Several approaches had thus been developed to provide clear insights of a model prediction for a particular observation but at the cost of long computation time or restrictive hypothesis that does not fully take into account interaction between attributes. This paper provides methods based on the detection of relevant groups of attributes-named coalitionsinfluencing a prediction and compares them with the literature. Our results show that these coalitional methods are more efficient than existing ones such as SHapley Additive exPlanation (SHAP). Computation time is shortened while preserving an acceptable accuracy of individual prediction explanations. Therefore, this enables wider practical use of explanation methods to increase trust between developed ML models, end-users, and whoever impacted by any decision where these models played a role

    Stratégies coalitionnelles pour une explication efficace des prédictions individuelles

    No full text
    International audienceCe papier est un résumé des travaux publiés dans le journal Information Systems Frontiers (Ferrettini et al., 2021). Face aux nombreuses applications de l'apprentissage machine (ML) dans de nombreux domaines, la nécessité de comprendre le fonctionnement des modèles en boite noire est devenu croissante, particulièrement chez les non-experts. Plusieurs méthodes fournissant des explications sur les prédictions des modèles existent, avec des temps de calculs longs ou des hypothèses restrictives sur les interactions entre attributs. Ce papier détaille des méthodes basées sur la détection de groupes d'attributs pertinents-appelés coalitions-influençant la prédiction. Nos résultats montrent que les méthodes coalitionnelles sont plus performantes que celles existantes, comme SHAP. Le temps d'exécution est réduit en préservant la précision des explications. Ces méthodes permettent une augmentation des cas d'utilisation afin d'accroître la confiance entre les modèles ML, les utilisateurs et toute personne affectée par une décision impliquant ces modèles
    corecore