4 research outputs found

    How to evaluate a subspace visual projection in interactive visual systems? A position paper

    Get PDF
    International audienceThis paper presents a position paper on subspace projection evaluation methods in interactive visual systems. We focus on how to evaluate real information rendered through the visual data projection for the mining of high dimensional data sets. To do this, we investigate automatic techniques that select the best visual projection and we discuss how they evaluate the projections to help the user before interactivity. When we deal with high dimensional data sets, the number of potential projections exceeds the limit of human interpretation. To find the optimal subspace representation, there are two possibilities, the first one is to find the optimal subspace which reproduces what really exists in the original data: getting the existing clusters and/or outliers in the projection. The second possibility consists in researching subspaces according to the knowledge discovery process: discovering novel, but meaningful information, such as clusters and/or outliers from the projection. The problem is that visual projection cannot be in adequation with the subspaces. In some cases, the visual projection can show some things that do not really exist in the original data space (which can be considered as an artifact). The mapping between the visual structure and the real data structure is as important as the efficiency and accuracy of the visualization. We examine and discuss the literature of Information visualization, Visual analytic, High dimensional data visualization, and interactive data mining and machine learning communities, on how to evaluate the faithfulness of the visual projection information

    Analyse supervisée multibloc en grande dimension

    Get PDF
    Statistical learning objective is to learn from observed data in order to predict the response for a new sample. In the context of vaccination, the number of features is higher than the number of individuals. This is a degenerate case of statistical analysis which needs specific tools. The regularization algorithms can deal with those drawbacks. Different types of regularization methods can be used which depends on the data set structure but also upon the question. In this work, the main objective was to use the available information with soft-thresholded empirical covariance matrix estimations through SVD decompositions. This solution is particularly efficient in terms of variable selection and computation time. Heterogeneous typed data sets (coming from different sources and also called multiblock data) were at the core of our methodology. Since some data set generations are expensive, it is common to down sample the population acquiring some types of data. This leads to multi-block missing data patterns. The second objective of our methodology is to deal with those missing values using the response values. But the response values are not present in the test data sets and so we have designed a methodology which permits to consider both the cases of missing values in the train or in the test data sets. Thanks to soft-thresholding, our methodology can regularize and select features. This estimator needs only two parameters to be fixed which are the number of components and the maximum number of features to be selected. The corresponding tuning is performed by cross-validation. According to simulations, the proposed method shows very good results comparing to benchmark methods, especially in terms of prediction and computation time. This method has also been applied to several real data sets associated with vaccine, thomboembolic and food researches.L’apprentissage statistique consiste à apprendre à partir de données mesurées dans un échantillon d’individus et cherche à prédire la grandeur d’intérêt chez un nouvel individu. Dans le cas de la vaccination, ou dans d’autres cas dont certains présentés dans ce manuscrit, le nombre de variables mesurées dépasse le nombre d’individus observés, c’est un cas dégénéré d’analyse statistique qui nécessite l’utilisation de méthodes spécifiques. Les propriétés des algorithmes de régularisation permettent de gérer ces cas. Il en existe plusieurs types en fonction de la structure des données considérées et du problème qui sont étudiés. Dans le cas de ce travail, l’objectif principal a été d’utiliser l’information disponible à l’issue de décompositions en éléments propres des matrices de covariances transformées via un opérateur de seuillage doux. Cette solution est particulièrement peu coûteuse en termes de temps de calcul et permet la sélection des variables d’intérêt. Nous nous sommes centrés sur les données qualifiées d’hétérogènes, c’est à dire issues de jeux de données qui sont provenant de sources ou de technologies distinctes. On parle aussi de données multiblocs. Les coûts d’utilisation de certaines technologies pouvant être prohibitifs, il est souvent choisi de ne pas acquérir certaines données sur l’ensemble d’un échantillon, mais seulement sur un sous-échantillon d’étude. Dans ce cas, le jeu de données se retrouve amputé d’une partie non négligeable de l’information. La structure des données associée à ces défauts d’acquisition induit une répartition elle-même multibloc de ces données manquantes, on parle alors de données manquantes par blocs. Le second objectif de notre méthode est de gérer ces données manquantes par blocs en s’appuyant sur l’information à prédire, ceci dans le but de créer un modèle prédictif qui puisse gérer les données manquantes aussi bien pour les données d’entraînement que pour celles de test. Cette méthode emprunte au seuillage doux afin de sélectionner les variables d’intérêt et ne nécessite que deux paramètres à régler qui sont le nombre de composantes et le nombre de variables à sélectionner parmi les covariables. Ce paramétrage est classiquement réalisé par validation croisée. La méthode développée a fait l’objet de simulations la comparant aux principales méthodes existantes. Elle montre d’excellents résultats en prédiction et en termes de temps de calcul. Elle a aussi été appliquée à plusieurs jeux de donnée

    Utilisation du contexte pour l’indexation sémantique des images et vidéos

    Get PDF
    The automated indexing of image and video is a difficult problem because of the``distance'' between the arrays of numbers encoding these documents and the concepts (e.g. people, places, events or objects) with which we wish to annotate them. Methods exist for this but their results are far from satisfactory in terms of generality and accuracy. Existing methods typically use a single set of such examples and consider it as uniform. This is not optimal because the same concept may appear in various contexts and its appearance may be very different depending upon these contexts. In this thesis, we considered the use of context for indexing multimedia documents. The context has been widely used in the state of the art to treat various problems. In our work, we use relationships between concepts as a source of semantic context. For the case of videos, we exploit the temporal context that models relationships between the shots of the same video. We propose several approaches using both types of context and their combination, in different levels of an indexing system. We also present the problem of multiple concept detection. We assume that it is related to the context use problematic. We consider that detecting simultaneously a set of concepts is equivalent to detecting one or more concepts forming the group in a context where the others are present. To do that, we studied and compared two types of approaches. All our proposals are generic and can be applied to any system for the detection of any concept. We evaluated our contributions on TRECVID and VOC collections, which are of international standards and recognized by the community. We achieved good results comparable to those of the best indexing systems evaluated in recent years in the evaluation campaigns cited previously.L'indexation automatisée des documents image fixe et vidéo est un problème difficile en raison de la ``distance'' existant entre les tableaux de nombres codant ces documents et les concepts avec lesquels on souhaite les annoter (personnes, lieux, événements ou objets, par exemple). Des méthodes existent pour cela mais leurs résultats sont loin d'être satisfaisants en termes de généralité et de précision. Elles utilisent en général un ensemble unique de tels exemples et le considère d'une manière uniforme. Ceci n'est pas optimal car un même concept peut apparaître dans des contextes très divers et son apparence peut être très différente en fonction de ces contextes. Dans le cadre de cette thèse, nous avons considéré l'utilisation du contexte pour l'indexation des documents multimédia. Le contexte a largement été utilisé dans l'état de l'art pour traiter diverses problématiques. Dans notre travail, nous retenons les relations entre les concepts comme source de contexte sémantique. Pour le cas des vidéos, nous exploitons le contexte temporel qui modélise les relations entre les plans d'une même vidéo. Nous proposons plusieurs approches utilisant les deux types de contexte ainsi que leur combinaison, dans différents niveaux d'un système d'indexation. Nous présentons également le problème de détection simultanée de groupes de concepts que nous jugeons lié à la problématique de l'utilisation du contexte. Nous considérons que la détection d'un groupe de concepts revient à détecter un ou plusieurs concepts formant le groupe dans un contexte ou les autres sont présents. Nous avons étudié et comparé pour cela deux catégories d'approches. Toutes nos propositions sont génériques et peuvent être appliquées à n'importe quel système pour la détection de n'importe quel concept. Nous avons évalué nos contributions sur les collections de données TRECVid et VOC, qui sont des standards internationaux et reconnues par la communauté. Nous avons obtenu de bons résultats, comparables à ceux des meilleurs systèmes d'indexation évalués ces dernières années dans les compagnes d'évaluation précédemment citées

    Approche géomatique de la variabilité spatio-temporelle de la contamination microbienne des eaux récréatives

    Get PDF
    L’objectif général de cette thèse est de caractériser la dynamique des transferts des bactéries fécales à l’aide d’une modélisation spatio-temporelle, à l’échelle du bassin versant (BV) dans une région agricole et à l’échelle événementielle. Ce projet vise à mieux comprendre l'influence des processus hydrologiques, les facteurs environnementaux et temporels impliqués dans l’explication des épisodes de contamination microbienne des eaux récréatives. Premièrement, un modèle bayésien hiérarchique a été développé pour quantifier et cartographier les niveaux de probabilité des eaux à être contaminées par des effluents agricoles, sur la base des données spectrales et des variables géomorphologiques. Par cette méthode, nous avons pu calculer les relations pondérées entre les concentrations d’Escherichia coli et la distribution de l’ensemble des paramètres agro-pédo-climatiques qui régissent sa propagation. Les résultats ont montré que le modèle bayésien développé peut être utilisé en mode prédictif de la contamination microbienne des eaux récréatives. Ce modèle avec un taux de succès de 71 % a mis en évidence le rôle significatif joué par la pluie qui est la cause principale du transport des polluants. Deuxièmement, le modèle bayésien a fait l’objet d'une analyse de sensibilité liée aux paramètres spatiaux, en utilisant les indices de Sobol. Cette démarche a permis (i) la quantification des incertitudes sur les variables pédologiques, d’occupation du sol et de la distance et (2) la propagation de ces incertitudes dans le modèle probabiliste c'est-à-dire le calcul de l’erreur induite dans la sortie par les incertitudes des entrées spatiales. Enfin, une analyse de sensibilité des simulations aux différentes sources d’incertitude a été effectuée pour évaluer la contribution de chaque facteur sur l’incertitude globale en prenant en compte leurs interactions. Il apparaît que sur l’ensemble des scénarios, l’incertitude de la contamination microbienne dépend directement de la variabilité des sols argileux. Les indices de premier ordre de l’analyse de Sobol ont montré que parmi les facteurs les plus susceptibles d’influer la contamination microbienne, la superficie des zones agricoles est le premier facteur important dans l'évaluation du taux de coliformes. C’est donc sur ce paramètre que l’attention devra se porter dans le contexte de prévision d'une contamination microbienne. Ensuite, la deuxième variable la plus importante est la zone urbaine avec des parts de sensibilité d’environ 30 %. Par ailleurs, les estimations des indices totaux sont meilleures que celles des indices de premier ordre, ce qui signifie que l’impact des interactions paramétriques est nettement significatif pour la modélisation de la contamination microbienne Enfin, troisièmement, nous proposons de mettre en œuvre une modélisation de la variabilité temporelle de la contamination microbiologique du bassin versant du lac Massawippi, à partir du modèle AVSWAT. Il s'agit d'une modélisation couplant les composantes temporelles et spatiales qui caractérisent la dynamique des coliformes. La synthèse des principaux résultats démontrent que les concentrations de coliformes dans différents sous-bassins versants se révèlent influencées par l’intensité de pluie. La recherche a également permis de conclure que les meilleures performances en calage sont obtenues au niveau de l'optimisation multi-objective. Les résultats de ces travaux ouvrent des perspectives encourageantes sur le plan opérationnel en fournissant une compréhension globale de la dynamique de la contamination microbienne des eaux de surface.Abstract : The aim of this study was to predict water faecal contamination from a bayesian probabilistic model, on a watershed scale in a farming area and on a factual scale. This project aims to better understand the influence of hydrological, environmental and temporal factors involved in the explanation of microbial contamination episodes of recreational waters. First, a bayesian probabilistic model: Weight of Evidence was developed to identify and map the probability of water levels to be contaminated by agricultural effluents, on the basis of spectrals data and geomorphologic variables. By this method, we were able to calculate weighted relationships between concentrations of Escherichia coli and distribution of key agronomic, pedologic and climatic parameters that influence the spread of these microorganisms. The results showed that the Bayesian model that was developed can be used as a prediction of microbial contamination of recreational waters. This model, with a success rate of 71%, highlighted the significant role played by the rain, which is the main cause of pollution transport. Secondly, the Bayesian probabilistic model has been the subject of a sensitivity analysis related to spatial parameters, using Sobol indications. This allowed (1) quantification of uncertainties on soil variables, land use and distance and (2) the spread of these uncertainties in the probabilistic model that is to say, the calculation of induced error in the output by the uncertainties of spatial inputs. Lastly, simulation sensitivity analysis to the various sources of uncertainty was performed to assess the contribution of each factor on the overall uncertainty taking into account their interactions. It appears that of all the scenarios, the uncertainty of the microbial contamination is directly dependent on the variability of clay soils. Sobol prime indications analysis showed that among the most likely to influence the microbial factors, the area of farmland is the first important factor in assessing the coliforms. Importance must be given on this parameter in the context of preparation for microbial contamination. Then, the second most important variable is the urban area with sensitivity shares of approximately 30%. Furthermore, estimates of the total indications are better than those of the first order, which means that the impact of parametric interaction is clearly significant for the modeling of microbial contamination. Thirdly, we propose to implement a temporal variability model of microbiological contamination on the watershed of Lake Massawippi, based on the AVSWAT model. This is a model that couples the temporal and spatial components that characterize the dynamics of coliforms. The synthesis of the main results shows that concentrations of Escherichia coli in different sub-watersheds are influenced by rain intensity. Research also concluded that best performance is obtained by multi-objective optimization. The results of these studies show the prospective of operationally providing a comprehensive understanding of the dynamics of microbial contamination of surface water
    corecore