2 research outputs found

    Classification spectrale semi-supervisée : Application à la supervision de l'écosystème marin

    Get PDF
    In the decision support systems, often, there a huge digital data and possibly some contextual knowledge available a priori or provided a posteriori by feedback. The performances of classification approaches, particularly spectral ones, depend on the integration of the domain knowledge in their design. Spectral classification algorithms address the problem of classification in terms of graph cuts. They classify the data in the eigenspace of the graph Laplacian matrix. The generated eigenspace may better reveal the presence of linearly separable data clusters. In this work, we are particularly interested in algorithms integrating pairwise constraints : constrained spectral clustering. The eigenspace may reveal the data structure while respecting the constraints. We present a state of the art approaches to constrained spectral clustering. We propose a new algorithm, which generates a subspace projection, by optimizing a criterion integrating both normalized multicut and penalties due to the constraints. The performances of the algorithms are demonstrated on different databases in comparison to other algorithms in the literature. As part of monitoring of the marine ecosystem, we developed a phytoplankton classification system, based on flow cytometric analysis. for this purpose, we proposed to characterize the phytoplanktonic cells by similarity measures using elastic comparison between their cytogram signals.Dans les systèmes d'aide à la décision, sont généralement à disposition des données numériques abondantes et éventuellement certaines connaissances contextuelles qualitatives, disponibles a priori ou fournies a posteriori par retour d'expérience. Les performances des approches de classification, en particulier spectrale, dépendent de l'intégration de ces connaissances dans leur conception. Les algorithmes de classification spectrale permettent de traiter la classification sous l'angle de coupes de graphe. Ils classent les données dans l'espace des vecteurs propres de la matrice Laplacienne du graphe. Cet espace est censé mieux révéler la présence de groupements naturels linéairement séparables. Dans ce travail, nous nous intéressons aux algorithmes intégrant des connaissances type contraintes de comparaison. L'espace spectral doit, dans ce cas, révéler la structuration en classes tout en respectant, autant que possible, les contraintes de comparaison. Nous présentons un état de l'art des approches spectrales semi-supervisées contraintes. Nous proposons un nouvel algorithme qui permet de générer un sous-espace de projection par optimisation d'un critère de multi-coupes normalisé avec ajustement des coefficients de pénalité dus aux contraintes. Les performances de l'algorithme sont mises en évidence sur différentes bases de données par comparaison à d'autres algorithmes de la littérature. Dans le cadre de la surveillance de l'écosystème marin, nous avons développé un système de classification automatique de cellules phytoplanctoniques, analysées par cytométrie en flux. Pour cela, nous avons proposé de mesurer les similarités entre cellules par comparaison élastique entre leurs signaux profils caractéristiques

    Techniques d'analyse dynamique des média sociaux pour la relation client

    Get PDF
    This thesis is in the field of data mining and in the context of Customer Relationship Management (CRM). With the emergence of social media, companies today have seen the need for an interchannel (or cross-channel) strategy in which they keep track of their clients' histories through a consistent combination of multiple channels. The goal of this thesis is to develop new data mining methods which allow predicting customer behaviors using data collected from multiple channels such as social media, call center¿ We are interested in all types of customer behaviors that characterized their engagement with respect to the company. First of all, we perform a needs analysis in terms of data mining for interchannel CRM strategy. Next, we propose a new method of prediction of customer behaviors in the context of interchannel CRM. In our method, we use a social attributed network to represent the data from multiple channels and perform incremental learning based on latent factor models. We then carry out experiments on both synthetic and real data. We show that our method based on the latent factor models is capable of leveraging informative latent factors from interchannel data. In future works, we consider some ways to improve the performance of our method, especially latent factor models that are able to leverage different types of relational correlation between individuals in the social graph.Cette thèse d'informatique en fouille de données et apprentissage automatique s'inscrit dans le contexte applicatif de la gestion de la relation client (Customer Relationship Management ou CRM). Avec l'émergence des média sociaux, les entreprises perçoivent actuellement la nécessité d'une stratégie de relation client intercanale dans laquelle elles suivent le parcours du client sur l¿ensemble des canaux d¿interactions tels que les média sociaux, la hot line¿ et cela de manière integrée. L'objectif applicatif de la thèse est de concevoir de nouvelles techniques permettant de prédire les comportements du client à partir des données issues de ces multiples canaux. Nous nous intéressons aux comportements qui caractérisent l'engagement du client vis-à-vis de l'entreprise. Nous effectuons d'abord une analyse des besoins dans laquelle nous montrons la nécessité des nouvelles techniques de fouilles de données pour une stratégie de relation client intégrant plusieurs canaux de nature différente. Nous introduisons ensuite une nouvelle méthode d'apprentissage incrémental basée sur les modèles à facteurs latents et sur la représentation de réseau social attribué. Nous effectuons ensuite des expérimentations sur des données synthétiques et réelles. Nous montrons que notre méthode de réduction de dimension est capable d'extraire des variables latentes informatives pour prédire les comportements des clients à partir de données intercanales. Dans les perspectives, nous proposons quelques pistes d'amélioration de notre méthode, notamment d'autres modèles à facteurs latents permettant d'exploiter différents types de corrélations entre les individus dans le graphe social
    corecore