24 research outputs found

    Personnalisation d'analyses décisionnelles sur des données multidimensionnelles

    Get PDF
    This thesis investigates OLAP analysis personalization within multidimensional databases. OLAP analyse is modeled through a graph where nodes represent the analysis contexts and graph edges represent the user operations. The analysis context regroups the user query as well as result. It is well described by a specific tree structure that is independent on the visualization structures of data and query languages. We provided a model for user preferences on the multidimensional schema and values. Each preference is associated with a specific analysis context. Based on previous models, we proposed a generic framework that includes two personalization processes. First process, denoted query personalization, aims to enhancing user query with related preferences in order to produce a new one that generates a personalized result. Second personalization process is query recommendation that allows helping user throughout the OLAP data exploration phase. Our recommendation framework supports three recommendation scenarios, i.e., assisting user in query composition, suggesting the forthcoming query, and suggesting alternative queries. Recommendations are built progressively basing on user preferences. In order to implement our framework, we developed a prototype system that supports query personalization and query recommendation processes. We present experimental results showing the efficiency and the effectiveness of our approaches.Le travail présenté dans cette thèse aborde la problématique de la personnalisation des analyses OLAP au sein des bases de données multidimensionnelles. Une analyse OLAP est modélisée par un graphe dont les noeuds représentent les contextes d'analyse et les arcs traduisent les opérations de l'utilisateur. Le contexte d'analyse regroupe la requête et le résultat. Il est décrit par un arbre spécifique qui est indépendant des structures de visualisation des données et des langages de requête. Par ailleurs, nous proposons un modèle de préférences utilisateur exprimées sur le schéma multidimensionnel et sur les valeurs. Chaque préférence est associée à un contexte d'analyse particulier. En nous basant sur ces modèles, nous proposons un cadre générique comportant deux mécanismes de personnalisation. Le premier mécanisme est la personnalisation de requête. Il permet d'enrichir la requête utilisateur à l'aide des préférences correspondantes afin de générer un résultat qui satisfait au mieux aux besoins de l'usager. Le deuxième mécanisme de personnalisation est la recommandation de requêtes qui permet d'assister l'utilisateur tout au long de son exploration des données OLAP. Trois scénarios de recommandation sont définis : l'assistance à la formulation de requête, la proposition de la prochaine requête et la suggestion de requêtes alternatives. Ces recommandations sont construites progressivement à l'aide des préférences de l'utilisateur. Afin valider nos différentes contributions, nous avons développé un prototype qui intègre les mécanismes de personnalisation et de recommandation de requête proposés. Nous présentons les résultats d'expérimentations montrant la performance et l'efficacité de nos approches. Mots-clés: OLAP, analyse décisionnelle, personnalisation de requête, système de recommandation, préférence utilisateur, contexte d'analyse, appariement d'arbres de contexte

    Techniques d'analyse dynamique des média sociaux pour la relation client

    Get PDF
    This thesis is in the field of data mining and in the context of Customer Relationship Management (CRM). With the emergence of social media, companies today have seen the need for an interchannel (or cross-channel) strategy in which they keep track of their clients' histories through a consistent combination of multiple channels. The goal of this thesis is to develop new data mining methods which allow predicting customer behaviors using data collected from multiple channels such as social media, call center¿ We are interested in all types of customer behaviors that characterized their engagement with respect to the company. First of all, we perform a needs analysis in terms of data mining for interchannel CRM strategy. Next, we propose a new method of prediction of customer behaviors in the context of interchannel CRM. In our method, we use a social attributed network to represent the data from multiple channels and perform incremental learning based on latent factor models. We then carry out experiments on both synthetic and real data. We show that our method based on the latent factor models is capable of leveraging informative latent factors from interchannel data. In future works, we consider some ways to improve the performance of our method, especially latent factor models that are able to leverage different types of relational correlation between individuals in the social graph.Cette thèse d'informatique en fouille de données et apprentissage automatique s'inscrit dans le contexte applicatif de la gestion de la relation client (Customer Relationship Management ou CRM). Avec l'émergence des média sociaux, les entreprises perçoivent actuellement la nécessité d'une stratégie de relation client intercanale dans laquelle elles suivent le parcours du client sur l¿ensemble des canaux d¿interactions tels que les média sociaux, la hot line¿ et cela de manière integrée. L'objectif applicatif de la thèse est de concevoir de nouvelles techniques permettant de prédire les comportements du client à partir des données issues de ces multiples canaux. Nous nous intéressons aux comportements qui caractérisent l'engagement du client vis-à-vis de l'entreprise. Nous effectuons d'abord une analyse des besoins dans laquelle nous montrons la nécessité des nouvelles techniques de fouilles de données pour une stratégie de relation client intégrant plusieurs canaux de nature différente. Nous introduisons ensuite une nouvelle méthode d'apprentissage incrémental basée sur les modèles à facteurs latents et sur la représentation de réseau social attribué. Nous effectuons ensuite des expérimentations sur des données synthétiques et réelles. Nous montrons que notre méthode de réduction de dimension est capable d'extraire des variables latentes informatives pour prédire les comportements des clients à partir de données intercanales. Dans les perspectives, nous proposons quelques pistes d'amélioration de notre méthode, notamment d'autres modèles à facteurs latents permettant d'exploiter différents types de corrélations entre les individus dans le graphe social

    Services de sécurité inter-locataire et multi-locataire pour les logiciels en tant que service

    Get PDF
    Récemment, l’infonuagique a joué un rôle essentiel dans l’évolution de la technologie d’informatique. Les logiciels en tant que service (SaaS for software as a service) sont parmi les services infonuagiques les plus attractifs qui ont suscité l’intérêt des fournisseurs et des consommateurs d’applications Web. D’une part, l’externalisation des ressources permet au fournisseur de déployer une application dans une infonuagique publique au lieu de gérer ses ressources sous-jacentes (machines physiques). D’autant plus, les ressources de cette application peuvent être dynamiquement et automatiquement mises à l’échelle en fonction de l’évolution de la clientèle et/ou de la quantité du trafic. D’autre part, la mutualisation (partage) des ressources permet au fournisseur une réduction significative des coûts d’infrastructure et de maintenance en partageant la même instance d’application entre plusieurs locataires, appelés tenants (en anglais). Un locataire peut s’abonner aux SaaS à la demande en payant à l’usage. En dépit de leurs avantages, l’externalisation et la mutualisation des ressources entraînent de nouveaux défis et risques de sécurité qui doivent être inventoriés et résolus par le fournisseur d’un SaaS. Le locataire d’un SaaS ne peut pas déployer ses systèmes de détection d’intrusion (IDS for intrusion detection system) préférés puisqu’il ne contrôle ni le code source ni l’infrastructure de l’application (déployée par le fournisseur dans une infonuagique publique). Le fournisseur doit donc non seulement intégrer des IDS en tant que service dans son infrastructure infonuagique, mais aussi protéger chaque locataire selon ses propres exigences de sécurité. Dans un SaaS multi-locataire, les données des locataires, qui peuvent être des compétiteurs, sont stockées dans la même base de données. Le fournisseur doit donc détecter et prévenir les attaques réalisées par un locataire contre les données d’autres locataires. Plusieurs recherches scientifiques proposent des IDS infonuagiques qui se focalisent sur l’infrastructure (réseaux virtuels, machines virtuelles, etc.). Cependant, ces IDS n’offrent pas une sécurité en tant que service au fournisseur et aux locataires d’un SaaS. D’autres recherches scientifiques et entreprises informatiques suggèrent des mécanismes d’isolation des données des locataires afin de réduire les risques d’attaques entre eux. Cependant, ces mécanismes ne sont pas automatisés et ne permettent pas de prévenir les attaques entre les locataires partageant la même base de données.----------ABSTRACT: Recently, cloud computing plays a vital role in the evolution of computer technology. Softwareas-a-Service (SaaS) is one of the cloud services that has attracted the providers and clients (tenants) of Web applications. On the one hand, outsourcing allows a SaaS provider to deploy an application in a public cloud instead of managing its underlying resources (physical machines). The resources of this application can be scaled dynamically and automatically according to the evolution of the customer and/or the amount of traffic. On the other hand, multi-tenancy (or resources pooling) enables a SaaS provider to significantly reduce the infrastructure and maintenance costs by sharing the same application and database instances among several tenants. A tenant can subscribe to SaaS on-demand and pay according to pay-per-use model. However, the outsourcing and multi-tenancy bring new challenges and security risks that must be addressed by the SaaS provider. A tenant can not deploy its preferred intrusion detection systems (IDS) since it does not control the source code and the infrastructure of the application (deployed by the provider in a public cloud). Therefore, the provider must not only integrate IDS as a service into its cloud infrastructure, but also protect each tenant according to its own security requirements. In a multi-tenant SaaS, the data of tenants that can be competitors are stored in the same database. Therefore, the provider must detect and prevent attacks realized by a tenant (maliciously or accidentally) against the data of other tenants. The cloud-based IDS proposed by scientific research focus on the infrastructure (e.g., virtual networks, virtual machines, etc.). However, they do not detect attacks between the tenants of SaaS and do not provide security as a service for both SaaS provider and tenant. Other scientific research and IT companies propose tenant data isolation mechanisms to reduce the risk of inter-tenant attacks. However, these mechanisms are not automated and do not prevent attacks between tenants sharing the same database

    Proxys Internet avancés

    Get PDF
    Since the 90's, the Internet has tremendously evolved in terms of number and diversity of available services. In this trend, proxies are playing a central role and are spread all over the net. Today, the only functionality of proxies is to speed content access through caching only considering statistics based on use made by a user group, all together. Nowadays, evolutions are focusing on two main trends: specific infrastructures that do not comply anymore with the Web universality or individual applications like filtering. We propose to make proxies evolve from simple passive intermediaries to an open platform with advanced caching functionalities stressing on maintaining a high level of compatibility with existing paradigms. We ground our developments on two qualities already available in proxies, widely spread over the Net: the privileged position (plesiocentrism) within the network infrastructures and the perceptivity we extend to new dimensions, more specifically semantic (engnose). In a first step, we elaborate a new Web resources indexation binding to the documents a semantic space, based on the absolute position defined from the URL and a relative position defined with the links that connect those resources. We extend the usage statistics to those new dimensions to build up a topological space that take into account the localization of the documents and the user browsing into that space. We present algorithms and functionalities to build, maintain and take advantage of this topology. With the aim of accelerating web browsing, we use this statistical space to implement a prefetching system based on Markov's model. To extend the proxy perceptivity upstream to the users, we propose a mechanism to maintain a session, based on proxy-cookies. Therefore, we propose two new HTTP directives similar to those used for cookies. This paradigm also allows us to install personalized services with the support of the interaction concept and user profile. This last one allows us to tackle with mobility problems and to install proxies independently of physical network infrastructures. In a second move, we study how the proxy could take into account new dimensions in the semantic web and ontology context. The new technologies emerging like XML and annotations bring new information. That information can easily be processed by a computer system. As for the annotations, they considerably enrich the available informations in the proxy's perception through the classification or resources in ontology. We underline the opportunity for proxys, regarding their situation, to integrate functionalities of annotation server. We demonstrate what can be acquired that way and advantages to be won with the engnose definition as a new proxy quality that become perceptive to web disseminated knowledge. We present a new cache management based on virtual multi-level cache. We present an algorithm able to switch automatically to the correct domain regarding the ontological value of currently visited resources. Last, to demonstrate the validity of our propositions, we define the I3 platform (Intelligent Interactive Intermediaries): an architecture that supports all the various mechanisms presented above, but preserving integration with a minimum of impact on existing infrastructures. We define the concept of proxlet that is an intermediary agent generalization and allow the development of new user services. We demonstrate the value of our proposition by presenting opportunities brought by our platform. We take advantage of the interaction allowed by the session concept to implement functionalities also made possible by an advanced cache model based on topology, semantic and ontology. This platform allows the implementation of services such as browsing help, mobility filtering and service integration

    Modélisation informatique de structures dynamiques de segments textuels pour l'analyse de corpus

    No full text
    The objective of the thesis is to propose a data-processing model to represent, build and exploit textualstructures. The suggested model relies on a «type/token» form of text representation extended bysystems of lexical and contextual annotations. This model's establishment was carried out in the SATOsoftware -- of which the functionalities and the internal organization are presented. Reference to anumber of works give an account of the development and use of the software in various contexts.The formal assumption of the textual and discursive structures find an ally in the beaconing XMLlanguage and the proposals of the Text Encoding Initiative (TEI). Formally, the structures built on thetextual segments correspond to graphs. In a development driven textual analysis context, these graphsare multiple and partially deployed. Their resolution, within the fastening of the nodes to textualsegments or that of other graphs, is a dynamic process which can be sustained by various dataprocessingmechanisms. Examples drawn from textual linguistics are used to illustrate the principles ofstructural annotation. Prospective considerations for the data-processing establishment of amanagement system of the structural annotation are also exposed.L'objectif de la thèse est de proposer un modèle informatique pour représenter, construire et exploiterdes structures textuelles. Le modèle proposé s'appuie sur une représentation du texte sous la forme d'unplan lexique/occurrences augmenté de systèmes d'annotations lexicales et contextuelles, modèle dontune implantation a été réalisée dans le logiciel SATO dont on présente les fonctionnalités etl'organisation interne. La présentation d'un certain nombre de travaux rendent compte dudéveloppement et de l'utilisation du logiciel dans divers contextes.La prise en charge formelle des structures textuelles et discursives trouve un allié dans le langage debalisage XML et dans les propositions de la Text Encoding Initiative (TEI). Formellement, lesstructures construites sur les segments textuels correspondent à des graphes. Dans le contexte d'uneanalyse textuelle en élaboration, ces graphes sont multiples et partiellement déployés. La résolution deces graphes, au sens du rattachement des noeuds à des segments textuels ou à des noeuds d'autresgraphes, est un processus dynamique qui peut être soutenu par divers mécanismes informatiques. Desexemples tirés de la linguistique textuelle servent à illustrer les principes de l'annotation structurelle.Des considérations prospectives sur une implantation informatique d'un système de gestion del'annotation structurelle sont aussi exposées

    Développement de méthodes d'intégration de données biologiques à l'aide d'Elasticsearch

    Get PDF
    En biologie, les données apparaissent à toutes les étapes des projets, de la préparation des études à la publication des résultats. Toutefois, de nombreux aspects limitent leur utilisation. Le volume, la vitesse de production ainsi que la variété des données produites ont fait entrer la biologie dans une ère dominée par le phénomène des données massives. Depuis 1980 et afin d'organiser les données générées, la communauté scientifique a produit de nombreux dépôts de données. Ces dépôts peuvent contenir des données de divers éléments biologiques par exemple les gènes, les transcrits, les protéines et les métabolites, mais aussi d'autres concepts comme les toxines, le vocabulaire biologique et les publications scientifiques. Stocker l'ensemble de ces données nécessite des infrastructures matérielles et logicielles robustes et pérennes. À ce jour, de par la diversité biologique et les architectures informatiques présentes, il n'existe encore aucun dépôt centralisé contenant toutes les bases de données publiques en biologie. Les nombreux dépôts existants sont dispersés et généralement autogérés par des équipes de recherche les ayant publiées. Avec l'évolution rapide des technologies de l'information, les interfaces de partage de données ont, elles aussi, évolué, passant de protocoles de transfert de fichiers à des interfaces de requêtes de données. En conséquence, l'accès à l'ensemble des données dispersées sur les nombreux dépôts est disparate. Cette diversité d'accès nécessite l'appui d'outils d'automatisation pour la récupération de données. Lorsque plusieurs sources de données sont requises dans une étude, le cheminement des données suit différentes étapes. La première est l'intégration de données, notamment en combinant de multiples sources de données sous une interface d'accès unifiée. Viennent ensuite des exploitations diverses comme l'exploration au travers de scripts ou de visualisations, les transformations et les analyses. La littérature a montré de nombreuses initiatives de systèmes informatiques de partage et d'uniformisation de données. Toutefois, la complexité induite par ces multiples systèmes continue de contraindre la diffusion des données biologiques. En effet, la production toujours plus forte de données, leur gestion et les multiples aspects techniques font obstacle aux chercheurs qui veulent exploiter ces données et les mettre à disposition. L'hypothèse testée pour cette thèse est que l'exploitation large des données pouvait être actualisée avec des outils et méthodes récents, notamment un outil nommé Elasticsearch. Cet outil devait permettre de combler les besoins déjà identifiés dans la littérature, mais également devait permettre d'ajouter des considérations plus récentes comme le partage facilité des données. La construction d'une architecture basée sur cet outil de gestion de données permet de les partager selon des standards d'interopérabilité. La diffusion des données selon ces standards peut être autant appliquée à des opérations de fouille de données biologiques que pour de la transformation et de l'analyse de données. Les résultats présentés dans le cadre de ma thèse se basent sur des outils pouvant être utilisés par l'ensemble des chercheurs, en biologie mais aussi dans d'autres domaines. Il restera cependant à les appliquer et à les tester dans les divers autres domaines afin d'en identifier précisément les limites.In biology, data appear at all stages of projects, from study preparation to publication of results. However, many aspects limit their use. The volume, the speed of production and the variety of data produced have brought biology into an era dominated by the phenomenon of "Big Data" (or massive data). Since 1980 and in order to organize the generated data, the scientific community has produced numerous data repositories. These repositories can contain data of various biological elements such as genes, transcripts, proteins and metabolites, but also other concepts such as toxins, biological vocabulary and scientific publications. Storing all of this data requires robust and durable hardware and software infrastructures. To date, due to the diversity of biology and computer architectures present, there is no centralized repository containing all the public databases in biology. Many existing repositories are scattered and generally self-managed by research teams that have published them. With the rapid evolution of information technology, data sharing interfaces have also evolved from file transfer protocols to data query interfaces. As a result, access to data set dispersed across the many repositories is disparate. This diversity of access requires the support of automation tools for data retrieval. When multiple data sources are required in a study, the data flow follows several steps, first of which is data integration, combining multiple data sources under a unified access interface. It is followed by various exploitations such as exploration through scripts or visualizations, transformations and analyses. The literature has shown numerous initiatives of computerized systems for sharing and standardizing data. However, the complexity induced by these multiple systems continues to constrain the dissemination of biological data. Indeed, the ever-increasing production of data, its management and multiple technical aspects hinder researchers who want to exploit these data and make them available. The hypothesis tested for this thesis is that the wide exploitation of data can be updated with recent tools and methods, in particular a tool named Elasticsearch. This tool should fill the needs already identified in the literature, but also should allow adding more recent considerations, such as easy data sharing. The construction of an architecture based on this data management tool allows sharing data according to interoperability standards. Data dissemination according to these standards can be applied to biological data mining operations as well as to data transformation and analysis. The results presented in my thesis are based on tools that can be used by all researchers, in biology but also in other fields. However, applying and testing them in various other fields remains to be studied in order to identify more precisely their limits

    Extraction de taxonomie par regroupement hiérarchique de plongements vectoriels de graphes de connaissances

    Get PDF
    RÉSUMÉ: Les graphes de connaissances jouent aujourd’hui un rôle important pour représenter et stocker des données, bien au-delà du Web sémantique ; beaucoup d’entre eux sont obtenus de manière automatique ou collaborative, et agrègent des données issues de sources diverses. Dans ces conditions, la création et la mise à jour automatique d’une taxonomie qui reflète le contenu d’un graphe est un enjeu crucial.Or, la plupart des méthodes d’extraction taxonomique adaptées aux graphes de grande taille se contentent de hiérarchiser des classes pré-existantes, et sont incapables d’identifier de nouvelles classes à partir des données. Dans ce mémoire, nous proposons une méthode d’extraction de taxonomie expressive applicable à grande échelle, grâce à l’utilisation de plongements vectoriels. Les modèles de plongement vectoriel de graphe fournissent une représentation vectorielle dense des éléments d’un graphe, qui intègre sous forme géométrique les régularités des données : ainsi, deux éléments sémantiquement proches dans le graphe auront des plongements vectoriels géométriquement proches.Notre but est de démontrer le potentiel du regroupement hiérarchique non-supervisé appliqué aux plongements vectoriels sur la tâche d’extraction de taxonomie. Pour cela, nous procédons en deux étapes : nous montrons d’abord qu’un tel regroupement est capable d’extraire une taxonomie sur les classes existantes, puis qu’il permet de surcroît d’identifier de nouvelles classes et de les organiser hiérarchiquement, c’est-à-dire d’extraire une taxonomie expressive.----------ABSTRACT: Knowledge graphs are the backbone of the Semantic Web, and have been succesfully applied to a wide range of areas. Many of these graphs are built automatically or collaboratively,and aggregate data from various sources. In these conditions, automatically creating and updating a taxonomy that accurately reflects the content of a graph is an important issue. However, among scalable taxonomy extraction approaches, most of them can only extract a hierarchy on existing classes, and are unable to identify new classes from the data. In this thesis, we propose a novel taxonomy extraction method based on knowledge graph embeddings that is both scalable and expressive. A knowledge graph embedding model provides a dense, low-dimensional vector representation of the entities of a graph, such that similar entities in the graph are embedded close to each other in the embedding space.Our goal is to show how these graph embeddings can be combined with unsupervised hierarchical clustering to extract a taxonomy from a graph. We first show that unsupervised clustering is able to extract a taxonomy on existing classes. Then, we show that it can also be used to identify new classes and organize them hierarchically, thus creating an expressive taxonom
    corecore