12 research outputs found

    Enhancing Collaborative Filtering Using Semantic Relations in Data

    Get PDF
    International audienceRecommender Systems (RS) pre-select and filter information according to the needs and preferences of the user. Users express their interest in items by giving their opinion (explicit data) and navigating through the webpages (implicit data). In order to personalize users experience , recommender systems exploit this data by offering the items that the user could be more interested in. However, most of the RS do not deal with domain independency and scalability. In this paper, we propose a scalable and reliable recommender system based on semantic data and Matrix Factorization. The former increases the recommendations quality and domain independency. The latter offers scalability by distributing treatments over several machines. Consequently, our proposition offers quality in user's personalization in interchangeable item's environments, but also alleviates the system by balancing load among distributed machines

    Sampling Semantic Data Stream: Resolving Overload and Limited Storage Issues

    Get PDF
    International audienceThe Semantic Web technologies are being increasingly used for exploiting relations between data. In addition, new tendencies of real-time systems, such as social networks, sensors, cameras or weather information , are continuously generating data. This implies that the data and the links between them are becoming extremely vast. Such huge quantity of data needs to be analyzed, processed, as well as stored, if necessary. In this paper, we propose sampling operators that allow us to drop RDF Triples from the incoming data. Thereby, helping us to reduce the load on existing engines like CQELS, C-SPARQL, which are able to deal with big and linked data. Hence, the processing efforts, time as well as required storage space will reduce remarkably. We have proposed Uniform Random Sampling, Reservoir Sampling and Chain Sampling operators which may be implemented depending on the application

    C-SPARQL Extension for Sampling RDF Graphs Streams

    Get PDF
    International audienceOur daily use of Internet and related technologies generates continuously large amount of heterogeneous data flows. Several RDF Stream Processing (RSP) systems have been proposed. Existing RSP systems benefit from the advantages of semantic web technologies and traditional data flow management systems. C-SPARQL, CQELS, SPARQL stream , EP-SPARQL, and Sparkwave extend the semantic query language SPARQL and are examples of those systems. Considering that the storage and processing of all these streams become expensive, we propose a solution to reduce the load while keeping data semantics, and optimizing treatments. In this paper, we propose to extend C-SPARQL for continuously generating samples on RDF graphs. We add three sampling operators (UNIFORM, RESERVOIR and CHAIN) to the C-SPARQL query syntax. These operators have been implemented into Esper, the C-SPARQL's data flow management module. The experiments show the performance of our extension in terms of execution time and preserving data semantics

    Une archietecture orientée services pour la fourniture de documents multimédia composés adaptables

    No full text
    L'échange de documents multimédia composés de plusieurs médias élémentaires tels que des vidéos, des images ou du texte, est l'une des applications les plus populaires d'Internet. Idéalement, tout usager d'Internet devrait pouvoir accéder à ces contenus et les recevoir dans un format adapté au contexte dans lequel il travaille. Un contexte utilisateur peut être défini par les caractéristiques personnelles de l'utilisateur (ex : sa langue parlée, son handicap et ses centres d'intérêt), ses préférences de présentation des contenus multimédia (ex : son lecteur multimédia préféré ou la taille d'image souhaitée), les capacités de son terminal (ex : la taille de l'écran du terminal ou les lecteurs multimédia présents) et les caractéristiques de son réseau d'accès (ex : la bande passante). Compte tenu de la combinatoire des éléments de contexte, il n'est pas envisageable de fournir autant de versions des documents multimédia que de contextes possibles : l'adaptation des contenus est donc nécessaire. L'accroissement des utilisateurs des terminaux à capacités réduites tels que les assistants personnels (par ex. PDA) exclut une adaptation côté client (ou utilisateur final). L'adaptation, côté source du document multimédia, nécessite l'implémentation de modules supplémentaires qui n'est pas toujours possible et qui peut créer une charge supplémentaire indésirable. L'adaptation par un ou plusieurs intermédiaires répond le mieux aux besoins de passage à l'échelle et d'extensibilité. Une machine intermédiaire est un nœud inséré entre le client et le serveur et dédié, par exemple, à la découverte ou à l'adaptation de services (ex : réduction de la taille d'une image ou traduction et insertion de sous-titres au sein d'une vidéo). L'intermédiation ainsi réalisée apporte une valeur ajoutée en évitant de charger l'utilisateur final et la source du document de tâches spécifiques consommatrices de ressources sans rapport direct avec le service final offert. Cette approche est celle qui est prise dans la plupart des solutions existantes. Celles-ci utilisent des intermédiaires dédiés. Il en résulte une configuration d'adaptation figée ne garantissant pas la gestion de nouvelles techniques d'adaptation (ex : les adaptations relatives à l'handicap) et ne passant pas à l'échelle. Certaines solutions, basées sur ce même modèle, intègrent l'adaptation distribuée en répartissant la charge entre les intermédiaires qui réalisent l'adaptation. Elles ne traitent cependant pas la gestion dynamique des adaptateurs qui consiste à aller chercher des adaptateurs dans le réseau, les composer et les recomposer dynamiquement en cas de disparition. Elles ne traitent pas non plus l'adaptation des documents multimédia composés qui demande un effort supplémentaire d'analyse du document et de synchronisation des médias élémentaires le composant. La première contribution de cette thèse est la conception d'une architecture appelée PAAM (pour Architecture for the Provision of AdAptable Multimedia composed documents) qui a pour but d'adapter des documents multimédia composés au contexte des usagers. L'une des originalités de cette architecture est de mettre en place une adaptation distribuée sur différents nœuds du réseau en évitant de confier l'adaptation à un serveur ou à un intermédiaire dédié. La plate-forme d'adaptation de PAAM intègre aussi bien des fournisseurs de services d'adaptation que des particuliers qui se porteraient volontaires pour exécuter des fonctions d'adaptation en donnant un peu de leurs ressources matérielles et logicielles. Les principaux éléments fonctionnels de PAAM sont : le gestionnaire du contexte utilisateur, le gestionnaire des documents multimédia composés, le planificateur et le gestionnaire d'adaptation. Le gestionnaire du contexte utilisateur et le gestionnaire des documents multimédia composés récupèrent, analysent et agrégent respectivement les informations contextuelles de l'utilisateur et les informations descriptives des documents multimédia. Le planificateur implémente un algorithme de prise de décision reposant sur des politiques d'adaptation. Ce planificateur produit un graphe d'adaptation, c'est-à-dire un ensemble d'adaptateurs organisés en parallèle ou en séquence. Ce graphe est utilisé en entrée du gestionnaire d'adaptation qui recherche ces adaptateurs là où ils se trouvent, les instancie, les compose, si nécessaire, et les recompose si un ou plusieurs adaptateurs disparaissent. Nous avons choisi d'utiliser les services Web pour implémenter PAAM afin qu'elle soit distribué, extensible, modulable, tolérante aux fautes et passant à l'échelle, répondant ainsi aux limitations des autres architectures d'adaptation. Cette solution technologique permet à PAAM de décrire des ressources d'adaptation, de les publier, de les rechercher et les instancier. Dans le cadre de la composition et de l'orchestration des services Web, nous présentons BPEL (Business Process Execution Language) et son éventuelle intégration au sein d'un gestionnaire d'adaptation pour gérer l'exécution d'un graphe d'adaptation. La seconde contribution de cette thèse est la gestion des adaptateurs (description, recherche et instanciation). Nous proposons, pour cela, une nomenclature incluant un grand nombre d'adaptateurs. Nous proposons aussi une description d'adaptateurs qui étend WSDL, et qui facilite la recherche, l'instanciation et la composition de ces ressources d'adaptation. Nous exposons par la suite le protocole de négociation et d'acceptation établi entre un gestionnaire d'adaptation et un adaptateur permettant de déterminer si cet adaptateur peut réaliser l'adaptation ou non. PAAM gérant l'adaptation distribuée sur différents nœuds du réseau, susceptibles de se déconnecter à chaque instant, nous proposons des solutions pour gérer les déconnexions dans PAAM afin de lui procurer un aspect dynamique. Afin de démontrer la faisabilité de notre architecture, nous implémentons une chaîne d'adaptation complète incluant les principales fonctionnalités de PAAM : le gestionnaire du contexte utilisateur, le gestionnaire des documents multimédia composés, le planificateur et le gestionnaire d'adaptation. Nous présentons, par la suite, une étude des coûts induits par notre implémentation de PAAM et des tests de performances qui montrent que l'utilisation des services Web n'introduit pas de surcoûts significatifs par rapport au gain obtenu en distribuant l'adaptation sur différents nœuds. Pour conclure, parce qu'elle permet de gérer une grande variété d'adaptateurs de manière distribuée, l'architecture PAAM répond bien aux limitations des architectures d'adaptation basées sur une configuration client/serveur. L'intérêt de cette approche est la possibilité d'étendre et d'enrichir le système d'adaptation et de le déployer à large échelle tout en garantissant sa robustesse

    Une architecture orientée services pour la fourniture de documents multimédia composés adaptables

    No full text
    Ideally, any Internet user should have access to multimedia content and receive them in a format adapted to the context in which he works. However, it is not possible to provide as many versions of multimedia documents as possible contexts: the adaptation of content is needed. Our work presents a service-oriented architecture that adapts, according to a user context, multimedia composed documents. In this architecture, adaptation resources(or adaptors) are shared by nodes distributed in the network, in a P2P way. These nodes can be both users and service providers. The implementation of this adaptation platform is based on Web services. The web services description language is extended to describe adapation data so that it can easily be declared, looked up and instantiated. An adaptors composition is described as a graph that can be organized dynamically in order to face in any adaptor disappearance. We present a negotiation and acceptance protocol that helps adaptation managers to choose the best adapter. We carry out a complete adaptation chain using Web services and existing technology of multimedia content description languages. An evaluation of this approach shows that the cost resulting from distributed adaptors management is absorbed by the gain in parallel adaptations.Idéalement, tout usager d Internet devrait pouvoir accéder à ces contenus multimédia et les recevoir dans un format adapté au contexte dans lequel il travaille. Cependant, il n est pas envisageable de fournir autant de versions des documents multimédia que de contextes possibles : l adaptation des contenus est donc nécessaire. Nos travaux présentent une architecture orientée services qui adapte, par rapport à un contexte utilisateur, des documents multimédia composés. Dans cette architecture, les ressources d adaptation (ou adaptateurs) sont partagées par des nœuds distribués dans le réseau, dans une logique P2P. Ces nœuds peuvent aussi bien être des utilisateurs que des prestataires de services. La mise en œuvre de cette plateforme d adaptation est basée sur les services Web. Le langage de description des services Web est étendu afin de décrire des informations relatives au service d adaptation afin qu il puisse être facilement déclarée, recherché et instancié. Une composition d adaptateurs est décrite comme un graphe qui peut être dynamiquement réorganisée, ce qui facilite la prise en compte d éventuelles disparitions des adaptateurs. Nous présentons un protocole de négociation et d acceptation qui aide le gestionnaire d adaptation à choisir le meilleur adaptateur. Nous réalisons une chaîne complète d adaptation en utilisant les services Web et la technologie existante des langages de description de contenus multimédias. Une évaluation de cette approche montre que le coût induit par la gestion des adaptateurs distribués est absorbé par le gain obtenu en parallélisant les adaptations.PARIS-Télécom ParisTech (751132302) / SudocSudocFranceF

    Fast SPARQL join processing between distributed streams and stored RDF graphs using bloom filters

    No full text
    International audienceThe growth of real-time data generation and stored data leads us to be constantly in thinking about the three V's big data challenges: volume, velocity and variety. Existing RDF Stream Processing (RSP) systems have solved the variety lock by defining a common model for producing, transmitting and continuously querying data in RDF model. On the volume and velocity side, the performances of RSP systems need to be improved particularly in terms of joins process between stored and streaming RDF graphs. Stored RDF data are very important in streaming context (related ontologies, summarized RDF data, non-evolutive RDF data or evolve very slowly over time, etc.) but existing RSP systems such as C-SPARQL, CQELS, SPARQL stream , EP-SPARQL, Sparkwave, etc. use non-optimized and non-scalable approaches for performing join operations between stored and dynamic RDF data. Indeed, these systems need to read the entire local or remote stored RDF data sets while RDF data streams continuously arrived and need to be processed in near real-time. This latency may negatively affect performances in terms of continuous processing and often causes multiple bottlenecks within the network in a distributed environment. That also makes impractical to refresh data or update the stored contents. This paper proposes an approach for distributed real-time joins between stored and streaming RDF graphs using Bloom filters. The join procedure consists of adding fast processing by greatly reducing intermediate results, in-memory indices storage and precomputing query partitions according to the picked SPARQL query variable(s) between the two natures of RDF data. Experimental and evaluations results confirm the performances gained with our approach which significantly speeds up the query processing compared to the actual RSP's techniques

    On measuring performances of C-SPARQL and CQELS

    No full text
    13 pages, 9 figuresInternational audienceTo cope with the massive growth of semantic data streams, several RDF Stream Processing (RSP) engines have been implemented. The efficiency of their throughput, latency and memory consumption can be evaluated using available benchmarks such as LSBench and City- Bench. Nevertheless, these benchmarks lack an in-depth performance evaluation as some measurement metrics have not been considered. The main goal of this paper is to analyze the performance of two popular RSP engines, namely C-SPARQL and CQELS, when varying a set of performance metrics. More precisely, we evaluate the impact of stream rate, number of streams and window size on execution time as well as on memory consumption

    On measuring performances of C-SPARQL and CQELS

    No full text
    13 pages, 9 figuresInternational audienceTo cope with the massive growth of semantic data streams, several RDF Stream Processing (RSP) engines have been implemented. The efficiency of their throughput, latency and memory consumption can be evaluated using available benchmarks such as LSBench and City- Bench. Nevertheless, these benchmarks lack an in-depth performance evaluation as some measurement metrics have not been considered. The main goal of this paper is to analyze the performance of two popular RSP engines, namely C-SPARQL and CQELS, when varying a set of performance metrics. More precisely, we evaluate the impact of stream rate, number of streams and window size on execution time as well as on memory consumption

    Apache Spark and Apache Kafka at the rescue of distributed RDF Stream Processing engines

    No full text
    International audienceDue to the growing need to timely process and derive valuable information and knowledge from data produced in the Semantic Web, RDF stream processing (RSP) has emerged as an important research domain. In this paper, we describe the design of an RSP engine that is built upon state of the art Big Data frameworks, namely Apache Kafka and Apache Spark. Together, they support the implementation of a production-ready RSP engine that guarantees scalability, fault-tolerance, high availability, low latency and high throughput. Moreover, we highlight that the Spark framework considerably eases the implementation of complex applications requiring libraries as diverse as machine learning, graph processing, query processing and stream processing
    corecore