12 research outputs found

    MAPPING POTENTIAL ATTACKERS AGAINST NETWORK SECURITY USING LOCATION AWARE REACHABILITY QUERIES ON GEO SOCIAL DATA

    Get PDF
    Attacks on network security can happen anywhere. Using Geo-Social Networks (GSN), i.e., a graph that combines social network data and spatial information, we can find the potential attackers based on the given location. In answering the graph-based problems, Reachability Queries are utilized. It verifies the reachability between two nodes in the graph. This paper addresses a problem defined as follows: Given a geo-social grap

    Efficient Online Processing for Advanced Analytics

    Get PDF
    With the advent of emerging technologies and the Internet of Things, the importance of online data analytics has become more pronounced. Businesses and companies are adopting approaches that provide responsive analytics to stay competitive in the global marketplace. Online analytics allow data analysts to promptly react to patterns or to gain preliminary insights from early results that aid in research, decision making, and effective strategy planning. The growth of data-velocity in a variety of domains including, high-frequency trading, social networks, infrastructure monitoring, and advertising require adopting online engines that can efficiently process continuous streams of data. This thesis presents foundations, techniques, and systems' design that extend the state-of-the-art in online query processing to efficiently support relational joins with arbitrary join-predicates (beyond traditional equi-joins); and to support other data models (beyond relational) that target machine learning and graph computations. The thesis is divided into two parts: We first present a brief overview of Squall, our open-source online query processing engine that supports SQL-like queries on top of streams. Then, we focus on extending Squall to support efficient theta-join processing. Scalable distributed join processing requires a partitioning policy that evenly distributes the processing load while minimizing the size of maintained state and duplicated messages. Efficient load-balance demands apriori-statistics which are not available in the online setting. We propose a novel operator that continuously adjusts itself to the data dynamics, through adaptive dataflow routing and state repartitioning. It is also resilient to data-skew, maintains high throughput rates, avoids blocking during state repartitioning, and behaves as a black-box dataflow operator with provable performance guarantees. Our evaluation demonstrates that the proposed operator outperforms the state-of-the-art static partitioning schemes in resource utilization, throughput, and execution time up to 7x. In the second part, we present a novel framework that supports the Incremental View Maintenance (IVM) of workloads expressed as linear algebra programs. Linear algebra represents a concrete substrate for advanced analytical tasks including, machine learning, scientific computation, and graph algorithms. Previous works on relational calculus IVM are not applicable to matrix algebra workloads. This is because a single entry change to an input-matrix results in changes all over the intermediate views, rendering IVM useless in comparison to re-evaluation. We present Lago, a unified modular compiler framework that supports the IVM of a broad class of linear algebra programs. Lago automatically derives and optimizes incremental trigger programs of analytical computations, while freeing the user from erroneous manual derivations, low-level implementation details, and performance tuning. We present a novel technique that captures Δ\Delta changes as low-rank matrices. Low-rank matrices are representable in a compressed factored form that enables cheaper computations. Lago automatically propagates the factored representation across program statements to derive an efficient trigger program. Moreover, Lago extends its support to other domains that use different semi-ring configurations, e.g., graph applications. Our evaluation results demonstrate orders of magnitude (10x-1

    A Comprehensive Bibliometric Analysis on Social Network Anonymization: Current Approaches and Future Directions

    Full text link
    In recent decades, social network anonymization has become a crucial research field due to its pivotal role in preserving users' privacy. However, the high diversity of approaches introduced in relevant studies poses a challenge to gaining a profound understanding of the field. In response to this, the current study presents an exhaustive and well-structured bibliometric analysis of the social network anonymization field. To begin our research, related studies from the period of 2007-2022 were collected from the Scopus Database then pre-processed. Following this, the VOSviewer was used to visualize the network of authors' keywords. Subsequently, extensive statistical and network analyses were performed to identify the most prominent keywords and trending topics. Additionally, the application of co-word analysis through SciMAT and the Alluvial diagram allowed us to explore the themes of social network anonymization and scrutinize their evolution over time. These analyses culminated in an innovative taxonomy of the existing approaches and anticipation of potential trends in this domain. To the best of our knowledge, this is the first bibliometric analysis in the social network anonymization field, which offers a deeper understanding of the current state and an insightful roadmap for future research in this domain.Comment: 73 pages, 28 figure

    Preserving Secrecy in Online Social Networks: Data Outsourcing, Access Control, and Secrecy Schemes

    Get PDF
    In den vergangenen Jahren haben sich Online Social Networks (OSNs) wie Facebook und Foursquare zu einer beliebten Möglichkeit der Kommunikation und des Teilens von Informationen unter Nutzern entwickelt. OSNs sind virtuelle Communitys, die Informationen ĂŒber die Nutzer und die zwischen ihnen bestehenden Beziehungen, wie z.~B. Freundschaften, enthalten. ZusĂ€tzlich dazu, dass eine Interaktion der Nutzer untereinander ermöglicht wird, bieten OSNs ihren Nutzern normalerweise verschiedene Arten von Dienstleistungen an, wie z.~B. die Abfrage nach Freunden innerhalb einer bestimmten Entfernung. Um auf diese Dienstleistungen zugreifen zu können, kann es sein, dass Nutzer darum gebeten werden, in den OSN-Systemen eine Reihe von Informationen, wie z.~B. ihre physische Position, zu speichern. Da die meisten der in OSNs gespeicherten Informationen zu deren Nutzern privater Natur sind, ist es von wesentlicher Bedeutung, die Informationen vor unbefugtem Zugriff zu schĂŒtzen, um Geheimhaltungsprobleme zu vermeiden. Zu diesem Zweck verwenden OSNs Zugriffskontrollsysteme. Diese Systeme haben drei Hauptkomponenten, nĂ€mlich die Zugriffskontrollrichtlinien, das Zugriffskontrollmodell und den Autorisierungsmechanismus. Die Zugriffskontrollrichtlinien ermöglichen es Nutzern zu spezifizieren, wer auf deren Ressourcen zugreifen darf. Das Zugriffskontrollmodell bietet die Syntax und Semantik, um die Zugriffskontrollrichtlinien zu formalisieren. Die formale ReprĂ€sentation der Zugriffskontrollrichtlinien in einem Zugriffskontrollmodell wird als Autorisierung bezeichnet. Der Autorisierungsmechanismus, welcher von den OSN-Anbietern verwaltet wird, setzt die Autorisierungen durch. Obwohl in der Literatur verschiedene Zugriffskontrollsysteme vorgeschlagen wurden, gibt es zwei Hauptprobleme in Bezug auf diese Systeme, die sich auf die Verbreitung von OSNs auswirken können. Das erste Problem bezieht sich auf die FlexibilitĂ€t von Zugriffskontrollmodellen. Eine der grĂ¶ĂŸten Herausforderungen von OSNs besteht darin, das Teilen von Informationen unter ihren Nutzern zu fördern. Nutzer neigen normalerweise dazu, Informationen nur mit Nutzern zu teilen, die bestimmte Bedingungen erfĂŒllen; andernfalls tun sie es nicht. Zu diesem Zweck sollten Zugriffskontrollsysteme den Spezifizierern der Richtlinien FlexibilitĂ€t bieten, damit diese die Bedingungen bezĂŒglich des Zugriffs auf ihre Daten ausdrĂŒcken können. Wenn Nutzer entscheiden, wer auf ihre Ressourcen zugreifen darf, hĂ€ngen die Zugriffsbedingungen von sozialen Faktoren und menschlichem Verhalten ab. Studien in Fachgebieten wie der Psychologie und der Soziologie haben nachgewiesen, dass Menschen zwar ein Selbstinteresse haben, oftmals jedoch gegenseitig von dieser Haltung abweichen. Gegenseitigkeit bedeutet, dass Menschen als Antwort auf freundliche Handlungen kooperativer werden. Daher ist Gegenseitigkeit eine starke Determinante in Bezug auf menschliches Verhalten. Bestehende Zugriffsrichtlinien erfassen dieses PhĂ€nomen der Gegenseitigkeit jedoch nicht, was dazu fĂŒhren kann, dass Nutzer davon abgehalten werden, Informationen zu teilen. Das zweite Problem besteht darin, dass Nutzer OSN-Anbietern dahingehend vertrauen mĂŒssen, dass sie ihre Daten schĂŒtzen, wenn sie die Autorisierungen durchsetzen. Aktuelle Datenschutzverletzungen haben die VertrauenswĂŒrdigkeit der Dienstleistungsanbieter in Frage gestellt. Scheinbar steigert der zunehmende wirtschaftliche Gewinn, der aus dem Verkauf personenbezogener Daten erzielt wird, die Versuchung der Anbieter, Betrug zu begehen. In dieser Dissertation werden Techniken und Modelle entwickelt, um auf diese zwei Probleme einzugehen. Die Arbeit ist in drei Abschnitte aufgeteilt. Der erster Beitrag behandelt das FlexibilitĂ€tsproblem von Zugriffskontrollmodellen. Hier schlagen wir die Syntax und Semantik einer neuen Art von Autorisierung vor, die als gegenseitig bezeichnet wird und es ermöglicht, wechselseitiges Verhalten zu modellieren. Gegenseitigkeit kommt im Rahmen der Zugriffskontrolle zum Zuge, wenn Personen jenen Nutzern den Zugriff auf ihre Ressourcen gewĂ€hren, die ihnen erlauben, das Gleiche zu tun. Wir verwenden standortbasierte Dienstleistungen als Beispiel fĂŒr den Einsatz gegenseitiger Autorisierungen. Zu diesem Zweck schlagen wir zwei AnsĂ€tze vor, um gegenseitige Autorisierungen in diese Dienstleistungen zu integrieren. DarĂŒber hinaus weisen wir die Stimmigkeit beider AnsĂ€tze nach und bestimmen auf dem Wege von KomplexitĂ€tsanalysen, unter welchen Bedingungen jeder Ansatz jeweils leistungsfĂ€higer ist als der andere. Unsere zweiten und dritten BeitrĂ€ge gehen aus zwei verschiedenen Blickwinkeln auf das Misstrauen von Nutzern bezĂŒglich der Dienstleistungsanbieter ein. Unser zweiter Beitrag erörtert das Szenario, in welchem der Nutzer, d. h. die Einheit, welche Abfragen von Daten durchfĂŒhren möchte, auch EigentĂŒmer der Daten ist. Aufgrund von RessourcenbeschrĂ€nkungen möchte der Nutzer die Daten jedoch nicht allein verwalten. Er möchte dies an einen Dienstleistungsanbieter auslagern, um bei einer Abfrage einen Teil der Daten abrufen zu können, welche der DurchfĂŒhrung der Abfrage GenĂŒge leisten. In diesem Fall besteht kein Bedarf an Zugriffsrichtlinien, da es einen einzelnen Nutzer gibt, der EigentĂŒmer der Daten ist. Daher kann in diesem Szenario das Vertrauensproblem bezĂŒglich Dienstleistungsanbietern auf die Geheimhaltung ausgelagerter Daten reduziert werden. Außerdem ist es fĂŒr den Nutzer wichtig, in der Lage zu sein, eine Anpassung zwischen Geheimhaltung und Leistung vorzunehmen, da die Abfrage nutzerseitig, unter Verwendung des erhaltenen Datenabschnitts, berechnet wird und weil eine negative Korrelation zwischen Geheimhaltung und Leistung besteht. Diese Art von Szenario findet aufgrund der wirtschaftlichen und organisatorischen Vorteile von „Database-as-a-Service“ oft bei Startup-Unternehmen Anwendung. Insbesondere in diesem Bereich weisen viele Daten eine Graphstruktur auf, z.~B. Protein-Netzwerke, Straßen-Netzwerke und Stromnetz-Netzwerke. Hier schlagen wir einen Gruppierungsansatz fĂŒr die sichere Auslagerung von Daten mit Graphstrukturen vor, wobei nachweisbare Geheimhaltungsgarantien geboten werden. Unser Ansatz ermöglicht es Nutzern, Anpassungen zwischen Ebenen von Geheimhaltung und Leistung vorzunehmen. ZusĂ€tzlich entwickeln wir zur Erleichterung der Planung von Abfragen ein Modell, welches das Verhalten unseres Algorithmus vorhersagen kann. Unser dritter Beitrag berĂŒcksichtigt den Fall, in dem es einem Nutzer nicht ermöglicht wird, auf Daten zuzugreifen, die zur DurchfĂŒhrung von Abfragen nötig sind. Die Nutzer haben jedoch Zugriff auf die Ergebnisse der Abfrage bezĂŒglich der Daten. In diesem Szenario gibt es typischerweise mehrere Nutzer, wobei jeder einen anderen Teil der Daten besitzt, und jeder Nutzer auf Basis von spezifizierten Zugriffsrichtlinien auf Abfrageergebnisse bezĂŒglich der Daten zugreifen kann, die anderen gehören. Dann muss der OSN-Anbieter die erforderliche Kernberechnung durchfĂŒhren, und der Nutzer kann nur auf das Ergebnis von Dienstleistungen zugreifen, die vom OSN geboten werden. FĂŒr dieses Szenario entwickeln wir zwei Methoden, welche bestehende VerschlĂŒsselungsschemata kombinieren, um es Nutzern von OSNs zu ermöglichen, Abfragen bezĂŒglich Freunden in einer bestimmten Entfernung durchzufĂŒhren. Beide AnsĂ€tze beinhalten eine Aufhebungsfunktion und bieten Geheimhaltungsgarantien unter der Annahme geheimer Absprachen, d. h. ein Gegenspieler kann mit dem Dienstleistungsanbieter zusammenspielen. Daneben bieten wir KomplexitĂ€tsanalysen unserer AnsĂ€tze, um diese bewerten und vergleichen zu können. Unsere Analysen teilen uns mit, welcher Ansatz in jeder Einheit, die in dem System involviert ist, leistungsfĂ€higer ist. Diese Dissertation beinhaltet eine umfassende experimentelle Analyse all unserer AnsĂ€tze auf Basis von synthetischen und realen DatensĂ€tzen, welche die Wirksamkeit unserer Methoden bestĂ€tigen

    Towards Efficient and Scalable Data-Intensive Content Delivery: State-of-the-Art, Issues and Challenges

    Get PDF
    This chapter presents the authors’ work for the Case Study entitled “Delivering Social Media with Scalability” within the framework of High-Performance Modelling and Simulation for Big Data Applications (cHiPSet) COST Action 1406. We identify some core research areas and give an outline of the publications we came up within the framework of the aforementioned action. The ease of user content generation within social media platforms, e.g. check-in information, multimedia data, etc., along with the proliferation of Global Positioning System (GPS)-enabled, always-connected capture devices lead to data streams of unprecedented amount and a radical change in information sharing. Social data streams raise a variety of practical challenges: derivation of real-time meaningful insights from effectively gathered social information, a paradigm shift for content distribution with the leverage of contextual data associated with user preferences, geographical characteristics and devices in general, etc. In this article we present the methodology we followed, the results of our work and the outline of a comprehensive survey, that depicts the state-of-the-art situation and organizes challenges concerning social media streams and the infrastructure of the data centers supporting the efficient access to data streams in terms of content distribution, data diffusion, data replication, energy efficiency and network infrastructure. The challenges of enabling better provisioning of social media data have been identified and they were based on the context of users accessing these resources. The existing literature has been systematized and the main research points and industrial efforts in the area were identified and analyzed. In our works, in the framework of the Action, we came up with potential solutions addressing the problems of the area and described how these fit in the general ecosystem

    Privacy-preserving Cooperative Services for Smart Traffic

    Get PDF
    Communication technology and the increasing intelligence of things enable new qualities of cooperation. However, it is often unclear how complex functionality can be realized in a reliable and abuse-resistant manner without harming users\u27 privacy in the face of strong adversaries. This thesis focuses on three functional building blocks that are especially challenging in this respect: cooperative planning, geographic addressing and the decentralized provision of pseudonymous identifiers

    Analysing trajectory similarity and improving graph dilation

    Get PDF
    In this thesis, we focus on two topics in computational geometry. The first topic is analysing trajectory similarity. A trajectory tracks the movement of an object over time. A common way to analyse trajectories is by finding similarities. The Fr\'echet distance is a similarity measure that has gained popularity in the theory community, since it takes the continuity of the curves into account. One way to analyse trajectories using the Fr\'echet distance is to cluster trajectories into groups of similar trajectories. For vehicle trajectories, another way to analyse trajectories is to compute the path on the underlying road network that best represents the trajectory. The second topic is improving graph dilation. Dilation measures the quality of a network in applications such as transportation and communication networks. Spanners are low dilation graphs with not too many edges. Most of the literature on spanners focuses on building the graph from scratch. We instead focus on adding edges to improve the dilation of an existing graph

    LIPIcs, Volume 244, ESA 2022, Complete Volume

    Get PDF
    LIPIcs, Volume 244, ESA 2022, Complete Volum

    High-Performance Modelling and Simulation for Big Data Applications

    Get PDF
    This open access book was prepared as a Final Publication of the COST Action IC1406 “High-Performance Modelling and Simulation for Big Data Applications (cHiPSet)“ project. Long considered important pillars of the scientific method, Modelling and Simulation have evolved from traditional discrete numerical methods to complex data-intensive continuous analytical optimisations. Resolution, scale, and accuracy have become essential to predict and analyse natural and complex systems in science and engineering. When their level of abstraction raises to have a better discernment of the domain at hand, their representation gets increasingly demanding for computational and data resources. On the other hand, High Performance Computing typically entails the effective use of parallel and distributed processing units coupled with efficient storage, communication and visualisation systems to underpin complex data-intensive applications in distinct scientific and technical domains. It is then arguably required to have a seamless interaction of High Performance Computing with Modelling and Simulation in order to store, compute, analyse, and visualise large data sets in science and engineering. Funded by the European Commission, cHiPSet has provided a dynamic trans-European forum for their members and distinguished guests to openly discuss novel perspectives and topics of interests for these two communities. This cHiPSet compendium presents a set of selected case studies related to healthcare, biological data, computational advertising, multimedia, finance, bioinformatics, and telecommunications

    FROM SMALL-WORLDS TO BIG DATA:TEMPORAL AND MULTIDIMENSIONAL ASPECTS OF HUMAN NETWORKS

    Get PDF
    In this thesis we address the close interplay among mobility, offline relationships and online interactions and the related human networks at different dimensional scales and temporal granularities. By generally adopting a data-driven approach, we move from small datasets about physical interactions mediated by human-carried devices, describing small social realities, to large-scale graphs that evolve over time, as well as from human mobility trajectories to face-to-face contacts occurring in different geographical contexts. We explore in depth the relation between human mobility and the social structure induced by the overlapping of different people's trajectories on GPS traces collected in urban and metropolitan areas. We define the notions of geo-location and geo-community which are operational in describing in a unique framework both spatial and social aspects of human behavior. Through the concept of geo-community we model the human mobility adopting a bipartite graph. Thanks to this graph representation we can generate a social structure that is plausible w.r.t. the real interactions. In general the modeling approach have the merit for reporting the mobility in a graph-theoretic framework making the study of the interplay mobility/sociality more affordable and intuitive. Our modeling approach also results in a mobility model, Geo-CoMM, which lies on and exploits the idea of geo-community. The model represents a particular instance of a general framework we provide. A framework where the social structure behind the preferred-location based mobility models emerges. We validate Geo-CoMM on spatial, temporal, pairwise connectivity and social features showing that it reproduces the main statistical properties observed in real traces. As concerns the offline/online interplay we provide a complete overview of the close connection between online and offline sociality. To reach our goal we gather data about offline contacts and social interactions on Facebook of a group of students and we propose a multidimensional network analysis which allows us to deeply understand how the characteristics of users in the distinct networks impact each other. Results show how offline and Facebook friends are different. This way we confirm and worsen the general intuition that online social networks have shifted away from their original goal to mirror the offline sociality of individuals. As for the role and the social importance, it becomes apparent that social features such as user popularity or community structure do not transfer along social dimensions, as confirmed by our correlation analysis of the network layers and by the comparison among the communities. In the last chapters we analyze the evolution of the online social network from a physical time perspective, i.e. considering the graph evolution as a graph time-series and not as a function of the network basic properties (number of nodes or links). As for the physical time in a user-centric viewpoint, we investigate the bursty nature of the link creation process in online social network. We prove not only that it is a highly inhomogeneous process, but also identify patterns of burstiness common to all nodes. Then we focus on the dynamic formation of two fundamental network building components: dyads and triads. We propose two new metrics to aid the temporal analysis on physical time: link creation delay and triangle closure delay. These two metrics enable us to study the dynamic creation of dyads and triads, and to highlight network behavior that would otherwise remain hidden. In our analysis, we find that link delays are generally very low in absolute time and are largely independent of the dates people join the network. To highlight the social nature of this metric, we introduce the term \textit{peerness} to quantify how well linked users overlap in lifetimes. As for triadic closure delay we first introduce an algorithm to extract of temporal triangle which enables us to monitor the triangle formation process, and to detect sudden changes in the triangle formation behavior, possibly related to external events. In particular, we show that the introduction of new service functionalities had a disruptive impact on the triangle creation process in the network
    corecore