586 research outputs found

    Privacy-preserving distributed data mining

    Get PDF
    This thesis is concerned with privacy-preserving distributed data mining algorithms. The main challenges in this setting are inference attacks and the formation of collusion groups. The inference problem is the reconstruction of sensitive data by attackers from non-sensitive sources, such as intermediate results, exchanged messages, or public information. Moreover, in a distributed scenario, malicious insiders can organize collusion groups to deploy more effective inference attacks. This thesis shows that existing privacy measures do not adequately protect privacy against inference and collusion. Therefore, in this thesis, new measures based on information theory are developed to overcome the identiffied limitations. Furthermore, a new distributed data clustering algorithm is presented. The clustering approach is based on a kernel density estimates approximation that generates a controlled amount of ambiguity in the density estimates and provides privacy to original data. Besides, this thesis also introduces the first privacy-preserving algorithms for frequent pattern discovery in a distributed time series. Time series are transformed into a set of n-dimensional data points and finding frequent patterns reduced to finding local maxima in the n-dimensional density space. The proposed algorithms are linear in the size of the dataset with low communication costs, validated by experimental evaluation using different datasets.Diese Arbeit befasst sich mit vertraulichkeitsbewahrendem Data Mining in verteilten Umgebungen mit Schwerpunkt auf ausgewählten N-Agenten-Angriffsszenarien für das Inferenzproblem im Data-Clustering und der Zeitreihenanalyse. Dabei handelt es sich um Angriffe von einzelnen oder Teilgruppen von Agenten innerhalb einer verteilten Data Mining-Gruppe oder von einem einzelnen Agenten außerhalb dieser Gruppe. Zunächst werden in dieser Arbeit zwei neue Privacy-Maße vorgestellt, die im Gegensatz zu bislang existierenden, die im verteilten Data Mining allgemein geforderte Eigenschaften zur Vertraulichkeitsbewahrung erfüllen und bei denen sich der gemessene Grad der Vertraulichkeit auf die verwendete Datenanalysemethode und die Anzahl von Angreifern bezieht. Für den Zweck eines vertraulichkeitsbewahrenden, verteilten Data-Clustering wird ein neues Kernel-Dichteabschätzungsbasiertes Verfahren namens KDECS vorgestellt. KDECS verwendet eine Approximation der originalen, lokalen Kernel-Dichteschätzung, so dass die ursprünglichen Daten anderer Agenten in der Data Mining-Gruppe mit einer höheren Wahrscheinlichkeit als einem hierfür vorgegebenen Wert nicht mehr zu rekonstruieren sind. Das Verfahren ist nachweislich sicherer als Data-Clustering mit generativen Mixture Modellen und SMC-basiert sicherem k-means Data-Clustering. Zusätzlich stellen wir neue Verfahren, namens DPD-TS, DPD-HE und DPDFS, für eine vertraulichkeitsbewahrende, verteilte Mustererkennung in Zeitreihen vor, deren Komplexität und Sicherheitsgrad wir mit den zuvor erwähnten neuen Privacy-Maßen analysieren. Dabei hängt ein von einzelnen Agenten einer Data Mining-Gruppe jeweils vorgegebener, minimaler Sicherheitsgrad von DPD-TS und DPD-FS nur von der Dimensionsreduktion der Zeitreihenwerte und ihrer Diskretisierung ab und kann leicht überprüft werden. Einen noch besseren Schutz von sensiblen Daten bietet das Verfahren DPD HE mit Hilfe von homomorpher Verschlüsselung. Neben der theoretischen Analyse wurden die experimentellen Leistungsbewertungen der entwickelten Verfahren mit verschiedenen, öffentlich verfügbaren Datensätzen durchgeführt

    TEEvil: Identity Lease via Trusted Execution Environments

    Full text link
    We investigate identity lease, a new type of service in which users lease their identities to third parties by providing them with full or restricted access to their online accounts or credentials. We discuss how identity lease could be abused to subvert the digital society, facilitating the spread of fake news and subverting electronic voting by enabling the sale of votes. We show that the emergence of Trusted Execution Environments and anonymous cryptocurrencies, for the first time, allows the implementation of such a lease service while guaranteeing fairness, plausible deniability and anonymity, therefore shielding the users and account renters from prosecution. To show that such a service can be practically implemented, we build an example service that we call TEEvil leveraging Intel SGX and ZCash. Finally, we discuss defense mechanisms and challenges in the mitigation of identity lease services.Comment: 21 pages, 5 figure

    On Detection of Current and Next-Generation Botnets.

    Full text link
    Botnets are one of the most serious security threats to the Internet and its end users. A botnet consists of compromised computers that are remotely coordinated by a botmaster under a Command and Control (C&C) infrastructure. Driven by financial incentives, botmasters leverage botnets to conduct various cybercrimes such as spamming, phishing, identity theft and Distributed-Denial-of-Service (DDoS) attacks. There are three main challenges facing botnet detection. First, code obfuscation is widely employed by current botnets, so signature-based detection is insufficient. Second, the C&C infrastructure of botnets has evolved rapidly. Any detection solution targeting one botnet instance can hardly keep up with this change. Third, the proliferation of powerful smartphones presents a new platform for future botnets. Defense techniques designed for existing botnets may be outsmarted when botnets invade smartphones. Recognizing these challenges, this dissertation proposes behavior-based botnet detection solutions at three different levels---the end host, the edge network and the Internet infrastructure---from a small scale to a large scale, and investigates the next-generation botnet targeting smartphones. It (1) addresses the problem of botnet seeding by devising a per-process containment scheme for end-host systems; (2) proposes a hybrid botnet detection framework for edge networks utilizing combined host- and network-level information; (3) explores the structural properties of botnet topologies and measures network components' capabilities of large-scale botnet detection at the Internet infrastructure level; and (4) presents a proof-of-concept mobile botnet employing SMS messages as the C&C and P2P as the topology to facilitate future research on countermeasures against next-generation botnets. The dissertation makes three primary contributions. First, the detection solutions proposed utilize intrinsic and fundamental behavior of botnets and are immune to malware obfuscation and traffic encryption. Second, the solutions are general enough to identify different types of botnets, not a specific botnet instance. They can also be extended to counter next-generation botnet threats. Third, the detection solutions function at multiple levels to meet various detection needs. They each take a different perspective but are highly complementary to each other, forming an integrated botnet detection framework.Ph.D.Computer Science & EngineeringUniversity of Michigan, Horace H. Rackham School of Graduate Studieshttp://deepblue.lib.umich.edu/bitstream/2027.42/91382/1/gracez_1.pd

    Graph Mining for Cybersecurity: A Survey

    Full text link
    The explosive growth of cyber attacks nowadays, such as malware, spam, and intrusions, caused severe consequences on society. Securing cyberspace has become an utmost concern for organizations and governments. Traditional Machine Learning (ML) based methods are extensively used in detecting cyber threats, but they hardly model the correlations between real-world cyber entities. In recent years, with the proliferation of graph mining techniques, many researchers investigated these techniques for capturing correlations between cyber entities and achieving high performance. It is imperative to summarize existing graph-based cybersecurity solutions to provide a guide for future studies. Therefore, as a key contribution of this paper, we provide a comprehensive review of graph mining for cybersecurity, including an overview of cybersecurity tasks, the typical graph mining techniques, and the general process of applying them to cybersecurity, as well as various solutions for different cybersecurity tasks. For each task, we probe into relevant methods and highlight the graph types, graph approaches, and task levels in their modeling. Furthermore, we collect open datasets and toolkits for graph-based cybersecurity. Finally, we outlook the potential directions of this field for future research

    Twitter Bots’ Detection with Benford’s Law and Machine Learning

    Get PDF
    Online Social Networks (OSNs) have grown exponentially in terms of active users and have now become an influential factor in the formation of public opinions. For this reason, the use of bots and botnets for spreading misinformation on OSNs has become a widespread concern. Identifying bots and botnets on Twitter can require complex statistical methods to score a profile based on multiple features. Benford’s Law, or the Law of Anomalous Numbers, states that, in any naturally occurring sequence of numbers, the First Significant Leading Digit (FSLD) frequency follows a particular pattern such that they are unevenly distributed and reducing. This principle can be applied to the first-degree egocentric network of a Twitter profile to assess its conformity to such law and, thus, classify it as a bot profile or normal profile. This paper focuses on leveraging Benford’s Law in combination with various Machine Learning (ML) classifiers to identify bot profiles on Twitter. In addition, a comparison with other statistical methods is produced to confirm our classification results

    Impact of Location Spoofing Attacks on Performance Prediction in Mobile Networks

    Get PDF
    Performance prediction in wireless mobile networks is essential for diverse purposes in network management and operation. Particularly, the position of mobile devices is crucial to estimating the performance in the mobile communication setting. With its importance, this paper investigates mobile communication performance based on the coordinate information of mobile devices. We analyze a recent 5G data collection and examine the feasibility of location-based performance prediction. As location information is key to performance prediction, the basic assumption of making a relevant prediction is the correctness of the coordinate information of devices given. With its criticality, this paper also investigates the impact of position falsification on the ML-based performance predictor, which reveals the significant degradation of the prediction performance under such attacks, suggesting the need for effective defense mechanisms against location spoofing threats

    A Blockchain-Based Retribution Mechanism for Collaborative Intrusion Detection

    Get PDF
    Collaborative intrusion detection approach uses the shared detection signature between the collaborative participants to facilitate coordinated defense. In the context of collaborative intrusion detection system (CIDS), however, there is no research focusing on the efficiency of the shared detection signature. The inefficient detection signature costs not only the IDS resource but also the process of the peer-to-peer (P2P) network. In this paper, we therefore propose a blockchain-based retribution mechanism, which aims to incentivize the participants to contribute to verifying the efficiency of the detection signature in terms of certain distributed consensus. We implement a prototype using Ethereum blockchain, which instantiates a token-based retribution mechanism and a smart contract-enabled voting-based distributed consensus. We conduct a number of experiments built on the prototype, and the experimental results demonstrate the effectiveness of the proposed approach

    Word Embeddings for Fake Malware Generation

    Get PDF
    Signature and anomaly-based techniques are the fundamental methods to detect malware. However, in recent years this type of threat has advanced to become more complex and sophisticated, making these techniques less effective. For this reason, researchers have resorted to state-of-the-art machine learning techniques to combat the threat of information security. Nevertheless, despite the integration of the machine learning models, there is still a shortage of data in training that prevents these models from performing at their peak. In the past, generative models have been found to be highly effective at generating image-like data that are similar to the actual data distribution. In this paper, we leverage the knowledge of generative modeling on opcode sequences and aim to generate malware samples by taking advantage of the contextualized embeddings from BERT. We obtained promising results when differentiating between real and generated samples. We observe that generated malware has such similar characteristics to actual malware that the classifiers are having difficulty in distinguishing between the two, in which the classifiers falsely identify the generated malware as actual malware almost of the time

    A Blockchain-Based Tamper-Resistant Logging Framework

    Get PDF
    Since its introduction in Bitcoin, the blockchain has proven to be a versatile data structure. In its role as an immutable ledger, it has grown beyond its initial use in financial transactions to be used in recording a wide variety of other useful information. In this paper, we explore the application of the blockchain outside of its traditional decentralized, financial domain. We show how, even with only a single “mining” node, a proof-of-work blockchain can be the cornerstone of a tamper resistant logging framework. By attaching a proof-of-work to blocks of logging messages, we make it increasingly difficult for an attacker to modify those logs even after totally compromising the system. Furthermore, we discuss various strategies an attacker might take to modify the logs without detection and show how effective those evasion techniques are against statistical analysis

    Security and Anonymity Aspects of the Network Layer of Permissionless Blockchains

    Get PDF
    Permissionless Blockchains sind dezentrale Systeme, die Konsens erzielen. Das prominenteste Beispiel einer Permissionless Blockchain ist das elektronische Zahlungssystem Bitcoin, welches Konsens über die von Teilnehmern des Systems erzeugten Finanztransaktionen erzielt. Während verteilter Konsens seit Jahrzehnten Gegenstand zahlreicher Forschungsarbeiten ist, ist Bitcoin das erste bekannte System, welches Konsens im sog. permissionless-Modell erzielt, d.h. ohne die vorausgehende Feststellung der Identitäten der Teilnehmer des Systems. Die Teilnehmer von Permissionless Blockchains kommunizieren über ein unstrukturiertes Peer-to-Peer (P2P) Netzwerk miteinander. Da das Verfahren zur Konsensbildung von Permissionless Blockchains auf Daten basiert, die über dieses P2P-Netzwerk übertragen werden, können Sicherheitslücken in der Netzwerkschicht auch die Konsensbildung und damit die angestrebte Funktion des Systems beeinflussen. Während unstrukturierte P2P-Netzwerke in der Vergangenheit umfassend analysiert wurden, führt ihr Einsatz in Permissionless Blockchains zu Sicherheitsanforderungen und Angreifermodellen, die bisher noch nicht berücksichtigt wurden. Obwohl einzelne Angriffe auf die Netzwerkschicht von Permissionless Blockchains analysiert wurden, ist unklar, welche Sicherheitseigenschaften die Netzwerkschicht von Permissionless Blockchains haben sollte. Diese Unklarheit motiviert die erste in dieser Dissertation behandelte Forschungsfrage: Wie können Anforderungen und Zielkonflikte, die in den Mechanismen der Netzwerkschicht von Permissionless Blockchains vorhanden sind, untersucht werden? In dieser Dissertation wird eine Systematisierung von Angriffen auf die Netzwerkschicht von Bitcoin vorgestellt, in der Angriffe hinsichtlich der angegriffenen Mechanismen und der Auswirkungen der Angriffe auf höhere Schichten des Systems kategorisiert werden. Basierend auf der Systematisierung werden fünf Anforderungen für die Netzwerkschicht von Permissionless Blockchains abgeleitet: Leistung, niedrige Beteiligungskosten, Anonymität, Robustheit gegen Denial-of-Service Angriffe sowie Topologieverschleierung. Darüber hinaus werden der Entwurfsraum der Netzwerkschicht aufgezeigt und der Einfluss von Entwurfsentscheidungen auf die Erfüllung von Anforderungen qualitativ untersucht. Die durchgeführten Systematisierungen weisen auf inhärente Zielkonflikte sowie Forschungsmöglichkeiten hin und unterstützen die Entwicklung von Permissionless Blockchains. Weiterhin wird auf Grundlage von seit 2015 durchgeführten Messungen eine Charakterisierung des Bitcoin-P2P-Netzwerks präsentiert. Die Charakterisierung ermöglicht die Parametrisierung und Validierung von Simulationsmodellen und die Bewertung der Zuverlässigkeit von realen Experimenten. Darüber hinaus gewährt die Netzwerkcharakterisierung Einblicke in das Verhalten von Netzwerkknoten und deren Betreibern. Beispielsweise kann gezeigt werden, dass Sybil-Ereignisse in der Vergangenheit im Bitcoin-P2P-Netzwerk stattgefunden haben und dass die Leistung und die Anonymitätseigenschaften der Transaktions- und Blockausbreitung durch Implementierungs- und Protokolländerungen verbessert worden sind. Auf Grundlage dieser Charakterisierung werden zwei ereignisdiskrete Simulationsmodelle des Bitcoin-P2P-Netzwerks entworfen. Die Modelle werden durch einen Vergleich der simulierten Informationsausbreitungsverzögerung mit der beobachteten Informationsausbreitungsverzögerung im realen Netzwerk validiert. Da der Vergleich eine hohe Übereinstimmung zeigt, ermöglichen die vorgestellten Simulationsmodelle die Simulation des Bitcoin-Netzwerks mit einer Genauigkeit, die für die Analyse von Angriffen im Bitcoin-Netzwerk ausreicht. Die vorgestellten Simulationsmodelle sowie die durchgeführte Systematisierung von Angriffen verdeutlichen die Bedeutung der Kenntnis der Netzwerktopologie als Grundlage für Forschung und die Analyse von Deanonymisierungsangriffe. Daher adressiert die zweite Forschungsfrage dieser Dissertation Methoden der Topologieinferenz und der Deanonymisierung: Unter welchen Voraussetzungen und in welchem Maße sind netzwerkbasierte Topologieinferenz und Deanonymisierung in Bitcoin (un)möglich? Diese Frage wird durch Anwendung der vorgeschlagenen Methodenkombination aus Messungen, Simulationen und Experimenten beantwortet. In dieser Dissertation werden vier verschiedene Methoden zur Topologieinferenz vorgestellt und unter Verwendung von Experimenten und Simulationsstudien analysiert. Anhand von Experimenten wird gezeigt, dass ein Angreifer, der in der Lage ist, Verbindungen zu allen Knoten des Netzwerks zu etablieren, die direkten Nachbarn eines Netzwerkknotens mit hoher Sensitivität (recall) und Genauigkeit (precision) (87% recall, 71% precision) durch die Veröffentlichung von widersprüchlichen Transaktionen im Netzwerk herausfinden kann. Unter der Annahme eines passiven Angreifers, der in der Lage ist, sich mit allen erreichbaren Netzwerkknoten zu verbinden, war 2016 ein Rückschluss auf die Nachbarn eines Netzwerkknotens mit einer Sensitivität von 40% bei einer Genauigkeit von 40% durch Beobachtung von mindestens acht Transaktionen, die von diesem Netzwerkknoten stammen, möglich. Darüber hinaus ist es möglich, die Akkumulation mehrere Transaktionen zum Zwecke der Topologieinferenz zu geringen Kosten auszunutzen. Allerdings bleibt die erwartete Inferenzqualität aufgrund fehlender Validierungsmöglichkeiten unklar. Schließlich kann simulativ gezeigt werden, dass der Peer-Discovery-Mechanismus eines P2P-Netzwerks bei bestimmte Parametrisierungen Topologinferenz ermöglichen kann. Abschließend wird die Möglichkeit einer netzwerkbasierten Deanonymisierung bewertet, indem analysiert wird, ob eine Korrelation zwischen der IP-Adresse des Netzwerkknotens, der eine Transaktion veröffentlicht, und dem mutmaßlichen Ersteller der Transaktion besteht. Der zugrundeliegende Datensatz basiert auf den durchgeführten Messungen und besteht aus fast 10 Millionen Transaktionen mit zugehörigen IP-Adressen. Es wird gezeigt, dass Transaktionen von 5% bis 8.3% der Benutzer auffallend häufig von einzelnen Netzwerkknoten veröffentlicht wurden, was diese Benutzer dem Risiko netzwerkbasierter Deanonymisierungsangriffe aussetzt
    corecore