98 research outputs found

    New Results on the Probabilistic Analysis of Online Bin Packing and its Variants

    Get PDF
    The classical bin packing problem can be stated as follows: We are given a multiset of items {a1, ..., an} with sizes in [0,1], and want to pack them into a minimum number of bins, each of which with capacity one. There are several applications of this problem, for example in the field of logistics: We can interpret the i-th item as time a package deliverer spends for the i-th tour. Package deliverers have a daily restricted working time, and we want to assign the tours such that the number of package deliverers needed is minimized. Another setup is to think of the items as boxes with a standardized basis, but variable height. Then, the goal is to pack these boxes into a container, which is standardized in all three dimensions. Moreover, applications of variants of the classical bin packing problem arise in cloud computing, when we have to store virtual machines on servers. Besides its practical relevance, the bin packing problem is one of the fundamental problems in theoretical computer science: It was proven many years ago that under standard complexity assumptions it is not possible to compute the value of an optimal packing of the items efficiently - classical bin packing is NP-complete. Computing the value efficiently means that the runtime of the algorithm is bounded polynomially in the number of items we have to pack. Besides the offline version, where we know all items at the beginning, also the online version is of interest: Here, the items are revealed one-by-one and have to be packed into a bin immediately and irrevocably without knowing which and how many items will still arrive in the future. Also this version is of practical relevance. In many situations we do not know the whole input at the beginning: For example we are unaware of the requirements of future virtual machines, which have to be stored, or suddenly some more packages have to be delivered, and some deliverers already started their tour. We can think of the classical theoretical analysis of an online algorithm A as follows: An adversary studies the behavior of the algorithm and afterwards constructs a sequence of items I. Then, the performance is measured by the number of used bins by A performing on I, divided by the value of an optimal packing of the items in I. The adversary tries to choose a worst-case sequence so this way to measure the performance is very pessimistic. Moreover, the chosen sequences I often turn out to be artificial: For example, in many cases the sizes of the items increase monotonically over time. Instances in practice are often subject to random influence and therefore it is likely that they are good-natured. In this thesis we analyze the performance of online algorithms with respect to two stochastic models. The first model is the following: The adversary chooses a set of items SI and a distribution F on SI. Then, the items are drawn independently and identically distributed according to F. In the second model the adversary chooses a finite set of items SI and then these items arrive in random order, that is random with respect to the uniform distribution on the set of all possible permutations of the items. It is possible to show that the adversary in the second stochastic model is at least as powerful as in the first one. We can classify the results in this thesis in three parts: In the first part we consider the complexity of classical bin packing and its variants cardinality-constrained and class-constrained bin packing in both stochastic models. That is, we determine if it is possible to construct algorithms that are in expectation nearly optimal for large instances that are constructed according to the stochastic models or if there exist non-trivial lower bounds. Among other things we show that the complexity of class-constrained bin packing differs in the two models under consideration. In the second part we deal with bounded-space bin packing and the dual maximization variant bin covering. We show that it is possible to overcome classical worst-case bounds in both models. In other words, we see that bounded-space algorithms benefit from randomized instances compared to the worst case. Finally, we consider selected heuristics for class-constrained bin packing and the corresponding maximization variant class-constrained bin covering. Here, we note that the different complexity of class-constrained bin packing with respect to the studied stochastic models observed in the first part is not only a theoretical phenomenon, but also takes place for many common algorithmic approaches. Interestingly, when we apply the same algorithmic ideas to class-constrained bin covering, we benefit from both types of randomization similarly. </ul

    Preserving Secrecy in Online Social Networks: Data Outsourcing, Access Control, and Secrecy Schemes

    Get PDF
    In den vergangenen Jahren haben sich Online Social Networks (OSNs) wie Facebook und Foursquare zu einer beliebten Möglichkeit der Kommunikation und des Teilens von Informationen unter Nutzern entwickelt. OSNs sind virtuelle Communitys, die Informationen über die Nutzer und die zwischen ihnen bestehenden Beziehungen, wie z.~B. Freundschaften, enthalten. Zusätzlich dazu, dass eine Interaktion der Nutzer untereinander ermöglicht wird, bieten OSNs ihren Nutzern normalerweise verschiedene Arten von Dienstleistungen an, wie z.~B. die Abfrage nach Freunden innerhalb einer bestimmten Entfernung. Um auf diese Dienstleistungen zugreifen zu können, kann es sein, dass Nutzer darum gebeten werden, in den OSN-Systemen eine Reihe von Informationen, wie z.~B. ihre physische Position, zu speichern. Da die meisten der in OSNs gespeicherten Informationen zu deren Nutzern privater Natur sind, ist es von wesentlicher Bedeutung, die Informationen vor unbefugtem Zugriff zu schützen, um Geheimhaltungsprobleme zu vermeiden. Zu diesem Zweck verwenden OSNs Zugriffskontrollsysteme. Diese Systeme haben drei Hauptkomponenten, nämlich die Zugriffskontrollrichtlinien, das Zugriffskontrollmodell und den Autorisierungsmechanismus. Die Zugriffskontrollrichtlinien ermöglichen es Nutzern zu spezifizieren, wer auf deren Ressourcen zugreifen darf. Das Zugriffskontrollmodell bietet die Syntax und Semantik, um die Zugriffskontrollrichtlinien zu formalisieren. Die formale Repräsentation der Zugriffskontrollrichtlinien in einem Zugriffskontrollmodell wird als Autorisierung bezeichnet. Der Autorisierungsmechanismus, welcher von den OSN-Anbietern verwaltet wird, setzt die Autorisierungen durch. Obwohl in der Literatur verschiedene Zugriffskontrollsysteme vorgeschlagen wurden, gibt es zwei Hauptprobleme in Bezug auf diese Systeme, die sich auf die Verbreitung von OSNs auswirken können. Das erste Problem bezieht sich auf die Flexibilität von Zugriffskontrollmodellen. Eine der größten Herausforderungen von OSNs besteht darin, das Teilen von Informationen unter ihren Nutzern zu fördern. Nutzer neigen normalerweise dazu, Informationen nur mit Nutzern zu teilen, die bestimmte Bedingungen erfüllen; andernfalls tun sie es nicht. Zu diesem Zweck sollten Zugriffskontrollsysteme den Spezifizierern der Richtlinien Flexibilität bieten, damit diese die Bedingungen bezüglich des Zugriffs auf ihre Daten ausdrücken können. Wenn Nutzer entscheiden, wer auf ihre Ressourcen zugreifen darf, hängen die Zugriffsbedingungen von sozialen Faktoren und menschlichem Verhalten ab. Studien in Fachgebieten wie der Psychologie und der Soziologie haben nachgewiesen, dass Menschen zwar ein Selbstinteresse haben, oftmals jedoch gegenseitig von dieser Haltung abweichen. Gegenseitigkeit bedeutet, dass Menschen als Antwort auf freundliche Handlungen kooperativer werden. Daher ist Gegenseitigkeit eine starke Determinante in Bezug auf menschliches Verhalten. Bestehende Zugriffsrichtlinien erfassen dieses Phänomen der Gegenseitigkeit jedoch nicht, was dazu führen kann, dass Nutzer davon abgehalten werden, Informationen zu teilen. Das zweite Problem besteht darin, dass Nutzer OSN-Anbietern dahingehend vertrauen müssen, dass sie ihre Daten schützen, wenn sie die Autorisierungen durchsetzen. Aktuelle Datenschutzverletzungen haben die Vertrauenswürdigkeit der Dienstleistungsanbieter in Frage gestellt. Scheinbar steigert der zunehmende wirtschaftliche Gewinn, der aus dem Verkauf personenbezogener Daten erzielt wird, die Versuchung der Anbieter, Betrug zu begehen. In dieser Dissertation werden Techniken und Modelle entwickelt, um auf diese zwei Probleme einzugehen. Die Arbeit ist in drei Abschnitte aufgeteilt. Der erster Beitrag behandelt das Flexibilitätsproblem von Zugriffskontrollmodellen. Hier schlagen wir die Syntax und Semantik einer neuen Art von Autorisierung vor, die als gegenseitig bezeichnet wird und es ermöglicht, wechselseitiges Verhalten zu modellieren. Gegenseitigkeit kommt im Rahmen der Zugriffskontrolle zum Zuge, wenn Personen jenen Nutzern den Zugriff auf ihre Ressourcen gewähren, die ihnen erlauben, das Gleiche zu tun. Wir verwenden standortbasierte Dienstleistungen als Beispiel für den Einsatz gegenseitiger Autorisierungen. Zu diesem Zweck schlagen wir zwei Ansätze vor, um gegenseitige Autorisierungen in diese Dienstleistungen zu integrieren. Darüber hinaus weisen wir die Stimmigkeit beider Ansätze nach und bestimmen auf dem Wege von Komplexitätsanalysen, unter welchen Bedingungen jeder Ansatz jeweils leistungsfähiger ist als der andere. Unsere zweiten und dritten Beiträge gehen aus zwei verschiedenen Blickwinkeln auf das Misstrauen von Nutzern bezüglich der Dienstleistungsanbieter ein. Unser zweiter Beitrag erörtert das Szenario, in welchem der Nutzer, d. h. die Einheit, welche Abfragen von Daten durchführen möchte, auch Eigentümer der Daten ist. Aufgrund von Ressourcenbeschränkungen möchte der Nutzer die Daten jedoch nicht allein verwalten. Er möchte dies an einen Dienstleistungsanbieter auslagern, um bei einer Abfrage einen Teil der Daten abrufen zu können, welche der Durchführung der Abfrage Genüge leisten. In diesem Fall besteht kein Bedarf an Zugriffsrichtlinien, da es einen einzelnen Nutzer gibt, der Eigentümer der Daten ist. Daher kann in diesem Szenario das Vertrauensproblem bezüglich Dienstleistungsanbietern auf die Geheimhaltung ausgelagerter Daten reduziert werden. Außerdem ist es für den Nutzer wichtig, in der Lage zu sein, eine Anpassung zwischen Geheimhaltung und Leistung vorzunehmen, da die Abfrage nutzerseitig, unter Verwendung des erhaltenen Datenabschnitts, berechnet wird und weil eine negative Korrelation zwischen Geheimhaltung und Leistung besteht. Diese Art von Szenario findet aufgrund der wirtschaftlichen und organisatorischen Vorteile von „Database-as-a-Service“ oft bei Startup-Unternehmen Anwendung. Insbesondere in diesem Bereich weisen viele Daten eine Graphstruktur auf, z.~B. Protein-Netzwerke, Straßen-Netzwerke und Stromnetz-Netzwerke. Hier schlagen wir einen Gruppierungsansatz für die sichere Auslagerung von Daten mit Graphstrukturen vor, wobei nachweisbare Geheimhaltungsgarantien geboten werden. Unser Ansatz ermöglicht es Nutzern, Anpassungen zwischen Ebenen von Geheimhaltung und Leistung vorzunehmen. Zusätzlich entwickeln wir zur Erleichterung der Planung von Abfragen ein Modell, welches das Verhalten unseres Algorithmus vorhersagen kann. Unser dritter Beitrag berücksichtigt den Fall, in dem es einem Nutzer nicht ermöglicht wird, auf Daten zuzugreifen, die zur Durchführung von Abfragen nötig sind. Die Nutzer haben jedoch Zugriff auf die Ergebnisse der Abfrage bezüglich der Daten. In diesem Szenario gibt es typischerweise mehrere Nutzer, wobei jeder einen anderen Teil der Daten besitzt, und jeder Nutzer auf Basis von spezifizierten Zugriffsrichtlinien auf Abfrageergebnisse bezüglich der Daten zugreifen kann, die anderen gehören. Dann muss der OSN-Anbieter die erforderliche Kernberechnung durchführen, und der Nutzer kann nur auf das Ergebnis von Dienstleistungen zugreifen, die vom OSN geboten werden. Für dieses Szenario entwickeln wir zwei Methoden, welche bestehende Verschlüsselungsschemata kombinieren, um es Nutzern von OSNs zu ermöglichen, Abfragen bezüglich Freunden in einer bestimmten Entfernung durchzuführen. Beide Ansätze beinhalten eine Aufhebungsfunktion und bieten Geheimhaltungsgarantien unter der Annahme geheimer Absprachen, d. h. ein Gegenspieler kann mit dem Dienstleistungsanbieter zusammenspielen. Daneben bieten wir Komplexitätsanalysen unserer Ansätze, um diese bewerten und vergleichen zu können. Unsere Analysen teilen uns mit, welcher Ansatz in jeder Einheit, die in dem System involviert ist, leistungsfähiger ist. Diese Dissertation beinhaltet eine umfassende experimentelle Analyse all unserer Ansätze auf Basis von synthetischen und realen Datensätzen, welche die Wirksamkeit unserer Methoden bestätigen

    Activity Analysis; Finding Explanations for Sets of Events

    Get PDF
    Automatic activity recognition is the computational process of analysing visual input and reasoning about detections to understand the performed events. In all but the simplest scenarios, an activity involves multiple interleaved events, some related and others independent. The activity in a car park or at a playground would typically include many events. This research assumes the possible events and any constraints between the events can be defined for the given scene. Analysing the activity should thus recognise a complete and consistent set of events; this is referred to as a global explanation of the activity. By seeking a global explanation that satisfies the activity’s constraints, infeasible interpretations can be avoided, and ambiguous observations may be resolved. An activity’s events and any natural constraints are defined using a grammar formalism. Attribute Multiset Grammars (AMG) are chosen because they allow defining hierarchies, as well as attribute rules and constraints. When used for recognition, detectors are employed to gather a set of detections. Parsing the set of detections by the AMG provides a global explanation. To find the best parse tree given a set of detections, a Bayesian network models the probability distribution over the space of possible parse trees. Heuristic and exhaustive search techniques are proposed to find the maximum a posteriori global explanation. The framework is tested for two activities: the activity in a bicycle rack, and around a building entrance. The first case study involves people locking bicycles onto a bicycle rack and picking them up later. The best global explanation for all detections gathered during the day resolves local ambiguities from occlusion or clutter. Intensive testing on 5 full days proved global analysis achieves higher recognition rates. The second case study tracks people and any objects they are carrying as they enter and exit a building entrance. A complete sequence of the person entering and exiting multiple times is recovered by the global explanation

    Sequential Monte Carlo for random graphs

    Get PDF

    LIPIcs, Volume 244, ESA 2022, Complete Volume

    Get PDF
    LIPIcs, Volume 244, ESA 2022, Complete Volum

    Communication-Efficient Probabilistic Algorithms: Selection, Sampling, and Checking

    Get PDF
    Diese Dissertation behandelt drei grundlegende Klassen von Problemen in Big-Data-Systemen, für die wir kommunikationseffiziente probabilistische Algorithmen entwickeln. Im ersten Teil betrachten wir verschiedene Selektionsprobleme, im zweiten Teil das Ziehen gewichteter Stichproben (Weighted Sampling) und im dritten Teil die probabilistische Korrektheitsprüfung von Basisoperationen in Big-Data-Frameworks (Checking). Diese Arbeit ist durch einen wachsenden Bedarf an Kommunikationseffizienz motiviert, der daher rührt, dass der auf das Netzwerk und seine Nutzung zurückzuführende Anteil sowohl der Anschaffungskosten als auch des Energieverbrauchs von Supercomputern und der Laufzeit verteilter Anwendungen immer weiter wächst. Überraschend wenige kommunikationseffiziente Algorithmen sind für grundlegende Big-Data-Probleme bekannt. In dieser Arbeit schließen wir einige dieser Lücken. Zunächst betrachten wir verschiedene Selektionsprobleme, beginnend mit der verteilten Version des klassischen Selektionsproblems, d. h. dem Auffinden des Elements von Rang kk in einer großen verteilten Eingabe. Wir zeigen, wie dieses Problem kommunikationseffizient gelöst werden kann, ohne anzunehmen, dass die Elemente der Eingabe zufällig verteilt seien. Hierzu ersetzen wir die Methode zur Pivotwahl in einem schon lange bekannten Algorithmus und zeigen, dass dies hinreichend ist. Anschließend zeigen wir, dass die Selektion aus lokal sortierten Folgen – multisequence selection – wesentlich schneller lösbar ist, wenn der genaue Rang des Ausgabeelements in einem gewissen Bereich variieren darf. Dies benutzen wir anschließend, um eine verteilte Prioritätswarteschlange mit Bulk-Operationen zu konstruieren. Später werden wir diese verwenden, um gewichtete Stichproben aus Datenströmen zu ziehen (Reservoir Sampling). Schließlich betrachten wir das Problem, die global häufigsten Objekte sowie die, deren zugehörige Werte die größten Summen ergeben, mit einem stichprobenbasierten Ansatz zu identifizieren. Im Kapitel über gewichtete Stichproben werden zunächst neue Konstruktionsalgorithmen für eine klassische Datenstruktur für dieses Problem, sogenannte Alias-Tabellen, vorgestellt. Zu Beginn stellen wir den ersten Linearzeit-Konstruktionsalgorithmus für diese Datenstruktur vor, der mit konstant viel Zusatzspeicher auskommt. Anschließend parallelisieren wir diesen Algorithmus für Shared Memory und erhalten so den ersten parallelen Konstruktionsalgorithmus für Aliastabellen. Hiernach zeigen wir, wie das Problem für verteilte Systeme mit einem zweistufigen Algorithmus angegangen werden kann. Anschließend stellen wir einen ausgabesensitiven Algorithmus für gewichtete Stichproben mit Zurücklegen vor. Ausgabesensitiv bedeutet, dass die Laufzeit des Algorithmus sich auf die Anzahl der eindeutigen Elemente in der Ausgabe bezieht und nicht auf die Größe der Stichprobe. Dieser Algorithmus kann sowohl sequentiell als auch auf Shared-Memory-Maschinen und verteilten Systemen eingesetzt werden und ist der erste derartige Algorithmus in allen drei Kategorien. Wir passen ihn anschließend an das Ziehen gewichteter Stichproben ohne Zurücklegen an, indem wir ihn mit einem Schätzer für die Anzahl der eindeutigen Elemente in einer Stichprobe mit Zurücklegen kombinieren. Poisson-Sampling, eine Verallgemeinerung des Bernoulli-Sampling auf gewichtete Elemente, kann auf ganzzahlige Sortierung zurückgeführt werden, und wir zeigen, wie ein bestehender Ansatz parallelisiert werden kann. Für das Sampling aus Datenströmen passen wir einen sequentiellen Algorithmus an und zeigen, wie er in einem Mini-Batch-Modell unter Verwendung unserer im Selektionskapitel eingeführten Bulk-Prioritätswarteschlange parallelisiert werden kann. Das Kapitel endet mit einer ausführlichen Evaluierung unserer Aliastabellen-Konstruktionsalgorithmen, unseres ausgabesensitiven Algorithmus für gewichtete Stichproben mit Zurücklegen und unseres Algorithmus für gewichtetes Reservoir-Sampling. Um die Korrektheit verteilter Algorithmen probabilistisch zu verifizieren, schlagen wir Checker für grundlegende Operationen von Big-Data-Frameworks vor. Wir zeigen, dass die Überprüfung zahlreicher Operationen auf zwei „Kern“-Checker reduziert werden kann, nämlich die Prüfung von Aggregationen und ob eine Folge eine Permutation einer anderen Folge ist. Während mehrere Ansätze für letzteres Problem seit geraumer Zeit bekannt sind und sich auch einfach parallelisieren lassen, ist unser Summenaggregations-Checker eine neuartige Anwendung der gleichen Datenstruktur, die auch zählenden Bloom-Filtern und dem Count-Min-Sketch zugrunde liegt. Wir haben beide Checker in Thrill, einem Big-Data-Framework, implementiert. Experimente mit absichtlich herbeigeführten Fehlern bestätigen die von unserer theoretischen Analyse vorhergesagte Erkennungsgenauigkeit. Dies gilt selbst dann, wenn wir häufig verwendete schnelle Hash-Funktionen mit in der Theorie suboptimalen Eigenschaften verwenden. Skalierungsexperimente auf einem Supercomputer zeigen, dass unsere Checker nur sehr geringen Laufzeit-Overhead haben, welcher im Bereich von 2 %2\,\% liegt und dabei die Korrektheit des Ergebnisses nahezu garantiert wird
    • …
    corecore