12 research outputs found

    Data stream treatment using sliding windows with MapReduce

    Get PDF
    Knowledge Discovery in Databases (KDD) techniques present limitations when the volume of data to process is very large. Any KDD algorithm needs to do several iterations on the complete set of data in order to carry out its work. For continuous data stream processing it is necessary to store part of it in a temporal window. In this paper, we present a technique that uses the size of the temporal window in a dynamic way, based on the frequency of the data arrival and the response time of the KDD task. The obtained results show that this technique reaches a great size window where each example of the stream is used in more than one iteration of the KDD task.Facultad de InformĂĄtic

    Data stream treatment using sliding windows with MapReduce

    Get PDF
    Knowledge Discovery in Databases (KDD) techniques present limitations when the volume of data to process is very large. Any KDD algorithm needs to do several iterations on the complete set of data in order to carry out its work. For continuous data stream processing it is necessary to store part of it in a temporal window. In this paper, we present a technique that uses the size of the temporal window in a dynamic way, based on the frequency of the data arrival and the response time of the KDD task. The obtained results show that this technique reaches a great size window where each example of the stream is used in more than one iteration of the KDD task.Facultad de InformĂĄtic

    Small Space Stream Summary for Matroid Center

    Get PDF
    In the matroid center problem, which generalizes the k-center problem, we need to pick a set of centers that is an independent set of a matroid with rank r. We study this problem in streaming, where elements of the ground set arrive in the stream. We first show that any randomized one-pass streaming algorithm that computes a better than Delta-approximation for partition-matroid center must use Omega(r^2) bits of space, where Delta is the aspect ratio of the metric and can be arbitrarily large. This shows a quadratic separation between matroid center and k-center, for which the Doubling algorithm [Charikar et al., 1997] gives an 8-approximation using O(k)-space and one pass. To complement this, we give a one-pass algorithm for matroid center that stores at most O(r^2 log(1/epsilon)/epsilon) points (viz., stream summary) among which a (7+epsilon)-approximate solution exists, which can be found by brute force, or a (17+epsilon)-approximation can be found with an efficient algorithm. If we are allowed a second pass, we can compute a (3+epsilon)-approximation efficiently. We also consider the problem of matroid center with z outliers and give a one-pass algorithm that outputs a set of O((r^2+rz)log(1/epsilon)/epsilon) points that contains a (15+epsilon)-approximate solution. Our techniques extend to knapsack center and knapsack center with z outliers in a straightforward way, and we get algorithms that use space linear in the size of a largest feasible set (as opposed to quadratic space for matroid center)

    Clustering de un flujo de datos usando MapReduce

    Get PDF
    Las tĂ©cnicas de agrupamiento (clustering) sobre flujo de datos (data stream) son una poderosa herramienta para determinar las caracterĂ­sticas que tienen en comĂșn los datos provenientes del flujo. Para obtener buenos resultados es necesario almacenar gran parte de Ă©ste en una ventana temporal. En este artĂ­culo medimos una tĂ©cnica que maneja el tamaño de la ventana temporal de manera dinĂĄmica utilizando un algoritmo de clustering implementado en el framework MapReduce. Los resultados obtenidos demuestran que esta tĂ©cnica alcanza una ventana de gran tamaño logrando asĂ­ que cada dato del flujo se utilice en mĂĄs de una iteraciĂłn del algoritmo de clustering permitiendo conseguir resultados similares independientemente de la velocidad de los datos del flujo. Los centroides resultantes de cada flujo de datos son semejantes a los que se consiguen haciendo un clustering sobre el conjunto de datos completo.XIII Workshop Bases de datos y MinerĂ­a de Datos (WBDMD).Red de Universidades con Carreras en InformĂĄtica (RedUNCI

    Clustering de un flujo de datos usando MapReduce

    Get PDF
    Las tĂ©cnicas de agrupamiento (clustering) sobre flujo de datos (data stream) son una poderosa herramienta para determinar las caracterĂ­sticas que tienen en comĂșn los datos provenientes del flujo. Para obtener buenos resultados es necesario almacenar gran parte de Ă©ste en una ventana temporal. En este artĂ­culo medimos una tĂ©cnica que maneja el tamaño de la ventana temporal de manera dinĂĄmica utilizando un algoritmo de clustering implementado en el framework MapReduce. Los resultados obtenidos demuestran que esta tĂ©cnica alcanza una ventana de gran tamaño logrando asĂ­ que cada dato del flujo se utilice en mĂĄs de una iteraciĂłn del algoritmo de clustering permitiendo conseguir resultados similares independientemente de la velocidad de los datos del flujo. Los centroides resultantes de cada flujo de datos son semejantes a los que se consiguen haciendo un clustering sobre el conjunto de datos completo.XIII Workshop Bases de datos y MinerĂ­a de Datos (WBDMD).Red de Universidades con Carreras en InformĂĄtica (RedUNCI

    Clustering de un flujo de datos usando MapReduce

    Get PDF
    Las tĂ©cnicas de agrupamiento (clustering) sobre flujo de datos (data stream) son una poderosa herramienta para determinar las caracterĂ­sticas que tienen en comĂșn los datos provenientes del flujo. Para obtener buenos resultados es necesario almacenar gran parte de Ă©ste en una ventana temporal. En este artĂ­culo medimos una tĂ©cnica que maneja el tamaño de la ventana temporal de manera dinĂĄmica utilizando un algoritmo de clustering implementado en el framework MapReduce. Los resultados obtenidos demuestran que esta tĂ©cnica alcanza una ventana de gran tamaño logrando asĂ­ que cada dato del flujo se utilice en mĂĄs de una iteraciĂłn del algoritmo de clustering permitiendo conseguir resultados similares independientemente de la velocidad de los datos del flujo. Los centroides resultantes de cada flujo de datos son semejantes a los que se consiguen haciendo un clustering sobre el conjunto de datos completo.XIII Workshop Bases de datos y MinerĂ­a de Datos (WBDMD).Red de Universidades con Carreras en InformĂĄtica (RedUNCI

    On algorithms for large-scale graph and clustering problems

    Get PDF
    Gegenstand dieser Arbeit sind algorithmische Methoden der modernen Datenanalyse. Dabei werden vorwiegend zwei ĂŒbergeordnete Themen behandelt: Datenstromalgorithmen mit Kompressionseigenschaften und Approximationsalgorithmen fĂŒr Clusteringverfahren. Datenstromalgorithmen verarbeiten einen Datensatz sequentiell und haben das Ziel, Eigenschaften des Datensatzes (approximativ) zu bestimmen, ohne dabei den gesamten Datensatz abzuspeichern. Unter Clustering versteht man die Partitionierung eines Datensatzes in verschiedene Gruppen. Das erste dargestellte Problem betrifft Matching in Graphen. Hier besteht der Datensatz aus einer Folge von EinfĂŒge- und Löschoperationen von Kanten. Die Aufgabe besteht darin, die GrĂ¶ĂŸe des so genannten Maximum Matchings so genau wie möglich zu bestimmen. Es wird ein Algorithmus vorgestellt, der, unter der Annahme, dass das Matching höchstens die GrĂ¶ĂŸe k hat, die exakte GrĂ¶ĂŸe bestimmt und dabei kÂČ Speichereinheiten benötigt. Dieser Algorithmus lĂ€sst sich weiterhin verwenden um eine konstante Approximation der MatchinggrĂ¶ĂŸe in planaren Graphen zu bestimmen. Des Weiteren werden untere Schranken fĂŒr den benötigten Speicherplatz bestimmt und eine Reduktion von gewichtetem Matching zu ungewichteten Matching durchgefĂŒhrt. Anschließend werden Datenstromalgorithmen fĂŒr die Nachbarschaftssuche betrachtet, wobei die Aufgabe darin besteht, fĂŒr n gegebene Mengen die Paare mit hoher Ähnlichkeit in nahezu Linearzeit zu finden. Dabei ist der Jaccard Index |A ∩ B|/|A U B| das Ähnlichkeitsmaß fĂŒr zwei Mengen A und B. In der Arbeit wird eine Datenstruktur beschrieben, die dies erstmalig in dynamischen Datenströmen mit geringem Speicherplatzverbrauch leistet. Dabei werden Zufallszahlen mit nur 2-facher UnabhĂ€ngigkeit verwendet, was eine sehr effiziente Implementierung ermöglicht. Das dritte Problem befindet sich an der Schnittstelle zwischen den beiden Themen dieser Arbeit und betrifft das k-center Clustering Problem in Datenströmen mit einem Zeitfenster. Die Aufgabe besteht darin k Zentren zu finden, sodass die maximale Distanz unter allen Punkten zu dem jeweils nĂ€chsten Zentrum minimiert wird. Ergebnis sind ein 6-Approximationalgorithmus fĂŒr ein beliebiges k und ein optimaler 4-Approximationsalgorithmus fĂŒr k = 2. Die entwickelten Techniken lassen sich ebenfalls auf das Durchmesserproblem anwenden und ermöglichen fĂŒr dieses Problem einen optimalen Algorithmus. Danach werden Clusteringprobleme bezĂŒglich der Jaccard Distanz analysiert. Dabei sind wieder eine Menge N von Teilmengen aus einer Grundgesamtheit U sind und die Aufgabe besteht darin eine Teilmenge CC zu finden, die max 1-|X ∩ C|/|X U C| minimiert. Es wird gezeigt, dass zwar eine exakte Lösung des Problems NP-schwer ist, es aber gleichzeitig eine PTAS gibt. Abschließend wird die weit verbreitete lokale Suchheuristik fĂŒr k-median und k-means Clustering untersucht. Obwohl es im Allgemeinen schwer ist, diese Probleme exakt oder auch nur approximativ zu lösen, gelten sie in der Praxis als relativ gut handhabbar, was andeutet, dass die HĂ€rteresultate auf pathologischen Eingaben beruhen. Auf Grund dieser Diskrepanz gab es in der Vergangenheit praxisrelevante DatensĂ€tze zu charakterisieren. FĂŒr drei der wichtigsten Charakterisierungen wird das Verhalten einer lokalen Suchheuristik untersucht mit dem Ergebnis, dass die lokale Suchheuristik in diesen FĂ€llen optimale oder fast optimale Cluster ermittelt

    An Improved Data Stream Algorithm for Clustering

    No full text
    1

    An Improved Data Stream Algorithm for Clustering

    No full text
    corecore