1,994 research outputs found

    ALGORITHMIC METHODS FOR SEGMENTATION OF TIME SERIES: AN OVERVIEW

    Get PDF
    Adaptive and innovative application of classical data mining principles and techniques in time series analysis has resulted in development of a concept known as time series data mining. Since the time series are present in all areas of business and scientific research, attractiveness of mining of time series datasets should not be seen only in the context of the research challenges in the scientific community, but also in terms of usefulness of the research results, as a support to the process of business decision-making. A fundamental component in the mining process of time series data is time series segmentation. As a data mining research problem, segmentation is focused on the discovery of rules in movements of observed phenomena in a form of interpretable, novel, and useful temporal patterns. In this Paper, a comprehensive review of the conceptual determinations, including the elements of comparative analysis, of the most commonly used algorithms for segmentation of time series, is being considered

    Resource management in in-home digital networks using Dantzig-Wolfe decomposition

    Get PDF
    In een digitaal huisnetwerk zijn in het huis de verschillende digitale consumentenelektronica apparaten met elkaar verbonden, zoals een set-top-box, tv-scherm of harde schijf. Dit maakt nieuwe applicaties mogelijk, zoals het kunnen bekijken van een film op elke mogelijke plek in huis op elk gewenst moment zonder dat men precies weet waar deze film is opgeslagen. Deze nieuwe applicaties leiden echter tot nieuwe `resource management' problemen met als doel de `resources',zoals processoren, opslagapparatuur en communicatieverbindingen, zo efficient en effectief mogelijk te gebruiken.In dit proefschrift beschouwen we een enkele bus (communicatieverbinding) met beperkte bandbreedte, waarmee meerdere apparaten zijn verbonden. Tussen elk apparaat en de bus bevindt zich een buffer met beperkte capaciteit. Verder is er een verzameling video stromen gegeven waarbij elke stroom over de bus van het verzendend apparaat naar het ontvangend apparaat verzonden moet worden. Hierbij willen we voor iedere stroom een vast deel van de bandbreedte en betreffende buffers reserveren. We maken onderscheid tussen twee type stromen, te weten volledig gespecificeerde stromen en `leaky bucket' gereguleerde stromen. Van een volledig gespecificeerde stroom weten we exact hoeveel data er wanneer wordt aangeboden en gevraagd bij de buffers van zijn verzendend respectievelijk ontvangend apparaat. Van een `leaky bucket' gereguleerde stroom kennen we alleen de parameters van de `leaky buckets' die de data-aanvoer van de stroom reguleren.Met deze parameters kunnen we een bovengrens voor de data-aanvoer gedurende elk mogelijk tijdsinterval geven.Allereerst definieren wij het Multiple Streams Smoothing Problem (MSSP). In een instantie van MSSP is een verzameling volledig gespecificeerde stromengegeven, de bandbreedte van de bus en de groottes van de verschillende buffers.Voor elke stroom moet een vast deel van de bandbreedte en de buffergroottes worden bepaald alsmede een verzendschema waarmee alle data voor de stroom op tijd kan worden verzonden. We modelleren MSSP als een lineair programmeringsprobleem en laten zien hoe Dantzig-Wolfe decompositie hierop kan worden toegepast. Dit leidt tot een hoofdprobleem en voor iedere stroom een subprobleem. Het subprobleem voor een stroom bestaat uit het minimaliseren van de kosten van de gereserveerde bandbreedte en buffergroottes, waarbij de kostencoefficienten volgen uit het geoptimaliseerde hoofdprobleem. Voor elke mogelijke combinatie van positievekostencoefficienten beschrijven we voor dit subprobleem een efficiente methode om een optimale oplossing te bepalen. Voor het minimaliseren van enkel de bandbreedte of enkel de buffergrootte van ´e´en van beide buffers passen wij hiervoor bestaande methoden aan. Voor het minimaliseren van beide buffergroottes laten we zien dat een optimale oplossing wordt verkregen door eerst de duurste buffer te minimaliseren en daarna de goedkoopste. Voor het afwegen van de bandbreedtetegen ´e´en buffergrootte beschrijven we een specifieke inruilmethode. Voor het afwegen van de bandbreedte tegen beide buffergroottes herleiden we het subprobleem eerst tot het vinden van het minimum van een stuksgewijs lineaire, convexe functie op de bandbreedte. Vervolgens beschrijven we twee efficente zoekmethoden om het minimum van deze functie met bijbehorende bandbreedte en buffergroottes te bepalen. Met behulp van experimentele resultaten geven we voor problemen van realistische grootte een indicatie van de rekentijd en van de benuttingsgraad van de bepaalde bandbreedte- en bufferreserveringen.Voor de `leaky bucket' gereguleerde stromen definieren wij het MultipleLeaky-Bucket Streams Smoothing Problem (MLBSSP). In een instantie van MLBSSP is een verzameling `leaky bucket' gereguleerde stromen gegeven, waarvoor een vast deel van de bandbreedte en buffergroottes moet worden bepaald als medeverzendstrategien waarmee alle data op tijd kan worden verstuurd. Ook MLBSSP modelleren we als een lineair programmeringsprobleem. Verder tonen we aan dat MLBSSP te reduceren is tot MSSP door de bovengrens op de data-aanvoer als daadwerkelijke data-aanvoer te gebruiken voor iedere stroom. Deze bovengrens heeft een paar specifieke kenmerken, nl. concaviteit en stuksgewijs lineariteit, die we gebruiken om voor `leaky bucket' gereguleerde stromen de subproblemen nog efficienter op te lossen. Hiervoor leiden we vier nieuwe, noodzakelijke en voldoende voorwaarden voor de bandbreedte- en bufferreserveringen van een stroom af. Met behulp van deze voorwaarden is de tijd om een subprobleem op te lossen lineair afhankelijk van het aantal `leaky buckets' i.p.v. de lengte van een stroom,zoals voor volledig gespecificeerde stromen. Een oplossing kan nu binnen eenf ractie van een seconde bepaald worden. Om experimenten uit te voeren voor deze methode voor MLBSSP, genereren we verschillende `leaky bucket' beschrijvingen voor iedere volledig gespecificeerde stroom die gebruikt was in de resultaten voor MSSP. De resultaten van deze experimenten zijn voor stromen die zijn beschreven door hun maximale aantal benodigde `leaky buckets', gelijk aan de resultaten voor de volledig gespecificeerde stromen. Behalve de bovengenoemde `off-line' varianten van MSSP en MLBSSP beschouwen we ook `on-line' varianten van deze problemen. In de `on-line' varianten zijn de starttijden van stromen onbekend en zijn de kenmerken van een stroom pas bekend op het moment dat deze wil starten. Een oplossing voor een`on-line' variant kan worden bepaald door elke keer dat een nieuwe stroom start,de methode voor het `off-line' probleem te gebruiken om nieuwe bandbreedte- en bufferreserveringen te bepalen. Indien de reserveringen van bestaande stromen dan mogen worden aangepast, dient er bij het oplossen van de subproblemen voor deze stromen rekening gehouden te worden met de hoeveelheid data die er in totaal al verzonden is. Verdere toevoegingen aan de `off-line' methode die we beschouwen en die kunnen leiden tot een hoger aantal toegelaten stromen, zijn doelfuncties zoals het minimaliseren van de totale gereserveerde bandbreedte of buffergrootte van een specifieke buffer. Ook laten we zien hoe de maximale relatieve `resource' reservering geminimaliseerd kan worden. Tenslotte beschrijven we een aanpak voor de verzending van data van een stroom, waarbij data pas uit de buffers verwijderd wordt als dat nodig is om ruimte te maken voor nieuw aangeleverde data. Numerieke experimenten laten zien dat verschillende van deze aanpassingen inderdaad tot betere resultaten kunnen leiden. Het aantal toegelaten stromen in deze experimenten is voor een `on-line' variant met bepaalde toevoegingen net zo hoog als voor de `off-line' variant

    Model and requirements for a multiresolution time series database management system

    Get PDF
    In this paper we define a model for multiresolution time series database management systems. The main objective is to store compactly a time series and manage consistently its temporal dimension. It is achieved by extracting diferent resolutions and attributes summaries from the time series. Our work is concerned in putting together two areas of study: time series analysis and database management systems (DBMS). Time series analysis offers a great deal of methodologies and algorithms to process time series data and database field provides software expertise in managing data. Therefore it is of primary relevance that DBMS support time series.Preprin

    High performance scientific computing in applications with direct finite element simulation

    Get PDF
    xiii, 133 p.La predicción del flujo separado, incluida la pérdida de un avión completo mediantela dinámica de fluidos computacional (CFD) se considera uno de los grandes desaf¿¿os que seresolverán en 2030, según NASA. Las ecuaciones no lineales de Navier-Stokes proporcionan laformulación matemática para flujo de fluidos en espacios tridimensionales. Sin embargo, todaviafaltan soluciones clásicas, existencia y singularidad. Ya que el cálculo de la fuerza bruta esintratable para realizar simulación predictiva para un avión completo, uno puede usar la simulaciónnumérica directa (DNS); sin embargo, prohibitivamente caro ya que necesita resolver laturbulencia a escala de magnitud Re power (9/4). Considerando otros métodos como el estad¿¿sticopromedio Reynolds¿s Average Navier Stokes (RANS), spatial average Large Eddy Simulation(LES), y Hybrid Detached Eddy Simulation (DES), que requieren menos cantidad de grados delibertad. Todos estos métodos deben ajustarse a los problemas de referencia y, además, cerca las paredes, la malla tieneque ser muy fina para resolver las capas l¿¿mite (lo cual significa que el costo computacional es muycostoso). Por encima de todo, los resultados son sensibles a, por ejemplo, parámetros expl¿¿citos enel método, la malla, etc.Como una solución al desaf¿¿o, aqu¿¿ presentamos la adaptación Metodolog¿¿a de solución directa deFEM (DFS) con resolución numérica disparo, como una familia predictiva, libre de parámetros demétodos para flujo turbulento. Resolvimos el modelo de avión JAXA Standard Model (JSM) ennúmero realista de Reynolds, presentado como parte del High Lift Taller de predicción 3.Predijimos un aumento de Cl dentro de un error de 5 % vs experimento, arrastre Cd dentro de 10 %error y detenga 1 ¿ dentro del ángulo de ataque.El taller identificó un probable experimento error depedido 10 % para los resultados de arrastre. La simulación es 10 veces más rápido y más barato encomparación con CFD tradicional o existente enfoques. La eficiencia proviene principalmente dell¿¿mite de deslizamiento condición que permite mallas gruesas cerca de las paredes, orientada aobjetivos control de error adaptativo que refina la malla solo donde es necesario y grandes pasos detiempo utilizando un método de iteración de punto fijo tipo Schur, sin comprometer la precisión delos resultados de la simulación.También presentamos una generalización de DFS a densidad variable y validado contra el problemade referencia MARIN bien establecido. los Los resultados muestran un buen acuerdo con losresultados experimentales en forma de sensores de presión. Más tarde, usamos esta metodolog¿¿apara resolver dos aplicaciones en problemas de flujo multifásico. Uno tiene que ver con un flashtanque de almacenamiento de agua de lluvia (consorcio de agua de Bilbao), y el segundo es sobre eldiseño de una boquilla para impresión 3D. En el agua de lluvia tanque de almacenamiento,predijimos que la altura del agua en el tanque tiene un influencia significativa sobre cómo secomporta el flujo aguas abajo de la puerta del tanque (válvula). Para la impresión 3D,desarrollamos un diseño eficiente con El flujo de chorro enfocado para evitar la oxidación y elcalentamiento en la punta del boquilla durante un proceso de fusión.Finalmente, presentamos aqu¿¿ el paralelismo en múltiples GPU y el incrustado sistema dearquitectura Kalray. Casi todas las supercomputadoras de hoy tienen arquitecturas heterogéneas,1 See the UNESCO Internacional Standard nomenclature for fields of Science and Technologyacomo CPU+GPU u otros aceleradores, y, por lo tanto, es esencial desarrollar marcoscomputacionales para aprovecha de ellos. Como lo hemos visto antes, se comienza a desarrollar eseCFD más tarde en la década de 1060 cuando podemos tener poder computacional, por lo tanto, Esesencial utilizar y probar estos aceleradores para los cálculos de CFD. Las GPU tienen unaarquitectura diferente en comparación con las CPU tradicionales. Técnicamente, la GPU tienemuchos núcleos en comparación con las CPU que hacen de la GPU una buena opción para elcómputo paralelo.Para múltiples GPU, desarrollamos un cálculo de plantilla, aplicado a simulación depliegues geológicos. Exploramos la computación de halo y utilizamos Secuencias CUDA paraoptimizar el tiempo de computación y comunicación. La ganancia de rendimiento resultante fue de23 % para cuatro GPU con arquitectura Fermi, y la mejora correspondiente obtenida en cuatro LasGPU Kepler fueron de 47 %.This research was carried out at the Basque Center for Applied Mathematics (BCAM) within the CFD Computational Technology (CFDCT) and also at the School of Electrical Engineering and Computer Science(Royal Institue of Technology, Stockholm, Sweden). Which is suported by Fundacion Obra Social “la Caixa“, Severo Ochoa Excellence research centre 2014-2018 SEV-2013-0323, Severo Ochoa Excellence research centre 2018-2022 SEV-2017-0718, BERC program 2014-2017, BERC program 2018-2021, MSO4SC European project, Elkartek. This work has been performed using the computing infrastructure from SNIC (Swedish National Infrastructure for Computing)

    High Performance Scientific Computing in Applications with Direct Finite Element Simulation

    Get PDF
    To predict separated flow including stall of a full aircraft with Computational Fluid Dynamics (CFD) is considered one of the problems of the grand challenges to be solved by 2030, according to NASA [1]. The nonlinear Navier- Stokes equations provide the mathematical formulation for fluid flow in 3- dimensional spaces. However, classical solutions, existence, and uniqueness are still missing. Since brute-force computation is intractable, to perform predictive simulation for a full aircraft, one can use Direct Numerical Simulation (DNS); however, it is prohibitively expensive as it needs to resolve the turbulent scales of order Re4 . Considering other methods such as statistical average Reynolds’s Average Navier Stokes (RANS), spatial average Large Eddy Simulation (LES), and hybrid Detached Eddy Simulation (DES), which require less number of degrees of freedom. All of these methods have to be tuned to benchmark problems, and moreover, near the walls, the mesh has to be very fine to resolve boundary layers (which means the computational cost is very expensive). Above all, the results are sensitive to, e.g. explicit parameters in the method, the mesh, etc. As a resolution to the challenge, here we present the adaptive time- resolved Direct FEM Solution (DFS) methodology with numerical tripping, as a predictive, parameter-free family of methods for turbulent flow. We solved the JAXA Standard Model (JSM) aircraft model at realistic Reynolds number, presented as part of the High Lift Prediction Workshop 3. We predicted lift Cl within 5% error vs. experiment, drag Cd within 10% error and stall 1◦ within the angle of attack. The workshop identified a likely experimental error of order 10% for the drag results. The simulation is 10 times faster and cheaper when compared to traditional or existing CFD approaches. The efficiency mainly comes from the slip boundary condition that allows coarse meshes near walls, goal-oriented adaptive error control that refines the mesh only where needed and large time steps using a Schur-type fixed-point iteration method, without compromising the accuracy of the simulation results. As a follow-up, we were invited to the Fifth High Order CFD Workshop, where the approach was validated for a tandem sphere problem (low Reynolds number turbulent flow) wherein a second sphere is placed a certain distance downstream from a first sphere. The results capture the expected slipstream phenomenon, with appx. 2% error. A comparison with the higher-order frameworks Nek500 and PyFR was done. The PyFR framework has demonstrated high effectiveness for GPUs with an unstructured mesh, which is a hard problem in this field. This is achieved by an explicit time-stepping approach. Our study showed that our large time step approach enabled appx. 3 orders of magnitude larger time steps than the explicit time steps in PyFR, which made our method more effective for solving the whole problem. We also presented a generalization of DFS to variable density and validated against the well-established MARIN benchmark problem. The results show good agreement with experimental results in the form of pressure sensors. Later, we used this methodology to solve two applications in multiphase flow problems. One has to do with a flash rainwater storage tank (Bilbao water consortium), and the second is about designing a nozzle for 3D printing. In the flash rainwater storage tank, we predicted that the water height in the tank has a significant influence on how the flow behaves downstream of the tank door (valve). For the 3D printing, we developed an efficient design with the focused jet flow to prevent oxidation and heating at the tip of the nozzle during a melting process. Finally, we presented here the parallelism on multiple GPUs and the embedded system Kalray architecture. Almost all supercomputers today have heterogeneous architectures, such as CPU+GPU or other accelerators, and it is, therefore, essential to develop computational frameworks to take advantage of them. For multiple GPUs, we developed a stencil computation, applied to geological folds simulation. We explored halo computation and used CUDA streams to optimize computation and communication time. The resulting performance gain was 23% for four GPUs with Fermi architecture, and the corresponding improvement obtained on four Kepler GPUs were 47%. The Kalray architecture is designed to have low energy consumption. Here we tested the Jacobi method with different communication strategies. Additionally, visualization is a crucial area when we do scientific simulations. We developed an automated visualization framework, where we could see that task parallelization is more than 10 times faster than data parallelization. We have also used our DFS in the cloud computing setting to validate the simulation against the local cluster simulation. Finally, we recommend the easy pre-processing tool to support DFS simulation.La Caixa 201

    Hybrid performance modelling of opportunistic networks

    Get PDF
    We demonstrate the modelling of opportunistic networks using the process algebra stochastic HYPE. Network traffic is modelled as continuous flows, contact between nodes in the network is modelled stochastically, and instantaneous decisions are modelled as discrete events. Our model describes a network of stationary video sensors with a mobile ferry which collects data from the sensors and delivers it to the base station. We consider different mobility models and different buffer sizes for the ferries. This case study illustrates the flexibility and expressive power of stochastic HYPE. We also discuss the software that enables us to describe stochastic HYPE models and simulate them.Comment: In Proceedings QAPL 2012, arXiv:1207.055

    Algorithm Optimization and Hardware Acceleration for Machine Learning Applications on Low-energy Systems

    Get PDF
    Machine learning (ML) has been extensively employed for strategy optimization, decision making, data classification, etc. While ML shows great triumph in its application field, the increasing complexity of the learning models introduces neoteric challenges to the ML system designs. On the one hand, the applications of ML on resource-restricted terminals, like mobile computing and IoT devices, are prevented by the high computational complexity and memory requirement. On the other hand, the massive parameter quantity for the modern ML models appends extra demands on the system\u27s I/O speed and memory size. This dissertation investigates feasible solutions for those challenges with software-hardware co-design
    corecore