2 research outputs found

    Optymalizacja zapyta艅 w 艣rodowisku heterogenicznym CPU/GPU dla baz danych szereg贸w czasowych

    Get PDF
    In recent years, processing and exploration of time series has experienced a noticeable interest. Growing volumes of data and needs of efficient processing pushed the research in new directions, including hardware based solutions. Graphics Processing Units (GPU) have significantly more applications than just rendering images. They are also used in general purpose computing to solve problems that can benefit from massive parallel processing. There are numerous reports confirming the effectiveness of GPU in science and industrial applications. However, there are several issues related with GPU usage as a databases coprocessor that must be considered. First, all computations on the GPU are preceded by time consuming memory transfers. In this thesis we present a study on lossless lightweight compression algorithms in the context of GPU computations and time series database systems. We discuss the algorithms, their application and implementation details on GPU. We analyse their influence on the data processing efficiency, taking into account both the data transfer time and decompression time. Moreover, we propose a data adaptive compression planner based on those algorithms, which uses hierarchy of multiple compression algorithms in order to further reduce the data size. Secondly, there are tasks that either hardly suit GPU or fit GPU only partially. This may be related to the size or type of the task. We elaborate on heterogeneous CPU/GPU computation environment and optimization method that seeks equilibrium between these two computation platforms. This method is based on heuristic search for bi-objective optimal execution plans. The underlying model mimics the commodity market, where devices are producers and queries are consumers. The value of resources of computing devices is controlled by supply-and-demand laws. Our model of the optimization criteria allows finding solutions for heterogeneous query processing problems where existing methods have been ineffective. Furthermore, it also offers lower time complexity and higher accuracy than other methods. The dissertation also discusses an exemplary application of time series databases: the analysis of zebra mussel (Dreissena polymorpha) behaviour based on observations of the change of the gap between the valves, collected as a time series. We propose a new algorithm based on wavelets and kernel methods that detects relevant events in the collected data. This algorithm allows us to extract elementary behaviour events from the observations. Moreover, we propose an efficient framework for automatic classification to separate the control and stressful conditions. Since zebra mussels are well-known bioindicators this is an important step towards the creation of an advanced environmental biomonitoring system.W ostatnich latach przetwarzanie i badanie szereg贸w czasowych zyska艂o spore zainteresowanie. Rosn膮ce ilo艣ci danych i potrzeba ich sprawnego przetwarzania nada艂y nowe kierunki prowadzonym badaniom, kt贸re uwzgl臋dniaj膮 r贸wnie偶 wykorzystanie rozwi膮za艅 sprz臋towych. Procesory graficzne (GPU) maj膮 znacznie wi臋cej zastosowa艅 ni偶 tylko wy艣wietlanie obraz贸w. Coraz cz臋艣ciej s膮 wykorzystywane przy rozwi膮zywaniu problem贸w obliczeniowych og贸lnego zastosowania, kt贸re mog膮 spo偶ytkowa膰 mo偶liwo艣ci przetwarzania masywnie r贸wnoleg艂ego. Wiele 藕r贸de艂 potwierdza skuteczno艣膰 GPU zar贸wno w nauce, jak i w zastosowaniach w przemy艣le. Jest jednak kilka kwestii zwi膮zanych z u偶yciem GPU jako koprocesora w bazach danych, kt贸re trzeba mie膰 na uwadze. Po pierwsze, wszystkie obliczenia na GPU s膮 poprzedzone czasoch艂onnym transferem danych. W pracy zaprezentowano rezultaty bada艅 dotycz膮cych lekkich i bezstratnych algorytm贸w kompresji w kontek艣cie oblicze艅 GPU i system贸w baz danych dla szereg贸w czasowych. Om贸wione zosta艂y algorytmy, ich zastosowanie oraz szczeg贸艂y implementacyjne na GPU. Rozwa偶ono wp艂yw algorytm贸w na wydajno艣膰 przetwarzania danych z uwzgl臋dnieniem czasu transferu i dekompresji danych. Ponadto, zaproponowany zosta艂 adaptacyjny planer kompresji danych, kt贸ry wykorzystuje r贸偶ne algorytmy lekkiej kompresji w celu dalszego zmniejszenia rozmiaru skompresowanych danych. Kolejnym problemem s膮 zadania, kt贸re 藕le (lub tylko cz臋艣ciowo) wpisuj膮 si臋 w architektur臋 GPU. Mo偶e by膰 to zwi膮zane z rozmiarem lub rodzajem zadania. W pracy zaproponowany zosta艂 model heterogenicznych oblicze艅 na CPU/GPU. Przedstawiono metody optymalizacji, poszukuj膮ce r贸wnowagi mi臋dzy r贸偶nymi platformami obliczeniowymi. Opieraj膮 si臋 one na heurystycznym poszukiwaniu plan贸w wykonania uwzgl臋dniaj膮cych wiele cel贸w optymalizacyjnych. Model le偶膮cy u podstaw tego podej艣cia na艣laduje rynki towarowe, gdzie urz膮dzenia s膮 traktowane jako producenci, konsumentami s膮 natomiast plany zapyta艅. Warto艣膰 zasob贸w urz膮dze艅 komputerowych jest kontrolowana przez prawa popytu i poda偶y. Zastosowanie r贸偶nych kryteri贸w optymalizacji pozwala rozwi膮za膰 problemy z zakresu heterogenicznego przetwarzania zapyta艅, dla kt贸rych dotychczasowe metody by艂y nieskuteczne. Ponadto proponowane rozwi膮zania wyr贸偶nia mniejsza z艂o偶ono艣膰 czasowa i lepsza dok艂adno艣膰. W rozprawie om贸wiono przyk艂adowe zastosowanie baz danych szereg贸w czasowych: analiz臋 zachowa艅 racicznicy zmiennej (Dreissena polymorpha) opart膮 na obserwacji rozchyle艅 muszli zapisanej w postaci szereg贸w czasowych. Proponowany jest nowy algorytm oparty na falkach i funkcjach j膮drowych (ang. kernel functions), kt贸ry wykrywa odpowiednie zdarzenia w zebranych danych. Algorytm ten pozwala wyodr臋bni膰 zdarzenia elementarne z zapisanych obserwacji. Ponadto proponowany jest zarys systemu do automatycznego oddzielenia pomiar贸w kontrolnych i tych dokonanych w stresuj膮cych warunkach. Jako 偶e ma艂偶e z gatunku Dreissena polymorpha s膮 znanymi wska藕nikami biologicznymi, jest to istotny krok w kierunku biologicznych system贸w wczesnego ostrzegania
    corecore