10 research outputs found

    Mining approximate motifs in time series

    Get PDF
    The problem of discovering previously unknown frequent patterns in time series, also called motifs, has been recently introduced. A motif is a subseries pattern that appears a significant number of times. Results demonstrate that motifs may provide valuable insights about the data and have a wide range of applications in data mining tasks. The main motivation for this study was the need to mine time series data from protein folding/unfolding simulations. We propose an algorithm that extracts approximate motifs, i.e. motifs that capture portions of time series with a similar and eventually symmetric behaviour. Preliminary results on the analysis of protein unfolding data support this proposal as a valuable tool. Additional experiments demonstrate that the application of utility of our algorithm is not limited to this particular problem. Rather it can be an interesting tool to be applied in many real world problems.Fundação para a Ciência e a Tecnologia (FCT).Fundo Europeu de Desenvolvimento Regional (FEDER) - POCTI/BME/49583/2002; SFRH/BD/13462/2003; SFRH/BD/16888/2004

    NATSA: A Near-Data Processing Accelerator for Time Series Analysis

    Get PDF
    Time series analysis is a key technique for extracting and predicting events in domains as diverse as epidemiology, genomics, neuroscience, environmental sciences, economics, and more. Matrix profile, the state-of-the-art algorithm to perform time series analysis, computes the most similar subsequence for a given query subsequence within a sliced time series. Matrix profile has low arithmetic intensity, but it typically operates on large amounts of time series data. In current computing systems, this data needs to be moved between the off-chip memory units and the on-chip computation units for performing matrix profile. This causes a major performance bottleneck as data movement is extremely costly in terms of both execution time and energy. In this work, we present NATSA, the first Near-Data Processing accelerator for time series analysis. The key idea is to exploit modern 3D-stacked High Bandwidth Memory (HBM) to enable efficient and fast specialized matrix profile computation near memory, where time series data resides. NATSA provides three key benefits: 1) quickly computing the matrix profile for a wide range of applications by building specialized energy-efficient floating-point arithmetic processing units close to HBM, 2) improving the energy efficiency and execution time by reducing the need for data movement over slow and energy-hungry buses between the computation units and the memory units, and 3) analyzing time series data at scale by exploiting low-latency, high-bandwidth, and energy-efficient memory access provided by HBM. Our experimental evaluation shows that NATSA improves performance by up to 14.2x (9.9x on average) and reduces energy by up to 27.2x (19.4x on average), over the state-of-the-art multi-core implementation. NATSA also improves performance by 6.3x and reduces energy by 10.2x over a general-purpose NDP platform with 64 in-order cores.Comment: To appear in the 38th IEEE International Conference on Computer Design (ICCD 2020

    Classificação de sons urbanos usando motifs e MFCC

    Get PDF
    A classificação automática de sons urbanos é importante para o monitoramento ambiental. Este trabalho apresenta uma nova metodologia para classificar sons urbanos, que se baseia na descoberta de padrões frequentes (motifs) nos sinais sonoros e utiliza-los como atributos para a classificação. Para extrair os motifs é utilizado um método de descoberta multi-resolução baseada em SAX. Para a classificação são usadas árvores de decisão e SVMs. Esta nova metodologia é comparada com outra bastante utilizada baseada em MFCC. Para a realização de experiências foi utilizado o dataset UrbanSound disponível publicamente. Realizadas as experiências, foi possível concluir que os atributos motif são melhores que os MFCC a discriminar sons com timbres semelhantes e que os melhores resultados são conseguidos com ambos os tipos de atributos combinados. Neste trabalho foi também desenvolvida uma aplicação móvel para Android que permite utilizar os métodos de classificação desenvolvidos num contexto de vida real e expandir o dataset.The automatic classification of urban sounds is important for environmental monitoring. This work presents a new method to classify urban sounds based on frequent patterns (motifs) in the audio signals and using them as classification attributes. To extract the motifs, a multiresolution discovery based on SAX is used. For the classification itself, decision trees and SVMs are used. This new method is compared with another largely used based on MFCCs. For the experiments, the publicly available UrbanSound dataset was used. After the experiments, it was concluded that motif attributes are better to discriminate sounds with similar timbre and better results are achieved with both attribute types combined. In this work was also developed a mobile application for Android which allows the use of the developed classifications methods in a real life context and to expand the dataset

    Classificação de sons cardíacos usando Motifs: desenvolvimento de uma aplicação móvel

    Get PDF
    Este documento foi redigido no âmbito da Tese, do Mestrado em Engenharia Informática na área de Tecnologias do Conhecimento e Decisão, do Departamento de Engenharia Informática, do ISEP, cujo tema é classificação de sons cardíacos usando motifs. Neste trabalho, apresenta-se um algoritmo de classificação de sons cardíacos, capaz de identificar patologias cardíacas. A classificação do som cardíaco é um trabalho desafiante dada a dificuldade em separar os sons ambiente (vozes, respiração, contacto do microfone com superfícies como pele ou tecidos) ou de ruído dos batimentos cardíacos. Esta abordagem seguiu a metodologia de descoberta de padrões SAX (motifs) mais frequentes, em séries temporais relacionando-os com a ocorrência sistólica (S1) e a ocorrência diastólica (S2) do coração. A metodologia seguida mostrou-se eficaz a distinguir sons normais de sons correspondentes a patologia. Os resultados foram publicados na conferência internacional IDEAS’14 [Oliveira, 2014], em Julho deste ano. Numa fase seguinte, desenvolveu-se uma aplicação móvel, capaz de captar os batimentos cardíacos, de os tratar e os classificar. A classificação dos sons é feita usando o método referido no parágrafo anterior. A aplicação móvel, depois de tratar os sons, envia-os para um servidor, onde o programa de classificação é executado, e recebe a resposta da classificação. É também descrita a arquitetura aplicacional desenhada e as componentes que a constituem, as ferramentas e tecnologias utilizadas.This document was prepared as part of the Thesis of the MSc in Computer Science in the area of Knowledge and Decision Technologies, Department of Computer Engineering, ISEP. The theme is classification of heart sounds. In this dissertation we present an algorithm for heart sounds classification, able to identify cardiac pathologies. The classification of the heart sound is a challenging work due to the difficulty in separating heartbeat sound from the ambient sounds (voices, breathing, microphone contact with surfaces like skin or textiles) or noise. In this approach we use the methodology of discovery of frequent SAX patterns (motifs) in time series, relating them with systolic (S1) and diastolic (S2) heart events. The methodology was effective to distinguish normal sounds from pathologic sounds. The results were published in international conference IDEAS'14 [Oliveira, 2014], in July. We have also developed a mobile application, able to capture, process and classify heart beats. The mobile application, captures and processes the sounds, sends them to a server where the classification program is running, and receives the classification result. We also described the application architecture, its components as well as the tools and technologies used

    Diagnóstico cardíaco a partir de dados acústicos e clínicos

    Get PDF
    Este documento foi redigido no âmbito da dissertação do Mestrado em Engenharia Informática na área de Arquiteturas, Sistemas e Redes, do Departamento de Engenharia Informática, do ISEP, cujo tema é diagnóstico cardíaco a partir de dados acústicos e clínicos. O objetivo deste trabalho é produzir um método que permita diagnosticar automaticamente patologias cardíacas utilizando técnicas de classificação de data mining. Foram utilizados dois tipos de dados: sons cardíacos gravados em ambiente hospitalar e dados clínicos. Numa primeira fase, exploraram-se os sons cardíacos usando uma abordagem baseada em motifs. Numa segunda fase, utilizamos os dados clínicos anotados dos pacientes. Numa terceira fase, avaliamos a combinação das duas abordagens. Na avaliação experimental os modelos baseados em motifs obtiveram melhores resultados do que os construídos a partir dos dados clínicos. A combinação das abordagens mostrou poder ser vantajosa em situações pontuais.This document was written as part of the Thesis of the MSc in computer science in the area of Architecture, System and Network, Department of Computer Engineering in ISEP. The main theme of this Thesis is to diagnose cardiac diseases, through acoustic and clinical data. The goal of this work is to produce a process for automatically diagnosing heart problems using data mining classification techniques. Two types of data were used: heart sounds recorded in hospitals and clinical data. Initially, we explored the heart sounds using an approach based on motifs. In a second stage, we used the clinical data of the patients. In a third phase, we evaluated the combination of both approaches. Experimental evaluation showed that models based on motifs performed better than those built from clinical data. The combination of approaches has shown to be advantageous in specific situations

    Análise de dados de desnaturação proteica obtida por simulações de dinâmica molecular

    Get PDF
    Dissertação de mestrado em Engenharia InformáticaA Polineuropatia Amiloidótica Familiar, mais conhecida em Portugal por Doença dos Pezinhos ou por Paramiloidose, é uma doença incurável, apresentando uma rápida evolução e podendo conduzir à morte do paciente. Esta patologia é desencadeada por um processo de desnaturação da Transtirretina (TTR) – uma proteína produzida pelo organismo humano – que provoca a acumulação de elevadas quantidades de substâncias fibrilares da proteína mutada em diversos tecidos. Esta acumulação condiciona o normal funcionamento do organismo. A dinâmica molecular é uma técnica de simulação computacional que permite derivar os diferentes estados de desnaturação da TTR. Foram efetuadas diferentes simulações de desnaturação proteica representando diferentes condições iniciais sobre a TTR e uma sua variante mais amiloidogénica (Leu55Pro). Destas simulações foram consideradas dez para aplicação de algoritmos de Graph Mining da biblioteca ParMol, para extração de subgrafos (fragmentos). Os fragmentos foram posteriormente organizados em grupos conforme a zona da proteína em que se encontram. Estes fragmentos são a base dos caminhos de desnaturação. O objetivo desta tese é o desenvolvimento de uma ferramenta de visualização que permita o estudo do fluxo de evolução da TTR ao longo das simulações de desnaturação. Nomeadamente pretende-se identificar as interações entre resíduos que compõem a TTR e comandam o processo de desnaturação. A ferramenta (Subgraph Paths) permite a visualização e análise não só dos fragmentos extraídos mas também dos caminhos de folding/unfolding associados a estes. Um caminho é uma trajetória de evolução de um fragmento ao longo do tempo numa simulação. Esta evolução pode ser composta por momentos de expansão e de retração do fragmento, em termos de ganhos ou perdas de ligações. Outro conceito importante abordado na dissertação é o de procura de caminhos noutras simulações. A procura permite expor semelhanças e diferenças no comportamento dos resíduos entre simulações de diferentes variantes da proteína

    Human worker activity recognition in industrial environments

    Get PDF
    In this work, an intelligent human-machine interface (HMI) for human worker activity recognition in industrial environments is presented. The interface consists of components for robust and accurate 3D position estimation in workspace environments, the recognition of task-related worker activities and human-computer interaction via gestures. All components of the presented HMI are flexible with respect to applications and can be transferred to other activity recognition problems, as well

    Mining Approximate Motifs in Time Series

    No full text
    Abstract. The problem of discovering previously unknown frequent patterns in time series, also called motifs, has been recently introduced. A motif is a subseries pattern that appears a significant number of times. Results demonstrate that motifs may provide valuable insights about the data and have a wide range of applications in data mining tasks. The main motivation for this study was the need to mine time series data from protein folding/unfolding simulations. We propose an algorithm that extracts approximate motifs, i.e. motifs that capture portions of time series with a similar and eventually symmetric behavior. Preliminary results on the analysis of protein unfolding data support this proposal as a valuable tool. Additional experiments demonstrate that the application of utility of our algorithm is not limited to this particular problem. Rather it can be an interesting tool to be applied in many real world problems.

    Time Series Classification With Motifs And Characteristics

    No full text
    In the last years, there is a huge increase of interest in application of time series. Virtually all human endeavors create time-oriented data, and the Data Mining community has proposed a large number of approaches to analyze such data. One of the most common tasks in Data Mining is classification, in which each time series should be associated to a class. Empirical evidence has shown that the nearest neighbor rule is very effective to classify time series data. However, the nearest neighbor classifier is unable to provide any form of explanation. In this chapter we describe a novel method to induce classifiers from time series data. Our approach uses standard Machine Learning classifiers using motifs and characteristics as features. We show that our approach can be very effective for classification, providing higher accuracy for most of the data sets used in an empirical evaluation. In addition, when used with symbolic models, such as decision trees, our approach provides very compact decision rules, leveraging knowledge discovery from time series. We also show two case studies with real world medical data.© Springer-Verlag Berlin Heidelberg 2014.537125138Buhler, J., Tompa, M., Finding motifs using random projections (2002) Journal of ComputationalBiology, 9 (2), pp. 225-242Chiu, B., Keogh, E., Lonard, S., (2003) Probabilistic Discovery of Time Series Motifs, pp. 493-498. , In"Proceedings of the 9th International Conference on Knowledge Discovery and Data Mining, New York, USAFerreira, P.G., Azevedo, P.J., Silva, C.G., Brito, R.M.M., (2006) Mining Approximate Motifs in Time Series, 4265, pp. 89-101. , In:Todorovski, L., Lavrač, N., Jantke, K.P. (eds.),LNCS (LNAI), DS 2006 ,Springer, HeidelbergDing, H., Trajcevski, G., Scheuermann, P., Wang, X., Keogh, E., (2008) Querying and Mining of Time Series Data: Experimental Comparison of Representations and Distance Measures, pp. 1542-1552. , Proceedings of the VLDB EndowmentKeogh, E., Zhu, Q., Hu, B., Hao, Y., Xi, X., Wei, L., Ratanamahatana, C.A., The UCR Time Series Classification/Clustering (2011), p. 2012. , http://www.cs.ucr.edu/~eamonn/time_series_data/, accessed February 28Last, M., Kandel, A., Bunke, H., Data mining in time series databases (2004) Machine Perception and Artificial Intelligence, 57. , World Scientific, DanversLin, J., Keogh, E., Lonardi, S., Patel, P., Finding motifs in time series (2002) Proceedings of the Second Workshop on Temporal Data Mining at the Eighth Interntional Conferenceon Knowledge Discovery and Data Mining, pp. 53-68. , In:Edmonton, Alberta,CanadaMaletzke, A.G., Uma Metodologia Para A Extração De Conhecimento Em Séries Temporais Por Meio Da Identificação De Motifs E Extração De Características (2009) Master Thesis, , Universidade de São Paulo, São Paulo, BrazilMaletzke, A.G., Batista, G.E., Lee, H.D., Uma avaliação sobre a identificaçãode motifs em séries temporais (2008) Anais Do Congresso da Academia Trinacional de Ciências, Foz Do Iguaçu, 1, pp. 1-10. , In:Paraná, BrazilMaletzke, A.G., Lee, H.D., Zalewski, W., Oliva, J.T., Machado, R.B., Coy, C.S.R., Fagundes, J.J., Wu, F.C., Estudo do Parâmetro Tamanho de Motif para a Classificaç ão de Séries Temporais de ECG Congresso da Sociedade Brasileira de Computação, Workshop de Informática Médica, Natal, Rio Grande Do Norte, 2011, pp. 1-10Michalski, R.S., Bratko, I., Kubat, M., (1998) Machine Learning and Data Mining, , Wiley ChichesterOlszewski, R.T., (2001) Generalized Feature Extraction for Structural Pattern Recognition in Time-Series Data, , PhD Thesis, Carnegie Mellon University, Pitts-burgh, PASaad, L.H.C., (2002) Quantificação da Função Esfincteriana Pela Medida da Capaci-dade de Sustentação da Pressão de Contração Voluntária Do Canal Anal, , PhD Thesis, Faculdade de Ciências Médicas da Universidade Estadual de Campi-nas, Campinas, SPTanaka, Y., Iwamoto, K., Uehara, K., Discovery of time-series motif from multidimensional data based on mdl principle (2005) Machine Learning, 58 (2-3), pp. 269-300Witten, I.H., Frank, E., (2005) Data mining: Practical Machine Learning Tools and Techniques, , 2nd edn Elsevier San Francisc
    corecore