10 research outputs found
Mining approximate motifs in time series
The problem of discovering previously unknown frequent patterns in time series, also called motifs, has been recently introduced. A motif is a subseries pattern that appears a significant number of times. Results demonstrate that motifs may provide valuable insights about the data and have a wide range of applications in data mining tasks. The main motivation for this study was the need to mine time series data from protein folding/unfolding simulations. We propose an algorithm that extracts approximate motifs, i.e. motifs that capture portions of time series with a similar and eventually symmetric behaviour. Preliminary results on the analysis of protein unfolding data support this proposal as a valuable tool. Additional experiments demonstrate that the application of utility of our algorithm is not limited to this particular problem. Rather it can be an interesting tool to be applied in many real world problems.Fundação para a Ciência e a Tecnologia (FCT).Fundo Europeu de Desenvolvimento Regional (FEDER) - POCTI/BME/49583/2002; SFRH/BD/13462/2003; SFRH/BD/16888/2004
NATSA: A Near-Data Processing Accelerator for Time Series Analysis
Time series analysis is a key technique for extracting and predicting events
in domains as diverse as epidemiology, genomics, neuroscience, environmental
sciences, economics, and more. Matrix profile, the state-of-the-art algorithm
to perform time series analysis, computes the most similar subsequence for a
given query subsequence within a sliced time series. Matrix profile has low
arithmetic intensity, but it typically operates on large amounts of time series
data. In current computing systems, this data needs to be moved between the
off-chip memory units and the on-chip computation units for performing matrix
profile. This causes a major performance bottleneck as data movement is
extremely costly in terms of both execution time and energy.
In this work, we present NATSA, the first Near-Data Processing accelerator
for time series analysis. The key idea is to exploit modern 3D-stacked High
Bandwidth Memory (HBM) to enable efficient and fast specialized matrix profile
computation near memory, where time series data resides. NATSA provides three
key benefits: 1) quickly computing the matrix profile for a wide range of
applications by building specialized energy-efficient floating-point arithmetic
processing units close to HBM, 2) improving the energy efficiency and execution
time by reducing the need for data movement over slow and energy-hungry buses
between the computation units and the memory units, and 3) analyzing time
series data at scale by exploiting low-latency, high-bandwidth, and
energy-efficient memory access provided by HBM. Our experimental evaluation
shows that NATSA improves performance by up to 14.2x (9.9x on average) and
reduces energy by up to 27.2x (19.4x on average), over the state-of-the-art
multi-core implementation. NATSA also improves performance by 6.3x and reduces
energy by 10.2x over a general-purpose NDP platform with 64 in-order cores.Comment: To appear in the 38th IEEE International Conference on Computer
Design (ICCD 2020
Classificação de sons urbanos usando motifs e MFCC
A classificação automática de sons urbanos é importante para o monitoramento ambiental. Este
trabalho apresenta uma nova metodologia para classificar sons urbanos, que se baseia na
descoberta de padrões frequentes (motifs) nos sinais sonoros e utiliza-los como atributos para
a classificação. Para extrair os motifs é utilizado um método de descoberta multi-resolução
baseada em SAX. Para a classificação são usadas árvores de decisão e SVMs. Esta nova
metodologia é comparada com outra bastante utilizada baseada em MFCC. Para a realização
de experiências foi utilizado o dataset UrbanSound disponível publicamente.
Realizadas as experiências, foi possível concluir que os atributos motif são melhores que os
MFCC a discriminar sons com timbres semelhantes e que os melhores resultados são
conseguidos com ambos os tipos de atributos combinados.
Neste trabalho foi também desenvolvida uma aplicação móvel para Android que permite
utilizar os métodos de classificação desenvolvidos num contexto de vida real e expandir o
dataset.The automatic classification of urban sounds is important for environmental monitoring. This
work presents a new method to classify urban sounds based on frequent patterns (motifs) in
the audio signals and using them as classification attributes. To extract the motifs, a multiresolution
discovery based on SAX is used. For the classification itself, decision trees and SVMs
are used. This new method is compared with another largely used based on MFCCs. For the
experiments, the publicly available UrbanSound dataset was used.
After the experiments, it was concluded that motif attributes are better to discriminate sounds
with similar timbre and better results are achieved with both attribute types combined.
In this work was also developed a mobile application for Android which allows the use of the
developed classifications methods in a real life context and to expand the dataset
Classificação de sons cardíacos usando Motifs: desenvolvimento de uma aplicação móvel
Este documento foi redigido no âmbito da Tese, do Mestrado em Engenharia Informática na área de Tecnologias do Conhecimento e Decisão, do Departamento de Engenharia Informática, do ISEP, cujo tema é classificação de sons cardíacos usando motifs.
Neste trabalho, apresenta-se um algoritmo de classificação de sons cardíacos, capaz de identificar patologias cardíacas. A classificação do som cardíaco é um trabalho desafiante dada a dificuldade em separar os sons ambiente (vozes, respiração, contacto do microfone com superfícies como pele ou tecidos) ou de ruído dos batimentos cardíacos.
Esta abordagem seguiu a metodologia de descoberta de padrões SAX (motifs) mais frequentes, em séries temporais relacionando-os com a ocorrência sistólica (S1) e a ocorrência diastólica (S2) do coração. A metodologia seguida mostrou-se eficaz a distinguir sons normais de sons correspondentes a patologia. Os resultados foram publicados na conferência internacional IDEAS’14 [Oliveira, 2014], em Julho deste ano.
Numa fase seguinte, desenvolveu-se uma aplicação móvel, capaz de captar os batimentos cardíacos, de os tratar e os classificar. A classificação dos sons é feita usando o método referido no parágrafo anterior. A aplicação móvel, depois de tratar os sons, envia-os para um servidor, onde o programa de classificação é executado, e recebe a resposta da classificação.
É também descrita a arquitetura aplicacional desenhada e as componentes que a constituem, as ferramentas e tecnologias utilizadas.This document was prepared as part of the Thesis of the MSc in Computer Science in the area of Knowledge and Decision Technologies, Department of Computer Engineering, ISEP.
The theme is classification of heart sounds.
In this dissertation we present an algorithm for heart sounds classification, able to identify cardiac pathologies. The classification of the heart sound is a challenging work due to the difficulty in separating heartbeat sound from the ambient sounds (voices, breathing, microphone contact with surfaces like skin or textiles) or noise.
In this approach we use the methodology of discovery of frequent SAX patterns (motifs) in time series, relating them with systolic (S1) and diastolic (S2) heart events. The methodology was effective to distinguish normal sounds from pathologic sounds. The results were published in international conference IDEAS'14 [Oliveira, 2014], in July.
We have also developed a mobile application, able to capture, process and classify heart beats. The mobile application, captures and processes the sounds, sends them to a server where the classification program is running, and receives the classification result.
We also described the application architecture, its components as well as the tools and technologies used
Diagnóstico cardíaco a partir de dados acústicos e clínicos
Este documento foi redigido no âmbito da dissertação do Mestrado em Engenharia
Informática na área de Arquiteturas, Sistemas e Redes, do Departamento de Engenharia
Informática, do ISEP, cujo tema é diagnóstico cardíaco a partir de dados acústicos e clínicos.
O objetivo deste trabalho é produzir um método que permita diagnosticar
automaticamente patologias cardíacas utilizando técnicas de classificação de data mining.
Foram utilizados dois tipos de dados: sons cardíacos gravados em ambiente hospitalar e dados
clínicos. Numa primeira fase, exploraram-se os sons cardíacos usando uma abordagem baseada
em motifs. Numa segunda fase, utilizamos os dados clínicos anotados dos pacientes. Numa
terceira fase, avaliamos a combinação das duas abordagens. Na avaliação experimental os
modelos baseados em motifs obtiveram melhores resultados do que os construídos a partir dos
dados clínicos. A combinação das abordagens mostrou poder ser vantajosa em situações
pontuais.This document was written as part of the Thesis of the MSc in computer science in the
area of Architecture, System and Network, Department of Computer Engineering in ISEP. The
main theme of this Thesis is to diagnose cardiac diseases, through acoustic and clinical data.
The goal of this work is to produce a process for automatically diagnosing heart
problems using data mining classification techniques. Two types of data were used: heart
sounds recorded in hospitals and clinical data. Initially, we explored the heart sounds using an
approach based on motifs. In a second stage, we used the clinical data of the patients. In a third
phase, we evaluated the combination of both approaches. Experimental evaluation showed
that models based on motifs performed better than those built from clinical data. The
combination of approaches has shown to be advantageous in specific situations
Análise de dados de desnaturação proteica obtida por simulações de dinâmica molecular
Dissertação de mestrado em Engenharia InformáticaA Polineuropatia Amiloidótica Familiar, mais conhecida em Portugal por Doença dos Pezinhos ou por Paramiloidose, é uma doença incurável, apresentando uma rápida evolução e podendo conduzir à morte do paciente. Esta patologia é desencadeada por um processo de desnaturação da Transtirretina (TTR) – uma proteína produzida pelo organismo humano – que provoca a acumulação de elevadas quantidades de substâncias fibrilares da proteína mutada em diversos tecidos. Esta acumulação condiciona o normal funcionamento do organismo.
A dinâmica molecular é uma técnica de simulação computacional que permite derivar os diferentes estados de desnaturação da TTR. Foram efetuadas diferentes simulações de desnaturação proteica representando diferentes condições iniciais sobre a TTR e uma sua variante mais amiloidogénica (Leu55Pro). Destas simulações foram consideradas dez para aplicação de algoritmos de Graph Mining da biblioteca ParMol, para extração de subgrafos (fragmentos). Os fragmentos foram posteriormente organizados em grupos conforme a zona da proteína em que se encontram. Estes fragmentos são a base dos
caminhos de desnaturação.
O objetivo desta tese é o desenvolvimento de uma ferramenta de visualização que permita o estudo do fluxo de evolução da TTR ao longo das simulações de desnaturação. Nomeadamente pretende-se identificar as interações entre resíduos que compõem a TTR e comandam o processo de desnaturação. A ferramenta (Subgraph Paths) permite a visualização e análise não só dos fragmentos extraídos mas também dos caminhos de folding/unfolding associados a estes. Um caminho é uma trajetória de evolução de um fragmento ao longo do tempo numa simulação. Esta evolução pode ser composta por momentos de expansão e de retração do fragmento, em termos de ganhos ou perdas de ligações. Outro conceito importante abordado na dissertação é o de procura de caminhos noutras simulações. A procura permite expor semelhanças e diferenças no comportamento dos resíduos entre simulações de diferentes variantes da proteína
Human worker activity recognition in industrial environments
In this work, an intelligent human-machine interface (HMI) for human worker activity recognition in industrial environments is presented. The interface consists of components for robust and accurate 3D position estimation in workspace environments, the recognition of task-related worker activities and human-computer interaction via gestures. All components of the presented HMI are flexible with respect to applications and can be transferred to other activity recognition problems, as well
Mining Approximate Motifs in Time Series
Abstract. The problem of discovering previously unknown frequent patterns in time series, also called motifs, has been recently introduced. A motif is a subseries pattern that appears a significant number of times. Results demonstrate that motifs may provide valuable insights about the data and have a wide range of applications in data mining tasks. The main motivation for this study was the need to mine time series data from protein folding/unfolding simulations. We propose an algorithm that extracts approximate motifs, i.e. motifs that capture portions of time series with a similar and eventually symmetric behavior. Preliminary results on the analysis of protein unfolding data support this proposal as a valuable tool. Additional experiments demonstrate that the application of utility of our algorithm is not limited to this particular problem. Rather it can be an interesting tool to be applied in many real world problems.
Time Series Classification With Motifs And Characteristics
In the last years, there is a huge increase of interest in application of time series. Virtually all human endeavors create time-oriented data, and the Data Mining community has proposed a large number of approaches to analyze such data. One of the most common tasks in Data Mining is classification, in which each time series should be associated to a class. Empirical evidence has shown that the nearest neighbor rule is very effective to classify time series data. However, the nearest neighbor classifier is unable to provide any form of explanation. In this chapter we describe a novel method to induce classifiers from time series data. Our approach uses standard Machine Learning classifiers using motifs and characteristics as features. We show that our approach can be very effective for classification, providing higher accuracy for most of the data sets used in an empirical evaluation. In addition, when used with symbolic models, such as decision trees, our approach provides very compact decision rules, leveraging knowledge discovery from time series. We also show two case studies with real world medical data.© Springer-Verlag Berlin Heidelberg 2014.537125138Buhler, J., Tompa, M., Finding motifs using random projections (2002) Journal of ComputationalBiology, 9 (2), pp. 225-242Chiu, B., Keogh, E., Lonard, S., (2003) Probabilistic Discovery of Time Series Motifs, pp. 493-498. , In"Proceedings of the 9th International Conference on Knowledge Discovery and Data Mining, New York, USAFerreira, P.G., Azevedo, P.J., Silva, C.G., Brito, R.M.M., (2006) Mining Approximate Motifs in Time Series, 4265, pp. 89-101. , In:Todorovski, L., Lavrač, N., Jantke, K.P. (eds.),LNCS (LNAI), DS 2006 ,Springer, HeidelbergDing, H., Trajcevski, G., Scheuermann, P., Wang, X., Keogh, E., (2008) Querying and Mining of Time Series Data: Experimental Comparison of Representations and Distance Measures, pp. 1542-1552. , Proceedings of the VLDB EndowmentKeogh, E., Zhu, Q., Hu, B., Hao, Y., Xi, X., Wei, L., Ratanamahatana, C.A., The UCR Time Series Classification/Clustering (2011), p. 2012. , http://www.cs.ucr.edu/~eamonn/time_series_data/, accessed February 28Last, M., Kandel, A., Bunke, H., Data mining in time series databases (2004) Machine Perception and Artificial Intelligence, 57. , World Scientific, DanversLin, J., Keogh, E., Lonardi, S., Patel, P., Finding motifs in time series (2002) Proceedings of the Second Workshop on Temporal Data Mining at the Eighth Interntional Conferenceon Knowledge Discovery and Data Mining, pp. 53-68. , In:Edmonton, Alberta,CanadaMaletzke, A.G., Uma Metodologia Para A Extração De Conhecimento Em Séries Temporais Por Meio Da Identificação De Motifs E Extração De Características (2009) Master Thesis, , Universidade de São Paulo, São Paulo, BrazilMaletzke, A.G., Batista, G.E., Lee, H.D., Uma avaliação sobre a identificaçãode motifs em séries temporais (2008) Anais Do Congresso da Academia Trinacional de Ciências, Foz Do Iguaçu, 1, pp. 1-10. , In:Paraná, BrazilMaletzke, A.G., Lee, H.D., Zalewski, W., Oliva, J.T., Machado, R.B., Coy, C.S.R., Fagundes, J.J., Wu, F.C., Estudo do Parâmetro Tamanho de Motif para a Classificaç ão de Séries Temporais de ECG Congresso da Sociedade Brasileira de Computação, Workshop de Informática Médica, Natal, Rio Grande Do Norte, 2011, pp. 1-10Michalski, R.S., Bratko, I., Kubat, M., (1998) Machine Learning and Data Mining, , Wiley ChichesterOlszewski, R.T., (2001) Generalized Feature Extraction for Structural Pattern Recognition in Time-Series Data, , PhD Thesis, Carnegie Mellon University, Pitts-burgh, PASaad, L.H.C., (2002) Quantificação da Função Esfincteriana Pela Medida da Capaci-dade de Sustentação da Pressão de Contração Voluntária Do Canal Anal, , PhD Thesis, Faculdade de Ciências Médicas da Universidade Estadual de Campi-nas, Campinas, SPTanaka, Y., Iwamoto, K., Uehara, K., Discovery of time-series motif from multidimensional data based on mdl principle (2005) Machine Learning, 58 (2-3), pp. 269-300Witten, I.H., Frank, E., (2005) Data mining: Practical Machine Learning Tools and Techniques, , 2nd edn Elsevier San Francisc