13 research outputs found

    Classificação de sons urbanos usando motifs e MFCC

    Get PDF
    A classificação automática de sons urbanos é importante para o monitoramento ambiental. Este trabalho apresenta uma nova metodologia para classificar sons urbanos, que se baseia na descoberta de padrões frequentes (motifs) nos sinais sonoros e utiliza-los como atributos para a classificação. Para extrair os motifs é utilizado um método de descoberta multi-resolução baseada em SAX. Para a classificação são usadas árvores de decisão e SVMs. Esta nova metodologia é comparada com outra bastante utilizada baseada em MFCC. Para a realização de experiências foi utilizado o dataset UrbanSound disponível publicamente. Realizadas as experiências, foi possível concluir que os atributos motif são melhores que os MFCC a discriminar sons com timbres semelhantes e que os melhores resultados são conseguidos com ambos os tipos de atributos combinados. Neste trabalho foi também desenvolvida uma aplicação móvel para Android que permite utilizar os métodos de classificação desenvolvidos num contexto de vida real e expandir o dataset.The automatic classification of urban sounds is important for environmental monitoring. This work presents a new method to classify urban sounds based on frequent patterns (motifs) in the audio signals and using them as classification attributes. To extract the motifs, a multiresolution discovery based on SAX is used. For the classification itself, decision trees and SVMs are used. This new method is compared with another largely used based on MFCCs. For the experiments, the publicly available UrbanSound dataset was used. After the experiments, it was concluded that motif attributes are better to discriminate sounds with similar timbre and better results are achieved with both attribute types combined. In this work was also developed a mobile application for Android which allows the use of the developed classifications methods in a real life context and to expand the dataset

    Diagnóstico cardíaco a partir de dados acústicos e clínicos

    Get PDF
    Este documento foi redigido no âmbito da dissertação do Mestrado em Engenharia Informática na área de Arquiteturas, Sistemas e Redes, do Departamento de Engenharia Informática, do ISEP, cujo tema é diagnóstico cardíaco a partir de dados acústicos e clínicos. O objetivo deste trabalho é produzir um método que permita diagnosticar automaticamente patologias cardíacas utilizando técnicas de classificação de data mining. Foram utilizados dois tipos de dados: sons cardíacos gravados em ambiente hospitalar e dados clínicos. Numa primeira fase, exploraram-se os sons cardíacos usando uma abordagem baseada em motifs. Numa segunda fase, utilizamos os dados clínicos anotados dos pacientes. Numa terceira fase, avaliamos a combinação das duas abordagens. Na avaliação experimental os modelos baseados em motifs obtiveram melhores resultados do que os construídos a partir dos dados clínicos. A combinação das abordagens mostrou poder ser vantajosa em situações pontuais.This document was written as part of the Thesis of the MSc in computer science in the area of Architecture, System and Network, Department of Computer Engineering in ISEP. The main theme of this Thesis is to diagnose cardiac diseases, through acoustic and clinical data. The goal of this work is to produce a process for automatically diagnosing heart problems using data mining classification techniques. Two types of data were used: heart sounds recorded in hospitals and clinical data. Initially, we explored the heart sounds using an approach based on motifs. In a second stage, we used the clinical data of the patients. In a third phase, we evaluated the combination of both approaches. Experimental evaluation showed that models based on motifs performed better than those built from clinical data. The combination of approaches has shown to be advantageous in specific situations

    Gene finder easy: uma ferramenta para identificação de genes

    Get PDF
    One of the main goals in bioinformatics is to identify, as well as analyze and understand proteins and nucleotides functions. The digital representation of these macromolecules is made by juxtaposed alphabet letters that form string or sequences that contains in formation in it. In the process for assembling the genes, some portions of the sequences may differ from the actual sequence structur which can be corrected by bioinformatics techniques. In order to ease the analysis proccess done by researchers and students, this work aims to build a tool that assists the identification of potentially conserved domain genes trough multiple sequence aligment and phylogenetic analysis.Um dos objetivos da bioinformática á identificar, assim como analisar e entender as funções de nucleotídeos e proteínas. A representação digital dessas macromoléculas é feita por letras do alfabeto justapostas que formam fitas ou sequências de informação. No processo de montagem dos genes, algumas partes das sequências podem diferir da estrutura real da sequência, o que pode ser corrigido com técnicas de bioinformática. Com vista facilitar a análise feita por pesquisadores e estudantes, este trabalho visa construir uma ferramenta que auxilia na identificação de genes por meio de de alinhamento múltiplo de sequências e análise filogenética

    Classificação de sons cardíacos usando Motifs: desenvolvimento de uma aplicação móvel

    Get PDF
    Este documento foi redigido no âmbito da Tese, do Mestrado em Engenharia Informática na área de Tecnologias do Conhecimento e Decisão, do Departamento de Engenharia Informática, do ISEP, cujo tema é classificação de sons cardíacos usando motifs. Neste trabalho, apresenta-se um algoritmo de classificação de sons cardíacos, capaz de identificar patologias cardíacas. A classificação do som cardíaco é um trabalho desafiante dada a dificuldade em separar os sons ambiente (vozes, respiração, contacto do microfone com superfícies como pele ou tecidos) ou de ruído dos batimentos cardíacos. Esta abordagem seguiu a metodologia de descoberta de padrões SAX (motifs) mais frequentes, em séries temporais relacionando-os com a ocorrência sistólica (S1) e a ocorrência diastólica (S2) do coração. A metodologia seguida mostrou-se eficaz a distinguir sons normais de sons correspondentes a patologia. Os resultados foram publicados na conferência internacional IDEAS’14 [Oliveira, 2014], em Julho deste ano. Numa fase seguinte, desenvolveu-se uma aplicação móvel, capaz de captar os batimentos cardíacos, de os tratar e os classificar. A classificação dos sons é feita usando o método referido no parágrafo anterior. A aplicação móvel, depois de tratar os sons, envia-os para um servidor, onde o programa de classificação é executado, e recebe a resposta da classificação. É também descrita a arquitetura aplicacional desenhada e as componentes que a constituem, as ferramentas e tecnologias utilizadas.This document was prepared as part of the Thesis of the MSc in Computer Science in the area of Knowledge and Decision Technologies, Department of Computer Engineering, ISEP. The theme is classification of heart sounds. In this dissertation we present an algorithm for heart sounds classification, able to identify cardiac pathologies. The classification of the heart sound is a challenging work due to the difficulty in separating heartbeat sound from the ambient sounds (voices, breathing, microphone contact with surfaces like skin or textiles) or noise. In this approach we use the methodology of discovery of frequent SAX patterns (motifs) in time series, relating them with systolic (S1) and diastolic (S2) heart events. The methodology was effective to distinguish normal sounds from pathologic sounds. The results were published in international conference IDEAS'14 [Oliveira, 2014], in July. We have also developed a mobile application, able to capture, process and classify heart beats. The mobile application, captures and processes the sounds, sends them to a server where the classification program is running, and receives the classification result. We also described the application architecture, its components as well as the tools and technologies used

    Applications of high-frequency telematics for driving behavior analysis

    Get PDF
    A thesis submitted in partial fulfillment of the requirements for the degree of Doctor in Information Management, specialization in Statistics and EconometricsProcessing driving data and investigating driving behavior has been receiving an increasing interest in the last decades, with applications ranging from car insurance pricing to policy-making. A popular way of analyzing driving behavior is to move the focus to the maneuvers as they give useful information about the driver who is performing them. Previous research on maneuver detection can be divided into two strategies, namely, 1) using fixed thresholds in inertial measurements to define the start and end of specific maneuvers or 2) using features extracted from rolling windows of sensor data in a supervised learning model to detect maneuvers. While the first strategy is not adaptable and requires fine-tuning, the second needs a dataset with labels (which is time-consuming) and cannot identify maneuvers with different lengths in time. To tackle these shortcomings, we investigate a new way of identifying maneuvers from vehicle telematics data, through motif detection in time-series. Using a publicly available naturalistic driving dataset (the UAH-DriveSet), we conclude that motif detection algorithms are not only capable of extracting simple maneuvers such as accelerations, brakes, and turns, but also more complex maneuvers, such as lane changes and overtaking maneuvers, thus validating motif discovery as a worthwhile line for future research in driving behavior. We also propose TripMD, a system that extracts the most relevant driving patterns from sensor recordings (such as acceleration) and provides a visualization that allows for an easy investigation. We test TripMD in the same UAH-DriveSet dataset and show that (1) our system can extract a rich number of driving patterns from a single driver that are meaningful to understand driving behaviors and (2) our system can be used to identify the driving behavior of an unknown driver from a set of drivers whose behavior we know.Nas últimas décadas, o processamento e análise de dados de condução tem recebido um interesse cada vez maior, com aplicações que abrangem a área de seguros de automóveis até a atea de regulação. Tipicamente, a análise de condução compreende a extração e estudo de manobras uma vez que estas contêm informação relevante sobre a performance do condutor. A investigação prévia sobre este tema pode ser dividida em dois tipos de estratégias, a saber, 1) o uso de valores fixos de aceleração para definir o início e fim de cada manobra ou 2) a utilização de modelos de aprendizagem supervisionada em janelas temporais. Enquanto o primeiro tipo de estratégias é inflexível e requer afinação dos parâmetros, o segundo precisa de dados de condução anotados (o que é moroso) e não é capaz de identificar manobras de diferentes durações. De forma a mitigar estas lacunas, neste trabalho, aplicamos métodos desenvolvidos na área de investigação de séries temporais de forma a resolver o problema de deteção de manobras. Em particular, exploramos área de deteção de motifs em séries temporais e testamos se estes métodos genéricos são bem-sucedidos na deteção de manobras. Também propomos o TripMD, um sistema que extrai os padrões de condução mais relevantes de um conjuntos de viagens e fornece uma simples visualização. TripMD é testado num conjunto de dados públicos (o UAH-DriveSet), do qual concluímos que (1) o nosso sistema é capaz de extrair padrões de condução/manobras de um único condutor que estão relacionados com o perfil de condução do condutor em questão e (2) o nosso sistema pode ser usado para identificar o perfil de condução de um condutor desconhecido de um conjunto de condutores cujo comportamento nos é conhecido

    Análise e compressão de sequências genómicas

    Get PDF
    Tese de doutoramento em InformáticaA informação dos códigos genéticos sequenciados é na actualidade, provavelmente, a fonte mais inspiradora para o estudo e avanço das teorias da informação e da codificação. Algoritmos eficientes para a sua compressão antevêm-se essenciais para a optimização do armazenamento e comunicação da informação genómica. A compressão de informação genómica é um caso particular da compressão de informação. A entropia das sequências de ADN é elevada, contudo variável. Ao nível intra-genómico é maior nas regiões codificantes e menor nas regiões não codificantes. Ao nível inter-genómico é maior nos seres procarióticos e menor nos eucarióticos. Na base da redução da entropia estão as regularidades que perfazem as regiões repetitivas do ADN. As regiões repetitivas compõem-se sobretudo de padrões aproximados, que incluem pontualmente mutações, delecções, inserções ou gaps. Os padrões exactos são menos relevantes e geralmente apresentam-se em numerosas repetições adjacentes. A redundância do ADN também tem manifestações estatísticas e probabilísticas. As redundâncias das sequências de ADN são a fonte de recursos de compressão, as grandes repetições indicam-se para a compressão substitucional com recurso a dicionário, enquanto que as evidências estatísticas e probabilísticas permitem modelar e predizer parcialmente a sucessão de símbolos (bases), utilizando compressores estatísticos para capitalizar esse potencial de compressão. Considerando a entropia máxima para o ADN, a sua codificação corresponde a 2 bits por base. Em média, os melhores compressores disponíveis, concebidos para a especificidade do ADN, alcançam os 1,7 bits/base, o que corresponde a uma taxa de compressão de apenas 15%, valor que é demonstrativo da dificuldade inerente. O trabalho realizado corresponde a um framework de análise e compressão de sequências de ADN, cuja aplicação principal corresponde ao DNALight. O DNALight é uma solução híbrida para compressão de informação genómica baseada na cooperação de várias metodologias vocacionadas para absorver ocorrências das diferentes tipologias de redundâncias presentes nas cadeias de nucleótidos. De facto, a compressão não é possível sem análise. É na completa análise que reside a obtenção dos recursos que permitirão reduzir a entropia. Para a análise de sequências de ADN desenvolveram-se algoritmos inovadores para a pesquisa de padrões exactos (GRASPm) e aproximados (SimSearch) que alcançam desempenhos que superam destacadamente o estado da arte. Estes algoritmos intervêm na primeira fase do DNALight que aproveita o potencial dos padrões mais representativos para a compressão substitucional baseada em dicionário de padrões exactos e aproximados. Para maximizar as captações de padrões, a pesquisa é exaustiva e efectuada multi-nível, ou seja, na sequência normal 5’-3’, na complementar natural 3’-5’, e também nas duas restantes complementares artificiais. Na segunda fase do DNALight, que procura fazer o aproveitamento das redundâncias desconsideradas pela captação da primeira fase, são construídos modelos probabilísticos de linguagem compactos com bases nas regiões menos repetitivas que transitam para esta fase, e que constituem o input para esta metodologia complementar. Em concorrência, os modelos geram predições sustentadas nas apreciações probabilísticas de modelos de linguagem globais e locais. As predições acertadas ou aproximadas permitem codificações mais económicas pois criam maior desequilíbrio no modelo probabilístico de codificação, beneficiando o desempenho da codificação aritmética que encerra o processo. O processo de descompressão é similar mas reverso ao descrito para a compressão. Os resultados experimentais colocam o DNALight como novo integrante do estado da arte em compressão de sequências de ADN, superando consistentemente, mas em pequena escala, os seus antecessores.Genetics is nowadays, probably, the most inspiring source for coding theory study and developments. Efficient compression algorithms are essential to optimise genomic data storage and communication. Genomic data compression is a particular case of data compression. The entropy present in DNA sequences is high, however variable. At intra-genomic level, it is higher in coding regions and lower in non-coding regions. At inter-genomic level, it is higher in the prokaryotes and lower in eukaryotes. DNA entropy reduction is achieved by coding more efficiently the repetitive regions of the ADN. Repetitive regions are mainly composed of inexact patterns. Patterns’ errors are caused by biological processes and DNA dynamics including mutations, deletions, insertions or gaps. Exact patterns are less relevant and generally are presented in tandem repetitions. DNA redundancies have also statistical and probabilistic manifestations. The redundancies of DNA sequences are the most proficuous source of compression resources, the larger repetitions are indicated for substitucional compression based on a dictionary, whereas the statistical and probabilistic evidences allow to model and predict the succession of symbols (bases) in the sequence, using statistical compression to capitalize this compression potential. Considering the maximum DNA entropy, its codification cost corresponds to 2 bits per base. On average, the best available compressors, conceived accordingly DNA data specificities, reach 1,7 bits/base, which corresponds to a compression rate of only 15%, and this value is demonstrative of the inherent difficulty. The developed work corresponds to a framework for the analysis and compression of DNA sequences, being DNALight the most representative application. DNALight is a hybrid solution for DNA compression based on the cooperative integration of complementary methodologies to absorb the different redundancies present in DNA sequences. In fact, compression is not possible without analysis. Gathering resources for compression relies mostly in analysis, and the emerged recurrences will allow to reduce the entropy. Innovative algorithms were developed for exact pattern-matching (GRASPm) and approximate and exact pattern discovery (SimSearch) and their performance notoriously surpasses the state of the art. These algorithms play an important role in the first phase of the DNALight to implement substitucional compression based on dictionary of exact and approximated repeats. To maximize pattern recollection, the searching is performed multi-level, i.e., in normal sequence 5' - 3', in natural complementary sequence 3' - 5', and also in the two remaining artificial complementary sequences. In the second phase of DNALight, focused on taking advantage of the missed redundancies in the first phase, probabilistic language models are built based on the less repetitive regions as they constitute the input of this complementary methodology. In competition, the models generate predictions supported in the probabilistic analysis of global and local language models. Accurate or approximated predictions allow compact codifications as they provide a more disproportional probabilistic model for codification, benefiting the arithmetic coding performance that encloses the process. The decompression process is similar, but reverse when compared with compression. The experimental results place DNALight as a new constituent of the state of the art in DNA sequences compression, surpassing consistently, but in small scale, its predecessors.Programa de Desenvolvimento Educativo para Portugal (PRODEP

    Ferramenta web para descoberta e categorização de genes cry

    Get PDF
    Bacillus thuringiensis (Bt) is a spore-forming bacterium that produces Cry, Cyt and Vip toxins as parasporal crystals, which have demonstrated to be effective in controlling agricultural pests and mosquito vectors of diseases. The genes encoding these toxins have been used in the development of insect-resistant transgenic plants. The adoption of Bt biopesticide allows the reduction in the use of synthetic insecticides, and does not offer risks or damages to human health. However, many insect pests are not susceptible to such already identified toxins. So far, more than 700 Cry toxin-related Bt genes have been identified, targeted in this work, classified into more than 70 groups. An alternative for pests that are not susceptible to parental Cry toxins is the isolation of other Bt strains with new cry genes with higher toxicity, as well as the identification of receptor molecules and binding epitopes and the screening of novel Cry proteins with toxicity to new insects. Another alternative is the in vitro genetic evolution of such toxins. To aid in the process of finding new cry genes, a cured cry gene database has been developed and a web tool has been implemented for the identification and categorization of a particular target sequence as belonging to a cry gene family. The entire classification and categorization process combines bioinformatics programs such as HMMER, BEDTools, MUSCLE and BLAST. The tool presents the user with a list of the target sequences with the highest identity to be a cry gene. The user selects one of these sequences to analyze the alignment with public sequences of Bt genes. The same procedure allows to reconstruct the phylogenetic tree through a matrix of similarity to identify the closest relatives. This process can be repeated for all available sequences. The results pointed out that the tool has the ability to support the user in the task of identifying Cry proteins, based on the DNA sequence, in order to describe an existing protein or a new Cry protein, which may present higher toxicity and be employed to act in the pest control and disease vectors in a broad spectrum of action, reaching those currently not sensitive to Cry toxins or that are inefficiently controlled.O Bacillus thuringiensis (Bt) é uma bactéria formadora de esporos que produz as toxinas Cry, Cyt e Vip, como cristais parasporais, que têm demonstrado serem eficazes no controle de pragas agrícolas e mosquitos vetores de doenças. Os genes codificantes dessas toxinas têm sido usados no desenvolvimento de plantas transgênicas resistentes a insetos. A adoção do biopesticida Bt permite a redução no uso de inseticidas sintéticos, e não oferece riscos ou danos à saúde humana. No entanto, muitas pragas de insetos não são suscetíveis a tais toxinas já identificadas. Até agora, foram identificados mais de 700 genes de Bt relacionados à toxina Cry, alvo nesse trabalho, classificados em mais de 70 grupos. Uma alternativa para as pragas que não são suscetíveis às toxinas Cry parentais é o isolamento de outras cepas de Bt com novos genes cry com maior toxicidade, bem como a identificação das moléculas receptoras e epitopos de ligação e a triagem de novas proteínas Cry com toxicidade para novos insetos. Outra alternativa é a evolução genética in vitro de tais toxinas. Para auxiliar no processo de encontrar novos genes cry foi desenvolvida uma base de dados curada de genes cry e implementada uma ferramenta web para a identificação e a categorização de uma determinada sequência alvo como pertencente a uma família de gene cry. Todo o processo de classificação e categorização combina programas de bioinformática como HMMER, BEDTools, MUSCLE e BLAST. A ferramenta apresenta ao usuário uma lista das sequências alvo com maior identidade para ser um gene cry. O usuário seleciona uma dessas sequências para analisar o alinhamento com sequências públicas de genes de Bt. O mesmo procedimento permite reconstruir a árvore filogenética por intermédio de uma matriz de similaridade para identificar os parentes mais próximos. Esse processo pode ser repetido para todas as sequência disponíveis. Os resultados apontaram que a ferramenta tem a capacidade de apoiar o usuário na tarefa de identificar proteínas Cry, com base na sequência de DNA, visando descrever uma proteína já existente ou uma nova proteína Cry, que possa apresentar maior toxicidade e ser empregada para atuar no controle de pragas e vetores de doenças, em um amplo espectro de ação, atingindo as que atualmente não são sensíveis às toxinas Cry ou que são controladas de forma ineficiente
    corecore