Biometric authentication and identification through electrocardiogram signals

Abstract

Tese de Mestrado Integrado, Engenharia Biomédica e Biofísica (Engenharia Clínica e Instrumentação Médica), 2021, Universidade de Lisboa, Faculdade de CiênciasO reconhecimento biométrico tem sido alvo de diversas investigações ao longo dos anos, sendo a impressão digital, a face e a iris, os traços biométricos mais explorados. Apesar do seu elevado potencial no que diz respeito a possíveis aplicações tecnológicas, alguns estudos apresentam limitações a estes traços biométricos, nomeadamente a falta de fiabilidade e praticidade num sistema biométrico. Recentemente, vários estudos exploraram o potencial do uso do electrocardiograma (ECG) como traço biométrico, por ser único e singular para cada indivíduo, e dificilmente roubado por outrem, por ser um sinal fisiológico. Nesta dissertação, foi investigada a possibilidade de usar sinais ECG como traço biométrico para sistemas de identificação e autenticação biométrica. Para tal, recorreu-se a uma base de dados pública chamada Check Your Biosignals Here initiative (CYBHi), criada com o intuito de propiciar investigações biométricas. As sessões de aquisição contaram com 63 participantes e ocorreram em dois momentos distintos separados por três meses, numa modalidade “off-the-person”, com recurso a um elétrodo na palma da mão e eletrolicras nos dedos. Os sinais da primeira aquisição correspondem, num sistema biométrico, aos dados armazenados na base de dados, enquanto que os sinais da segunda aquisição correspondem aos dados que serão identificados ou autenticados pelo sistema. Os sistemas de identificação e autenticação biométrica propostos nesta dissertação incluem diferentes fases: o pré-processamento, o processamento e a classificação. O pré-processamento consistiu na aplicação de um filtro passa-banda IIR de 4ª ordem, para eliminar ruídos e artefactos provenientes de atividade muscular e da impedância elétrica dos aparelhos de aquisição. A fase de processamento consistiu em extrair e gerar os templates biométricos, que serão os inputs dos algoritmos de classificação. Primeiramente, extraíram-se os ciclos cardíacos através do Neurokit2 disponível no Python. Para tal, foram localizados os picos R dos sinais ECG e, posteriormente, estes foram segmentados em ciclos cardíacos, com 200 amostras antes e 400 amostras depois dos picos. Com o objetivo de remover os segmentos mais ruidosos, os ciclos cardíacos foram submetidos a um algoritmo de eliminação de segmentos que consistiu em encontrar, para cada sujeito, os 20 e 60 ciclos mais próximos entre si, designados de Set 1 e Set 2, respetivamente. A partir desses dois conjuntos de ciclos, criaram-se dois tipos de templates: 1) os ciclos cardíacos, e 2) escalogramas gerados a partir dos ciclos, através da transformada de wavelet contínua, com dois tamanhos distintos: 56x56 e 224x224, denominados por Size 56 e Size 224, respetivamente. Devido ao elevado tamanho dos escalogramas, foi utilizada a analise de componentes independentes para reduzir a dimensionalidade. Assim, os sistemas biométricos propostos na presente investigação, foram testados com os conjuntos de 20 e 60 templates, quer para ciclos quer para escalogramas, de forma a avaliar o desempenho do sistema quando usados mais ou menos templates para os processos de identificação e autenticação. Os templates foram também testados com e sem normalização, para que pudessem ser analisados os benefícios deste processo. A classificação foi feita através de diferentes métodos, testados numa modalidade “entre-sessões”, isto é, os dados da 2ª aquisição, considerados os dados de teste, foram comparados com os dados da 1ª aquisição, denominados dados de treino, de forma a serem classificados. Quanto ao sistema de identificação com ciclos cardíacos, foram testados diferentes classificadores, nomeadamente LDA, kNN, DT e SVM. Para o kNN e SVM, foi feita uma otimização para encontrar o valor de “k” e os valores de γ e C, respetivamente, que permitem o sistema alcançar o melhor desempenho possível. A melhor performance foi obtida através do LDA, alcançando uma taxa de identificação de 79,37% para a melhor configuração, isto é, usando 60 ciclos normalizados. Os templates com base em escalogramas foram testados como inputs para dois métodos distintos: 1) redes neuronais e 2) algoritmo baseado em distâncias. A melhor performance foi uma taxa de identificação de 69,84%, obtida quando usados 60 escalogramas de tamanho 224, não normalizados. Deste modo, os resultados relativos a identificação provaram que utilizar mais templates (60) para identificar um indivíduo otimiza a performance do sistema biométrico, independentemente do tipo de template utilizado. Para alem disto, a normalização mostrou-se um processo essencial para a identificação com ciclos cardíacos, contudo, tal não se verificou para escalogramas. Neste estudo, demonstrou-se que a utilização de ciclos tem mais potencial para tornar um sistema de identificação biométrica eficiente, do que a utilização de escalogramas. No que diz respeito ao sistema de autenticação biométrica, foi utilizado um algoritmo baseado em distâncias, testado com os dois tipos de templates numa configuração concatenada, isto é, uma configuração na qual cada sujeito e representado por um sinal que contém uma sequência de todos os seus templates, seguidos uns dos outros. A avaliação da performance do sistema foi feita com base nos valores de taxa de autenticação e taxa de impostores, que indicam o número de indivíduos corretamente autenticados face ao número total de indivíduos, e o número de impostores autenticados face ao número total de indivíduos, respetivamente. Os ciclos cardíacos foram testados com e sem redução de dimensionalidade, sendo que a melhor performance foi obtida usando 60 ciclos não normalizados sem redução de dimensionalidade. Para esta configuração, obteve-se uma taxa de autenticação de 90,48% e uma taxa de impostores de 13,06%. Desta forma, concluiu-se que reduzir a dimensionalidade dos ciclos cardíacos prejudica o desempenho do sistema, uma vez que se perdem algumas características indispensáveis para a distinção entre sujeitos. Para os escalogramas, a melhor configuração, que corresponde ao uso de 60 escalogramas normalizados de tamanho 56, atingiu uma taxa de autenticação de 98,42% e uma taxa de impostores de 14,34%. Sendo que a dimensionalidade dos escalogramas foi reduzida com recurso a ICA, foi ainda avaliada a performance do sistema quando reduzido o número de componentes independentes. Os resultados mostraram que um número de componentes igual ao número de sujeitos otimiza o desempenho do sistema, uma vez que se verificou um decréscimo da taxa de autenticação quando reduzido o número de componentes. Assim, concluiu-se que são necessárias 63 componentes independentes para distinguir corretamente os 63 sujeitos. Para a autenticação através de ciclos cardíacos, a normalização e a redução de dimensionalidade são dois processos que degradam a performance do sistema, enquanto que, quando utilizados escalogramas, a normalização e vantajosa. Os resultados obtidos provaram ainda que, contrariamente ao que acontece para processos de identificação, a utilização de escalogramas e uma abordagem mais eficiente e eficaz para a autenticação de indivíduos, do que a utilização de ciclos. Esta investigação comprovou o potencial do ECG enquanto traço biométrico para identificação e autenticação de indivíduos, fazendo uma análise comparativa entre diferentes templates extraídos dos sinais ECG e diferentes metodologias na fase de classificação, e avaliando o desempenho do sistema em cada uma das configurações testadas. Estudos anteriores apresentaram algumas limitações, nomeadamente, o uso de aquisições “on-the-person”, ˜ que apresentam pouco potencial para serem integradas em sistemas biométricos devido à baixa praticidade, e à classificação numa modalidade “intra-sessão”, na qual os dados classificados e os dados armazenados foram adquiridos numa só sessão. Este estudo preenche essas lacunas, visto que utilizou dados adquiridos “off-the-person”, dados esses que foram testados numa modalidade “entre-sessões”. Apesar das aquisições ˜ “off-the-person” estarem sujeitas a mais ruídos e, consequentemente, dificultarem processos de identificação ou autenticação, estas abordagens são as mais adequadas para sistemas biométricos, dada a sua possível integração nas mais diversas aplicações tecnológicas. A modalidade “entre-sessões” resulta também numa pior performance relativamente a utilização de sinais de uma só sessão. No entanto, permite comprovar a estabilidade do ECG ao longo do tempo, o que é um fator indispensável para o funcionamento adequado de um sistema biométrico, uma vez que o mesmo terá que comparar diversas vezes o ECG apresentado no momento de identificação ou autenticação, com o ECG armazenado uma única vez na base de dados. Apesar dos bons resultados apresentados nesta dissertação, no futuro devem ser exploradas bases de dados que contenham mais participantes, com uma faixa etária mais alargada, incluindo participantes com diversas condições de saúde, com aquisições separadas por um período de tempo mais longo, de forma a simular o melhor possível a realidade de um sistema biométrico.Biometrics is a rapidly growing field with applications in personal identification and authentication. Over the recent years, several studies have demonstrated the potential of Electrocardiogram (ECG) to be used as a physiological signature for biometric systems. In this dissertation, the possibility of using the ECG signal as an unequivocal biometric trait for identification and authentication purposes has been presented. The ECG data used was from a publicly available database, the Check Your Biosignals Here initiative (CHBYi) database, developed for biometric purposes, containing records of 63 participants. Data was collected through an off-the-person approach, in two different moments, separated by three months, resulting in two acquisitions per subject. Signals from the first acquisition represent, in a biometric system, the data stored in the database, whereas signals from the second acquisition represent the data to be authenticated or identified. The proposed identification and authentication systems included several steps: signal pre-processing, signal processing, and classification. In the pre-processing phase, signals were filtered in order to remove noises, while the signal processing consisted of extracting and generating the biometric templates. For that, firstly, the cardiac cycles were extracted from the ECG signals, and segment elimination was performed to find the segments more similar to one another, resulting in two sets of templates, with 20 and 60 templates per participant, respectively. After that, two types of templates were generated: 1) templates based on cardiac cycles, and 2) templates based on scalograms generated from the cardiac cycles, with two different sizes, 56x56 and 224x224. Due to the large size of the scalograms, ICA was applied to reduce their dimensionality. Thus, the biometric systems were evaluated with two sets of each type of template in order to analyze the advantages of using more or fewer templates per subject, and the templates were also tested with and without normalization. For the identification system using cardiac cycles, LDA, kNN, DT, and SVM were tested as classifiers in an “across-session” modality, reaching an accuracy of 79.37% for the best model (LDA) in the best configuration (60 normalized cardiac cycles). When using scalograms, two different methodologies were tested: 1) neural network, and 2) a distance-based algorithm. The best accuracy was 69.84% for 60 not-normalized scalograms of Size 224, using NN. Thus, results suggested that the templates based on cardiac cycles are a more promising approach for identification tasks. For the authentication, a distance-based algorithm was used for both templates. Cardiac cycles were tested with and without dimensionality reduction, and the best configuration (60 not-normalized cardiac cycles without dimensionality reduction) reached an accuracy of 90.48% and an impostor score of 13.06%. For the scalograms, the best configuration (60 normalized scalograms of Size 56) reached an accuracy of 98.42% and an impostor score of 14.34%. Therefore, using scalograms for the authentication task proved to be a more efficient and accurate approach. The results from this work support the claim that ECG-based biometrics can be successfully used for personal identification and authentication. This study brings novelty by exploring different templates and methodologies in order to perform a comparative analysis and find the approaches that optimize the performance of the biometric system. Moreover, this represents a step forward towards a real-world application of an ECG-based biometric system, mainly due to the use of data from off-the-person acquisitions in an across-session modality

    Similar works