Dissertação de mestrado em Computer ScienceOver the past 20 years, data has increased in a large scale in various fields. This explosive
increase of global data led to the coin of the term Big Data. Big data is mainly used to describe
enormous datasets that typically includes masses of unstructured data that may need
real-time analysis. This paradigm brings important challenges on tasks like data acquisition,
storage and analysis. The ability to perform these tasks efficiently got the attention
of researchers as it brings a lot of oportunities for creating new value. Another topic with
growing importance is the usage of biometrics, that have been used in a wide set of application
areas as, for example, healthcare and security. In this work it is intended to handle
the data pipeline of data generated by a large scale biometrics application providing basis
for real-time analytics and behavioural classification. The challenges regarding analytical
queries (with real-time requirements, due to the need of monitoring the metrics/behavior)
and classifiers’ training are particularly addressed.Nos os últimos 20 anos, a quantidade de dados armazenados e passíveis de serem processados,
tem vindo a aumentar em áreas bastante diversas. Este aumento explosivo, aliado
às potencialidades que surgem como consequência do mesmo, levou ao aparecimento do
termo Big Data. Big Data abrange essencialmente grandes volumes de dados, possivelmente
com pouca estrutura e com necessidade de processamento em tempo real. As especificidades
apresentadas levaram ao aparecimento de desafios nas diversas tarefas do pipeline
típico de processamento de dados como, por exemplo, a aquisição, armazenamento e a
análise. A capacidade de realizar estas tarefas de uma forma eficiente tem sido alvo de estudo
tanto pela indústria como pela comunidade académica, abrindo portas para a criação
de valor. Uma outra área onde a evolução tem sido notória é a utilização de biométricas comportamentais
que tem vindo a ser cada vez mais acentuada em diferentes cenários como,
por exemplo, na área dos cuidados de saúde ou na segurança. Neste trabalho um dos objetivos
passa pela gestão do pipeline de processamento de dados de uma aplicação de larga
escala, na área das biométricas comportamentais, de forma a possibilitar a obtenção de
métricas em tempo real sobre os dados (viabilizando a sua monitorização) e a classificação
automática de registos sobre fadiga na interação homem-máquina (em larga escala)