2,994 research outputs found
Mobile sensor data anonymization
Data from motion sensors such as accelerometers and gyroscopes embedded in our devices can reveal secondary undesired, private information about our activities. This information can be used for malicious purposes such as user identification by application developers. To address this problem, we propose a data transformation mechanism that enables a device to share data for specific applications (e.g.~monitoring their daily activities) without revealing private user information (e.g.~ user identity). We formulate this anonymization process based on an information theoretic approach and propose a new multi-objective loss function for training convolutional auto-encoders~(CAEs) to provide a practical approximation to our anonymization problem. This effective loss function forces the transformed data to minimize the information about the user's identity, as well as the data distortion to preserve application-specific utility. Our training process regulates the encoder to disregard user-identifiable patterns and tunes the decoder to shape the final output independently of users in the training set. Then, a trained CAE can be deployed on a user's mobile device to anonymize sensor data before sharing with an app, even for users who are not included in the training dataset. The results, on a dataset of 24 users for activity recognition, show a promising trade-off on transformed data between utility and privacy, with an accuracy for activity recognition over 92%, while reducing the chance of identifying a user to less than 7%
Ontology-Based Quality Evaluation of Value Generalization Hierarchies for Data Anonymization
In privacy-preserving data publishing, approaches using Value Generalization
Hierarchies (VGHs) form an important class of anonymization algorithms. VGHs
play a key role in the utility of published datasets as they dictate how the
anonymization of the data occurs. For categorical attributes, it is imperative
to preserve the semantics of the original data in order to achieve a higher
utility. Despite this, semantics have not being formally considered in the
specification of VGHs. Moreover, there are no methods that allow the users to
assess the quality of their VGH. In this paper, we propose a measurement
scheme, based on ontologies, to quantitatively evaluate the quality of VGHs, in
terms of semantic consistency and taxonomic organization, with the aim of
producing higher-quality anonymizations. We demonstrate, through a case study,
how our evaluation scheme can be used to compare the quality of multiple VGHs
and can help to identify faulty VGHs.Comment: 18 pages, 7 figures, presented in the Privacy in Statistical
Databases Conference 2014 (Ibiza, Spain
Data anonymization : algorithms, techniques and tools
Nos últimos anos, o volume de informação online tem vindo a crescer
exponencialmente. Os dados pessoais de cada indivíduo são utilizados de forma
contínua pelo governo, por empresas ou por indivíduos, com a finalidade de criar
dados estatísticos. Estes podem depois ser utilizados em campanhas de marketing,
na previsão de tendências futuras, na ajuda em investigações ao nível da ciência e da
medicina e muitos outros exemplos.
O maior problema com a utilização destes dados é que eles podem conter informação
sensível e informação que permita identificar um indivíduo, podendo causar graves
problemas a nível pessoal como, por exemplo, roubo de identidade, extração de
dinheiro, etc., dependendo dos dados divulgados.
Para resolver este problema existe a anonimização de dados. Esta tem como
finalidade alterar os dados de modo a ocultar informação sensível e que podem
permitir a identificação de um indivíduo, tornando-os menos precisos.
Uma das maiores dificuldades perante a anonimização de dados é que ao mesmo
tempo que se mantém a privacidade dos indivíduos, a utilidade dos dados deve
permanecer e, para isto, é necessário ter em atenção as técnicas e os algoritmos que
são utilizadas e a quantidade de vezes que estas são aplicadas.
Neste trabalho são estudadas as técnicas de anonimização mais comuns, como a
generalização, a supressão, a anatomização, a permutação e a perturbação e também
alguns dos algoritmos de anonimização mais conhecidos, como o k-anonimato e o l diversidade.
Para a avaliação e a aplicação destas técnicas e algoritmos foram utilizadas as
ferramentas open-source, ARX Data Anonymization Tool, UTD Anonymization
Toolbox e Amnesia. Utilizando a metodologia OSSpal foi também realizada a
avaliação de cada uma destas ferramentas.
A metodologia OSSpal tem como finalidade avaliar ferramentas open-source de forma
a ajudar os utilizadores e as organizações a encontrar as melhores, recorrendo a um
conjunto de categorias. No contexto desta tese, as categorias utilizadas foram a
funcionalidade, as características funcionais do software, o suporte e os serviços, a
documentação, os atributos da tecnologia do software, a comunidade e a adaptação
e o processo de desenvolvimento.
Nesta tese, o trabalho experimental realizado consistiu na avaliação das três
ferramentas de anonimização utilizando dois dataset reais. O UTD Anonymization
Toolbox só foi utilizado com um dos datasets, o de menor tamanho, porque esta
ferramenta requer a introdução manual dos elementos do dataset num ficheiro, o que
pode originar erros.
Na avaliação das ferramentas é possível verificar que o ARX Data Anonymization Tool
é a ferramenta que apresenta os dados de forma mais simples e que permite uma
melhor visualização por parte do utilizador. O Amnesia é fácil de utilizar pois mostra
ao utilizador todos os passos necessários para anonimizar um dataset, apesar de
mostrar alguns erros, porém, o UTD Anonymization Toolbox foi a ferramenta que
apresentou mais dificuldades na utilização devido ao facto de não ter uma interface
gráfica, mas também porque a introdução dos dados tem de ser feita de forma manual.
Após a avaliação experimental é possível concluir que o ARX Data Anonymization
Tool é a melhor ferramenta para ser usada na anonimização de dados, seguindo-se o
Amnesia e, por último o UTD Anonymization Toolbox
Data Anonymization: K-anonymity Sensitivity Analysis
These days the digitization process is everywhere,
spreading also across central governments and local authorities.
It is hoped that, using open government data for scientific
research purposes, the public good and social justice might be
enhanced. Taking into account the European General Data
Protection Regulation recently adopted, the big challenge in
Portugal and other European countries, is how to provide the
right balance between personal data privacy and data value for
research. This work presents a sensitivity study of data
anonymization procedure applied to a real open government data
available from the Brazilian higher education evaluation system.
The ARX k-anonymization algorithm, with and without
generalization of some research value variables, was performed.
The analysis of the amount of data / information lost and the risk
of re-identification suggest that the anonymization process may
lead to the under-representation of minorities and
sociodemographic disadvantaged groups. It will enable scientists
to improve the balance among risk, data usability, and
contributions for the public good policies and practices.info:eu-repo/semantics/publishedVersio
Assessing Data Usefulness for Failure Analysis in Anonymized System Logs
System logs are a valuable source of information for the analysis and
understanding of systems behavior for the purpose of improving their
performance. Such logs contain various types of information, including
sensitive information. Information deemed sensitive can either directly be
extracted from system log entries by correlation of several log entries, or can
be inferred from the combination of the (non-sensitive) information contained
within system logs with other logs and/or additional datasets. The analysis of
system logs containing sensitive information compromises data privacy.
Therefore, various anonymization techniques, such as generalization and
suppression have been employed, over the years, by data and computing centers
to protect the privacy of their users, their data, and the system as a whole.
Privacy-preserving data resulting from anonymization via generalization and
suppression may lead to significantly decreased data usefulness, thus,
hindering the intended analysis for understanding the system behavior.
Maintaining a balance between data usefulness and privacy preservation,
therefore, remains an open and important challenge. Irreversible encoding of
system logs using collision-resistant hashing algorithms, such as SHAKE-128, is
a novel approach previously introduced by the authors to mitigate data privacy
concerns. The present work describes a study of the applicability of the
encoding approach from earlier work on the system logs of a production high
performance computing system. Moreover, a metric is introduced to assess the
data usefulness of the anonymized system logs to detect and identify the
failures encountered in the system.Comment: 11 pages, 3 figures, submitted to 17th IEEE International Symposium
on Parallel and Distributed Computin
- …