5 research outputs found

    Errors of identifiers in anonymous databases: impact on data quality

    Get PDF
    Data quality is essential for a correct understanding of the concepts they represent. Data mining is especially relevant when data with inferior quality is used in algorithms that depend on correct data to create accurate models and predictions. In this work, we introduce the issue of errors of identifiers in an anonymous database. The work proposes a quality evaluation approach that considers individual attributes and a contextual analysis that allows additional quality evaluations. The proposed quality analysis model is a robust means of minimizing anonymization costs.The authors would like to thank the FCT Projetct of Scientific Research and Technological Development in Data Science and Artificial Intelligence in Public Administration, 2018–2022 (DSAIPA/DS/0039/2018), for its support, and also acknowledge support by BioISI (UID/MULTI/04046/2103) and LASIGE Research Unit (UIDB/00408/2020, UIDP/00408/2020) center grants.info:eu-repo/semantics/publishedVersio

    Qualidade de dados em bases de dados anonimizadas: uma abordagem de avaliação mista

    Get PDF
    A qualidade dos dados é essencial para uma correta compreensão dos conceitos que representam. Em projetos de prospeção de dados é especialmente relevante evitar dados com qualidade inferior uma vez que se usam algoritmos que dependem de dados corretos para criar modelos e previsões precisos. Neste artigo, propomos uma abordagem de avaliação de qualidade que considera métricas que lidam com atributos individuais e, adicionalmente, uma análise longitudinal de fluxo, que permite fazer uma avaliação de qualidade que tem em consideração informação contextual. São propostas métricas de Qualidade de Dados por Entrada e Qualidade de Dados por Atributo e, finalmente, é proposta uma medida de Qualidade Global de Dados baseada nessas métricas.Este trabalho foi parcialmente financiado pelos projetos FCT, na unidade de investigação BioISI, ref. UID/MULTI/04046/2103, unidade de investigação LASIGE, ref. UIDB, UIDP/00408/2020 e DSAIPA/DS/0039/2018.info:eu-repo/semantics/publishedVersio

    Quality Evaluation of an Anonymized Dataset

    No full text
    corecore