17 research outputs found

    Survey on Hybrid Anonymization using k-anonymity for Privacy Preserving in Data Mining

    Get PDF
    K-anonymity is the one of the popular privacy preserving model. In the data mining there is multiple technique is available k-anonymity is one of the technique which is used for the protecting privacy in the database. In this paper our main approach is hybrid anonymization. The main thing of this technique is that it is the mixing of two techniques. We introduce hybrid anonymization with hybrid generalization which is formed by not only generalization but also the data relocation. Data relocation serves trade-off between truthfulness and utility. Using the hybrid anonymization we maintain the privacy standard such as k-anonymity. In the previous research we find that k-anonymity is not good work with multiple sensitive data and there is more information loss occurs for that issue we use hybrid anonymization on multiple dataset. We show that our model can decrease the information loss in minimum time period

    Protecting big data mining association rules using fuzzy system

    Get PDF
    Recently, big data is granted to be the solution to opening the subsequent large fluctuations of increase in fertility. Along with the growth, it is facing some of the challenges. One of the significant problems is data security. While people use data mining methods to identify valuable information following massive database, people further hold the necessary to maintain any knowledge so while not to be worked out, like delicate common itemsets, practices, taxonomy tree and the like Association rule mining can make a possible warning approaching the secrecy of information. So, association rule hiding methods are applied to evade the hazard of delicate information misuse. Various kinds of investigation already prepared on association rule protecting. However, maximum of them concentrate on introducing methods with a limited view outcome for inactive databases (with only existing information), while presently the researchers facing the problem with continuous information. Moreover, in the era of big data, this is essential to optimize current systems to be suited concerning the big data. This paper proposes the framework is achieving the data anonymization by using fuzzy logic by supporting big data mining. The fuzzy logic grouping the sensitivity of the association rules with a suitable association level. Moreover, parallelization methods which are inserted in the present framework will support fast data mining process

    Reconsidering Anonymization-Related Concepts and the Term "Identification" Against the Backdrop of the European Legal Framework

    Get PDF
    Sharing data in biomedical contexts has become increasingly relevant, but privacy concerns set constraints for free sharing of individual-level data. Data protection law protects only data relating to an identifiable individual, whereas "anonymous" data are free to be used by everybody. Usage of many terms related to anonymization is often not consistent among different domains such as statistics and law. The crucial term "identification" seems especially hard to define, since its definition presupposes the existence of identifying characteristics, leading to some circularity. In this article, we present a discussion of important terms based on a legal perspective that it is outlined before we present issues related to the usage of terms such as unique "identifiers," "quasi-identifiers," and "sensitive attributes." Based on these terms, we have tried to circumvent a circular definition for the term "identification" by making two decisions: first, deciding which (natural) identifier should stand for the individual; second, deciding how to recognize the individual. In addition, we provide an overview of anonymization techniques/methods for preventing re-identification. The discussion of basic notions related to anonymization shows that there is some work to be done in order to achieve a mutual understanding between legal and technical experts concerning some of these notions. Using a dialectical definition process in order to merge technical and legal perspectives on terms seems important for enhancing mutual understanding

    A Survey of Privacy Preserving Data Publishing using Generalization and Suppression

    Full text link

    Cloud-based identity and identity meta-data: secure and control own data in globalization era.

    Get PDF
    This paper proposes a new identity, and its underlying meta-data, model. The approach enables secure spanning of identity meta-data across many boundaries such as health-care, financial and educational institutions, including all others that store and process sensitive personal data. It introduces the new concepts of Compound Personal Record (CPR) and Compound Identifiable Data (CID) ontology, which aim to move toward own your own data model. The CID model ensures: authenticity of identity meta-data; high availability via unified Cloud-hosted XML data structure; and privacy through encryption, obfuscation and anonymity applied to Ontology-based XML distributed content. Additionally CID via XML ontologies is enabled for identity federation. The paper also proposes that access over sensitive data is strictly governed through an access control model with granular policy enforcement on the service side. This includes the involvement of relevant access control model entities which are enabled to authorize an ad-hoc break-glass data access which should give high accountability for data access attempts

    Personal information protection in big data analysis and processing problems

    Get PDF
    Роботу виконано на кафедрі кібербезпеки Тернопільського національного технічного університету імені Івана Пулюя Міністерства освіти і науки України Керівник роботи: кандидат технічних наук, доцент кафедри кібербезпеки Загородна Наталія Володимирівна, Тернопільський національний технічний університет імені Івана Пулюя Рецензент: кандидат технічних наук, професор кафедри комп’ютерних наук Пасічник Володимир Володимирович, Тернопільський національний технічний університет імені Івана Пулюя Захист відбудеться 24 грудня 2019 р. о 9.00 годині на засіданні екзаменаційної комісії №32 у Тернопільському національному технічному університеті імені Івана Пулюя за адресою: 46001, м. Тернопіль, вул. Руська, 56, навчальний корпус №1, ауд. 806Метою роботи – систематичне порівняння трьох відомих алгоритмів k-анонімізації для вимірювання їх продуктивності (з точки зору використання ресурсів) та їх ефективності (з точки зору корисності даних). Основні результати роботи: в роботі досліджено поняття анонімізації, описано її моделі, обрано для дослідження алгоритми k-анонімізації, як однієї з базових моделей, запропоновано критерії якості алгоритмів k-анонімізації для подальшого прийняття рішення щодо вибору алгоритму, проведено порівняння трьох основних алгоритмів Datafly, Incognito, Modrian для двох наборів даних (реального та синтетичного) та для різних початкових налаштувань параметрів алгоритмів, сформовано рекомендації щодо застосування алггоритмів. У першому розділі описується, що таке анонімізація, моделі конфідеційності та на прикладах розглядаються деякі атаки конфідеційності. У другому розділі розглядаються методи анонімізації, три найбільш поширені алгоритми анонімізації та описується методологія порівняння цих алгоритмів. Третій розділ експерементальний. У ньому порівнюются три алгоритими анонімізації за такими критеріями як – час анонімізації, узагальнена втрата інформації, метрика чутливості та середній розмір класу еквівалентності. У четвертому розділі описується генератор реальних синтетичних даних та принцип його роботи. У розділі “Обґрунтування економічної ефективності” підраховується вартість роботи та термін її окупності. У розділі “Охорона праці та безпека в надзвичайних ситуаціях” зазначено, що дослідження відбувалося зі збереженням правил пожежної безпеки та всіх норм охорони праці. У розділі “Екологія” описуються методи узагальнення екологічної інформації та зазначаються вимоги до мікроклімату приміщень. У результаті підготовки дипломної роботи проведено серію експериментів та всебічний аналіз для виявлення факторів, що впливають на ефективність загальнодоступних реалізації алгоритмів анонімізації. Представлено за допомогою експериментальної оцінки умови, в яких один алгоритм перевершує інші за певним показником, залежно від вхідних даних та вимог конфіденційності.Project purpose: systematic comparison of three well-known k-anonymization algorithms to measure their efficiency (in terms of resources usage) and their effectiveness (in terms of data utility). Main results: The concept of anonymization is investigated, its models are described, k-anonymization algorithms are selected as one of the basic models, k-anonymization quality criteria are proposed for further decision making, algorithm selection is performed for three basic algorithms, Datafly Incognito, Modrian two sets of data (real and synthetic) and different initial adjustments of algorithm parameters, recommendations for the application of algorithms were formed. The first section describes anonymization, privacy models, and some examples of privacy attacks. The second section discusses anonymization methods, the three most common anonymization algorithms, and describes a methodology for comparing these algorithms. The third section is experimental. It compares three anonymization algorithms against such criteria as anonymization time, generalized information loss, sensitivity metric, and average equivalence class size. The fourth section describes the real synthetic data generator and how it works. In the economic section the cost of the work and its payback period are calculated. The section "Occupational Health and Safety" states that the study was conducted in compliance with fire safety rules and all occupational safety standards. The section "Ecology" describes the methods of generalizing environmental information and specifies the requirements for the microclimate of the premises. As a result of the preparation of the thesis, a series of experiments and a comprehensive analysis were conducted to identify the factors that influence the effectiveness of publicly available anonymization algorithms. Provided by an experimental evaluation of the conditions in which one algorithm outperforms the others by a certain measure, depending on the input and privacy requirements.ПЕРЕЛІК УМОВНИХ ПОЗНАЧЕНЬ, СИМВОЛІВ, ОДИНИЦЬ, СКОРОЧЕНЬ І ТЕРМІНІВ 10 ВСТУП 11 РОЗДІЛ 1 АНОНІМІЗАЦІЯ. МОДЕЛІ, ЗАГРОЗИ, АТАКИ 13 1.1 Регламент захисту даних GDPR 13 1.2 Анонімізація 14 1.3 Атаки конфідеційності 16 1.3.1 Узгодження записів 16 1.3.2 Узгодження атрибутів 17 1.3.3 Атака мінімальності 18 1.4 Моделі конфідеційності 21 1.4.1 k-Анонімізація 21 1.4.2 ℓ -Різноманітність 22 1.4.3 Диференційна конфідеційність 23 РОЗДІЛ 2 МЕТОДИКА ПОРІВНЯННЯ АЛГОРИТМІВ K-АНОНІМІЗАЦІЇ 24 2.1 Методи анонімізації 24 2.1.1 Приховування 24 2.1.2 Узагальнення 24 2.2 Алгоритми k-анонімізації 27 2.2.1 Datafly алгоритм 28 2.2.2 Incognito алгоритм 30 2.2.3 Mondrian алгоритм 33 2.3 Набір даних 37 2.3.1 Реальний набір даних 37 2.3.2 Синтетичний набір даних 38 2.4 Методологія порівняння 40 2.4.1 Ефективність алгоритму 40 2.4.2 Корисність даних 41 2.4.2.1 Узагальнена втрата інформація GenILoss 42 2.4.2.2 Метрика чутливості DM 43 2.4.2.3 Показник розміру середнього класу еквівалентності CAV G 44 РОЗДІЛ 3 ЕКСПЕРИМЕНТАЛЬНА ЧАСТИНА 45 3.1 Навколишнє середовище 45 3.2 Налаштування експерименту 46 3.3 Експеримент 1: різна кількість QID 47 3.3.1 Час анонімізації 47 3.3.2 Споживання пам'яті. 49 3.3.3 Узагальнена втрата інформації (GenILoss). 51 3.3.4 Метрика чутливості (DM). 54 3.3.5 Середній розмір класу еквівалентності CAV G 56 3.3.6 Результати порівняння алгоритмів для експерименту 1 57 3.4 Експеримент 2: різні значення k в k -анонімізації 58 3.4.1 Час анонімізації 58 3.4.2 Споживання пам'яті. 60 3.4.3 Узагальнена втрата інформації (GenILoss). 62 3.4.4 Метрика чутливості (DM). 64 3.4.5 Середній розмір класу еквівалентності (CAV G). 66 3.4.6 Результати порівняння алгоритмів для експерименту 2 68 3.5 Експеримент 3: Різноманітний розмір набору даних 68 3.5.1 Час анонімізації 68 3.5.2. Споживання пам'яті 69 3.5.3 Результати порівняння алгоритмів для експерименту 3 70 3.6 Порівняльний аналіз алгоритмів k-анонімізації 71 РОЗДІЛ 4 СПЕЦІАЛЬНА ЧАСТИНА 74 4.1 Вибір набору даних 74 4.2 COCOA: Генератор синтетичний даних 75 4.3 Генератори атрибутів 77 РОЗДІЛ 5 ОБҐРУНТУВАННЯ ЕКОНОМІЧНОЇ ЕФЕКТИВНОСТІ 79 5.1 Розрахунок норм часу на виконання науково-дослідної роботи 79 5.2 Визначення витрат на оплату праці та відрахувань на соціальні заходи 80 5.3 Розрахунок матеріальних витрат 82 5.4 Розрахунок витрат на електроенергію 83 5.5 Розрахунок суми амортизаційних відрахувань 84 5.6 Обчислення накладних витрат 85 5.7 Складання кошторису витрат та визначення собівартості науково-дослідницької роботи 85 5.8 Розрахунок ціни науково-дослідної роботи 86 5.9 Визначення економічної ефективності і терміну окупності капітальних вкладень 86 РОЗДІЛ 6 ОХОРОНА ПРАЦІ ТА БЕЗПЕКА В НАДЗВИЧАЙНИХ СИТУАЦІЯХ 88 6.1 Охорона праці 88 6.2 Фактори, що впливають на функціональний стан користувачів комп’ютерів 92 РОЗДІЛ 7 ЕКОЛОГІЯ 96 7.1 Методи узагальнення екологічної інформації. 96 7.2 Вимоги до мікроклімату, вмісту аероіонів і шкідливих хімічних речовин у повітрі приміщень експлуатації моніторів і ПЕОМ. 99 ВИСНОВКИ 101 БІБЛІОГРАФІЯ 102 ДОДАТКИ 10

    INTERNATIONAL JOURNAL OF COMPUTER ENGINEERING & TECHNOLOGY (IJCET)

    Get PDF
    Cryptographic approaches are traditional and preferred methodologies used to preserve the privacy of data released for analysis. Privacy Preserving Data Mining (PPDM) is a new trend to derive knowledge when the data is available with multiple parties involved. The PPDM deployments that currently exist involve cryptographic key exchange and key computation achieved through a trusted server or a third party. The key computation over heads, key compromise in presence of dishonest parties and shared data integrity are the key challenges that exist. This research work discusses the provisioning of data privacy using commutative RSA algorithms eliminating the overheads of secure key distribution, storage and key update mechanisms generally used to secure the data to be used for analysis. Decision Tree algorithms are used for analysis of the data provided by the various parties involved. We have considered the C5. 0 data mining algorithm for analysis due to its efficiency over the currently prevalent algorithms like C4. 5 and ID3. In this paper the major emphasis is to provide a platform for secure communication, preserving privacy of the vertically partitioned data available with the parties involved in the semi-honest trust model. The proposed Key Distribution-Less Privacy Preserving Data Mining () model is compared with other protocols like Secure Lock and Access Control Polynomial to prove its efficiency in terms of the computational overheads observed in preserving privacy. The experiential evaluations proves the reduces the computational overheads by about 95.96% when compared to the Secure Lock model and is similar to the
    corecore