60 research outputs found

    A new approach for disclosure control in the IAB Establishment Panel: multiple imputation for a better data access

    Full text link
    Öffentliche Stellen, die Datensätze produzieren, müssen mit dem Dilemma umgehen, einerseits die Vertraulichkeit der personenbezogenen Daten zu schützen, andererseits für die Forschung hinreichend detaillierte Datensätze zur Verfügung zu stellen. Aus diesem Grund werden etliche Methoden der Offenlegungskontrolle in der Literatur diskutiert. Der Beitrag stellt zwei Ansätze vor, die auf multipler Imputation basieren, und die auf das IAB-Betriebspanel angewandt werden können. Beim ersten Ansatz, der auf Rubin (1993) zurückgeht, wird ein vollständig synthetischer Datensatz generiert, während beim zweiten Ansatz nur Werte für ausgewählte Variablen mit hohem Offenlegungsrisiko imputiert werden. Beide Ansätze werden auf eine Menge Variablen aus der Welle des IAB-Betriebspanels aus dem Jahr 1997 angewandt. Die Qualität der Ansätze wird bewertet, indem die Analyseergebnisse von Zwick (2005), die auf den Originaldaten basieren, mit den Ergebnissen derselben Analyse nach der Imputation verglichen werden. (IAB)"For micro-datasets considered for release as scientific or public use files, statistical agencies have to face the dilemma of guaranteeing the confidentiality of survey respondents on the one hand and offering sufficiently detailed data on the other hand. For that reason a variety of methods to guarantee disclosure control is discussed in the literature. In this paper, we present an application of Rubin's (1993) idea to generate synthetic datasets from existing confidential survey data for public release. We use a set of variables from the 1997 wave of the German IAB Establishment Panel and evaluate the quality of the approach by comparing results from an analysis by Zwick (2005) with the original data with the results we achieve for the same analysis run on the dataset after the imputation procedure. The comparison shows that valid inferences can be obtained using the synthetic datasets in this context, while confidentiality is guaranteed for the survey participants." (author's abstract

    Erzeugung Mehrfach Imputierter Synthetischer Datensätze: Theorie und Implementierung

    Get PDF
    The book describes different approaches to generating multiply imputed synthetic datasets to guarantee confidentiality. Each chapter is dedicated to one approach, first describing the general concept followed by a detailed application to a real dataset providing useful guidelines on how to implement the theory in practice.Die Arbeit beschreibt verschiedene Ansätze zur Erstellung mehrfach imputierter synthetischer Datensätze. Diese Datensätze können der interessierten Fachöffentlichkeit zur Verfügung gestellt werden, ohne den Datenschutz zu verletzen. Jedes Kapitel befasst sich mit einem eigenen Ansatz, wobei zunächst das allgemeine Konzept beschrieben wird. Anschließend bietet eine detailierte Anwendung auf einen realen Datensatz hilfreiche Richtlinien, wie sich die beschriebene Theorie in der Praxis anwenden läßt

    Advancing Microdata Privacy Protection: A Review of Synthetic Data

    Full text link
    Synthetic data generation is a powerful tool for privacy protection when considering public release of record-level data files. Initially proposed about three decades ago, it has generated significant research and application interest. To meet the pressing demand of data privacy protection in a variety of contexts, the field needs more researchers and practitioners. This review provides a comprehensive introduction to synthetic data, including technical details of their generation and evaluation. Our review also addresses the challenges and limitations of synthetic data, discusses practical applications, and provides thoughts for future work
    corecore