11 research outputs found
Privacy-preserving record linkage using Bloom filters
<p>Abstract</p> <p>Background</p> <p>Combining multiple databases with disjunctive or additional information on the same person is occurring increasingly throughout research. If unique identification numbers for these individuals are not available, probabilistic record linkage is used for the identification of matching record pairs. In many applications, identifiers have to be encrypted due to privacy concerns.</p> <p>Methods</p> <p>A new protocol for privacy-preserving record linkage with encrypted identifiers allowing for errors in identifiers has been developed. The protocol is based on Bloom filters on <it>q</it>-grams of identifiers.</p> <p>Results</p> <p>Tests on simulated and actual databases yield linkage results comparable to non-encrypted identifiers and superior to results from phonetic encodings.</p> <p>Conclusion</p> <p>We proposed a protocol for privacy-preserving record linkage with encrypted identifiers allowing for errors in identifiers. Since the protocol can be easily enhanced and has a low computational burden, the protocol might be useful for many applications requiring privacy-preserving record linkage.</p
A toolbox for record linkage
"Um die Verwendbarkeit der verschiedener Ähnlichkeitsmaße für fehlerbehaftete Namen auch für deutsche Namen vergleichen zu können, entwickelten wir eine 'Matching Tool-Box' (MTB). MTB besteht aus mehreren, transportablen JAVA-Programmen. MTB dient zur Entwicklung von Pre-processing-Werkzeugen und dem Vergleich von String-Ähnlichkeitsmaßen. MTB wurde erfolgreich in sozial- und wirtschaftswissenschaftlichen sowie epidemiologischen Forschungsprojekten eingesetzt." (Autorenreferat)"We developed a record-linkage toolbox in order to compare the performance of various string-similarity measures for German surnames. This 'Matching Tool-Box' (MTB) is made up by independent, highly portable JAVA-programs. MTB is currently used for prototyping pre-processing tools and the empirical comparison of string-similarity measures. Furthermore, MTB has been used successfully in sociological, economical and epidemiological research projects." (author's abstract
Panelerhebungen der amtlichen Statistik als Datenquellen fĂĽr die Sozialwissenschaften
Paneldaten haben gegenüber Querschnittsdaten zahlreiche Vorteile. Amtliche Daten sind zudem eine wichtige Quelle für die Sozial- und Wirtschaftswissenschaften. Viele amtliche Datenerhebungen sind als Panel konzipiert und durchgeführt oder können zu Panels zusammengefügt werden. Diese Arbeit gibt eine Übersicht über die Panelerhebungen oder zu Panels aufbereiteten Einzeldatensätze der deutschen amtlichen Statistik und beschreibt Erhebungsinhalte, Stichprobe sowie Zugangsmöglichkeiten. Panel data have numerous advantages to cross sectional data. Data from official statistical offices (and other public authorities) are a valuable data source for the social and economic sciences. Many of these data originally are panel data (or can be combined to form panel data). This article gives an overview over panel surveys and panel data conducted by German public authorities, describing topic and contents, sampling and access to these data.Paneldaten, amtliche Statistik, Datenzugang panel data, offcial statistics, data access
Die Anwendung statistischer Record-Linkage-Methoden auf selbst-generierte Codes bei Längsschnitterhebungen
'Bei wiederholten Befragungen zu sensitiven Themen werden häufig von den Befragten selbst-generierte Codes zur Zusammenführung der Daten über die Wellen hinweg verwendet. Dabei ist aufgrund fehlerhafter Daten der Verlust an Fällen in der Regel beträchtlich. Um den Prozess der Zusammenführung zu beschleunigen und die Zahl verlorener Fälle zu minimieren wird hier die Nutzung automatisierter Record-Linkage-Techniken vorgeschlagen. Bei zwei Simulationsstudien und in einer praktischen Anwendung zeigen sich Techniken des Record-Linkage der bisher verwendeten manuellen Methode überlegen. Die Experimente legen bei Verwendung dieser Techniken den Einsatz deutlich längerer Codes als bisher üblich nahe.' (Autorenreferat)'Panel studies on sensitive topics usually apply respondent generated codes to link records across surveys. This implies a substantial loss of cases due to errors in the codes. In order to speed up the process of linking and minimizing the number of losses due to errors, the authors propose the application of automatic record-linkage procedures. In two simulations and a real-world application, the record-linkage procedures outperformed the manual procedure. The experiments suggest the use of longer self-generated codes for record-linkage applications.' (author's abstract)
MTB: ein Record-Linkage-Programm fĂĽr die empirische Sozialforschung
"In der Praxis der empirischen Sozialforschung werden häufig Datensätze aus verschiedenen
Datenquellen zusammengefĂĽhrt (Record-Linkage). Solange in unterschiedlichen
Datenquellen gemeinsame fehlerfreie SchlĂĽssel (z.B. Namen oder Matrikelnummern)
existieren, ist die ZusammenfĂĽhrung problemlos. Fehler in den gemeinsamen
Schlüsseln erzwingen fast immer aufwändige manuelle Korrekturen.
Um die Zusammenführung unterschiedlicher Datenbestände trotz fehlerhafter
Schlüssel zu ermöglichen, wurde im Rahmen eines DFG-Projekts ein Computerprogramm
entwickelt, um diese Aufgabe zu erleichtern: Die 'Merge-Toolbox', kurz:
'MTB'." (Autorenreferat)"Bringing together data files from different sources (record linkage) is a common
task in social science. As long as the data files contain clean merging keys (e.g.
names or identification numbers) the procedure is rather trivial. However, if the
merging keys are error prone, manual corrections are inevitable. To facilitate record
linkage using error prone keys we developed the computer programme
'Merge Toolbox' (MTB) within the scope of the DFG-funded research project
'Record linkage using error prone strings'." (author's abstract
Entwicklung einer neuen fehlertoleranten Methode bei der Verknüpfung von personenbezogenen Datenbanken unter Gewährleistung des Datenschutzes
"Die Verknüpfung der Angaben mehrerer Datenbanken über dieselbe Person wird immer häufiger für Forschungszwecke genutzt. Aus Datenschutzgründen müssen die Identifikatoren in vielen Fällen vor der Zusammenführung verschlüsselt werden. Bisher verwendete Techniken sind hierbei ineffizient, da Fälle mit Fehlern in den Identifikatoren fast immer vollständig verloren gehen. Die Autoren haben ein neues Verfahren entwickelt, das trotz starker Verschlüsselung Fehler in den Identifikatoren toleriert. Testergebnisse anhand simulierter und echter Datenbestände zeigen, dass das Verfahren ähnlich gute Ergebnisse erbringt wie unverschlüsselte Identifikatoren. Das Verfahren kann für viele Probleme in der Forschungspraxis der empirischen Sozialforschung verwendet werden." (Autorenreferat)"Combining multiple databases with additional information on the same person is increasingly occurring throughout research. In many applications, identifiers have to be encrypted due to privacy concerns. Existing protocols are inefficient in actual research practice since cases with errors in identifiers are almost always in their entirety lost. Therefore, a new protocol for privacy-preserving record linkage with encrypted identifiers allowing for errors in identifiers has been developed by the authors. The results from tests on simulated and actual databases are comparable to non-encrypted identifiers. This new technique will have many practical applications in social research." (author's abstract
Panelerhebungen der amtlichen Statistik als Datenquellen fĂĽr die Sozialwissenschaften
Panel data have numerous advantages to cross sectional data. Data from official statistical offices (and other public authorities) are a valuable data source for the social and economic sciences. Many of these data originally are panel data (or can be combined to form panel data). This article gives an overview over panel surveys and panel data conducted by German public authorities, describing topic and contents, sampling and access to these data.Paneldaten haben gegenüber Querschnittsdaten zahlreiche Vorteile. Amtliche Daten sind zudem eine wichtige Quelle für die Sozial- und Wirtschaftswissenschaften. Viele amtliche Datenerhebungen sind als Panel konzipiert und durchgeführt oder können zu Panels zusammengefügt werden. Diese Arbeit gibt eine Übersicht über die Panelerhebungen oder zu Panels aufbereiteten Einzeldatensätze der deutschen amtlichen Statistik und beschreibt Erhebungsinhalte, Stichprobe sowie Zugangsmöglichkeiten
Improving the Use of Self-Generated Identification Codes
In panel studies on sensitive topics, respondent-generated identification codes are often used to link records across surveys. However, usually a substantial number of cases are lost due to the codes. These losses may cause biased estimates. Using more components and linking the codes by the Levenshtein string distance function will reduce the losses. Ina simulation study and two field experiments, the proposed procedure outperforms the methods previously applied.self-generated identification codes; sensitive topics; panel survey
A new Name-Based Sampling Method for Migrants using n-grams
The set of best methods for sampling migrant populations includes
name-based sampling. So far this is done using either ad hoc lists
or onomastic dictionaries for the classification of names. This paper
proposes a new name-based procedure which uses a Bayes-classifier
for the n-grams of the name. The new procedure is fault-tolerant of
alternate spellings, and also allows the classification of names that are
not found in dictionaries. It was tested using the names of about 1.600
foreigners in the PASS panel. Finally, a CATI survey based on the new
method in Hesse (Germany) is described
A New Name-Based Sampling Method for Migrants
Zu den besten Verfahren für die Konstruktion von Migrantenstichproben gehören namensbasierte Stichproben. Hierfür werden bislang entweder ad-hoc-Listen oder namenskundliche Lexika für die Klassifikation von Namen verwendet. In diesem Beitrag wird ein neues Verfahren vorgeschlagen, das auf der automatischen Klassifikation eines Namens anhand der n-Gramme des Namens und der Anwendung des Bayes-Theorems basiert. Das neue Verfahren ist fehlertolerant gegenüber alternativen Schreibweisen und erlaubt auch die Klassifikation von Namen, die sich nicht in den Lexika finden. Das Verfahren wurde anhand der Namen der ca. 1.600 Ausländer im PASS-Panel und einer CATI-Studie in Hessen untersucht