1 research outputs found

    Identifizierung von Realwelt-Objekten in multiplen Datenbanken

    Get PDF
    Die Daten von Realwelt-Objekten können in mehreren Datenbanken enthalten sein, ohne daß ein globaler und konsistenter Identifizierer existiert. Wie läßt sich herausfinden, welche der Daten sich auf dieselben Realwelt-Objekte beziehen? Das hier dargestellte allgemeine Modell für die Objektidentifizierung besteht aus den Schritten Konversion, Vergleich und Klassifikation. Es umfaßt zudem: (1) Identifizierungskonzepte, (2) die Softwarearchitektur, (3) Charakteristika der Datenqualität, (4) eine Vorauswahlmethode, die die Effizienz für große Datenbanken sicherstellt (unter Verwendung von Indexstrukturen) und (5) eine Spezifikation für die Evaluation von Verfahren, einschließlich Stichprobenziehung und Qualitätskriterien. Wir bewerteten verschiedene Verfahren mit Wohnungs-, Adreß- und Bibliotheksdaten. Wesentliche Ergebnisse sind, daß die Skalierbarkeit ausschließlich durch die verwandte Vorauswahlmethode und deren Umsetzung bestimmt ist sowie daß das Entscheidungsbaumverfahren eine höhere Korrektheit erreichte und robuster war als Record Linkage.Object Identification is essential where real-world objects data are distributed over multiple databases without any global and consistent identifier. We present a generic object identification framework, consisting of three successive steps: Conversion, Comparison, and Classification. In addition, the framework covers: (1) concepts for identification, (2) its software architecture, (3) data quality characteristics, (4) a preselection technique that ensures efficiency for large databases (incorporating suitable index structures), and (5) a prescription for evaluation, including sampling and quality criteria. Based on the framework, methods can be specified, implemented and evaluated w.r.t. to the requirements of an application. We evaluated several methods on real data. One main result is that scalability is determined by the applied preselection technique and its implementation. As another result we can state that Decision Tree Induction achieves better correctness and is more robust than Record Linkage
    corecore