7 research outputs found

    Duplicate Detection in Probabilistic Data

    Get PDF
    Collected data often contains uncertainties. Probabilistic databases have been proposed to manage uncertain data. To combine data from multiple autonomous probabilistic databases, an integration of probabilistic data has to be performed. Until now, however, data integration approaches have focused on the integration of certain source data (relational or XML). There is no work on the integration of uncertain (esp. probabilistic) source data so far. In this paper, we present a first step towards a concise consolidation of probabilistic data. We focus on duplicate detection as a representative and essential step in an integration process. We present techniques for identifying multiple probabilistic representations of the same real-world entities. Furthermore, for increasing the efficiency of the duplicate detection process we introduce search space reduction methods adapted to probabilistic data

    End-to-End Entity Resolution for Big Data: A Survey

    Get PDF
    One of the most important tasks for improving data quality and the reliability of data analytics results is Entity Resolution (ER). ER aims to identify different descriptions that refer to the same real-world entity, and remains a challenging problem. While previous works have studied specific aspects of ER (and mostly in traditional settings), in this survey, we provide for the first time an end-to-end view of modern ER workflows, and of the novel aspects of entity indexing and matching methods in order to cope with more than one of the Big Data characteristics simultaneously. We present the basic concepts, processing steps and execution strategies that have been proposed by different communities, i.e., database, semantic Web and machine learning, in order to cope with the loose structuredness, extreme diversity, high speed and large scale of entity descriptions used by real-world applications. Finally, we provide a synthetic discussion of the existing approaches, and conclude with a detailed presentation of open research directions

    The Impact of Near-Duplicate Documents on Information Retrieval Evaluation

    Get PDF
    Near-duplicate documents can adversely affect the efficiency and effectiveness of search engines. Due to the pairwise nature of the comparisons required for near-duplicate detection, this process is extremely costly in terms of the time and processing power it requires. Despite the ubiquitous presence of near-duplicate detection algorithms in commercial search engines, their application and impact in research environments is not fully explored. The implementation of near-duplicate detection algorithms forces trade-offs between efficiency and effectiveness, entailing careful testing and measurement to ensure acceptable performance. In this thesis, we describe and evaluate a scalable implementation of a near-duplicate detection algorithm, based on standard shingling techniques, running under a MapReduce framework. We explore two different shingle sampling techniques and analyze their impact on the near-duplicate document detection process. In addition, we investigate the prevalence of near-duplicate documents in the runs submitted to the adhoc task of TREC 2009 web track

    Algoritmos de prĂ©-processamento para uniformização de instĂąncias XML heterogĂȘneas

    Get PDF
    Dissertação (mestrado) - Universidade Federal de Santa Catarina, Centro TecnolĂłgico. Programa de PĂłs-graduação em CiĂȘncia da ComputaçãoO aumento no volume de informaçÔes disponĂ­veis na Web torna necessĂĄrio sistemas cada vez mais prĂĄticos e eficientes na coleta e integração destas informaçÔes, para fins de consulta. Um dos formatos mais utilizados para disponibilizar as informaçÔes na Web Ă© O XML. O XML, dada a sua natureza dinĂąmica, permite representaçÔes completas e adequadas dos mais diferentes domĂ­nios de dados. Ao mesmo tempo, esta natureza dinĂąmica lhe confere aspectos que tornam complexa a integração de dados neste formato. Este trabalho vem ao encontro deste problema, provendo um conjunto de tĂ©cnicas de prĂ©-processamento para uniformizar as estruturas de dados no formato XML. Esta uniformização, que busca respeitar a semĂąntica dos dados, visa facilitar a comparação e posterior integração por abordagens jĂĄ existentes para comparação e integração de dados. AtravĂ©s de estudos de caso e experimentos, demonstra-se como os prĂ©-processamentos sugeridos influem positivamente nos resultados de trabalhos existentes

    Effiziente MapReduce-Parallelisierung von Entity Resolution-Workflows

    Get PDF
    In den vergangenen Jahren hat das neu entstandene Paradigma Infrastructure as a Service die IT-Welt massiv verĂ€ndert. Die Bereitstellung von Recheninfrastruktur durch externe Dienstleister bietet die Möglichkeit, bei Bedarf in kurzer Zeit eine große Menge von Rechenleistung, Speicherplatz und Bandbreite ohne Vorabinvestitionen zu akquirieren. Gleichzeitig steigt sowohl die Menge der frei verfĂŒgbaren als auch der in Unternehmen zu verwaltenden Daten dramatisch an. Die Notwendigkeit zur effizienten Verwaltung und Auswertung dieser Datenmengen erforderte eine Weiterentwicklung bestehender IT-Technologien und fĂŒhrte zur Entstehung neuer Forschungsgebiete und einer Vielzahl innovativer Systeme. Ein typisches Merkmal dieser Systeme ist die verteilte Speicherung und Datenverarbeitung in großen Rechnerclustern bestehend aus Standard-Hardware. Besonders das MapReduce-Programmiermodell hat in den vergangenen zehn Jahren zunehmend an Bedeutung gewonnen. Es ermöglicht eine verteilte Verarbeitung großer Datenmengen und abstrahiert von den Details des verteilten Rechnens sowie der Behandlung von Hardwarefehlern. Innerhalb dieser Dissertation steht die Nutzung des MapReduce-Konzeptes zur automatischen Parallelisierung rechenintensiver Entity Resolution-Aufgaben im Mittelpunkt. Entity Resolution ist ein wichtiger Teilbereich der Informationsintegration, dessen Ziel die Entdeckung von DatensĂ€tzen einer oder mehrerer Datenquellen ist, die dasselbe Realweltobjekt beschreiben. Im Rahmen der Dissertation werden schrittweise Verfahren prĂ€sentiert, welche verschiedene Teilprobleme der MapReduce-basierten AusfĂŒhrung von Entity Resolution-Workflows lösen. Zur Erkennung von Duplikaten vergleichen Entity Resolution-Verfahren ĂŒblicherweise Paare von DatensĂ€tzen mithilfe mehrerer Ähnlichkeitsmaße. Die Auswertung des Kartesischen Produktes von n DatensĂ€tzen fĂŒhrt dabei zu einer quadratischen KomplexitĂ€t von O(nÂČ) und ist deswegen nur fĂŒr kleine bis mittelgroße Datenquellen praktikabel. FĂŒr Datenquellen mit mehr als 100.000 DatensĂ€tzen entstehen selbst bei verteilter AusfĂŒhrung Laufzeiten von mehreren Stunden. Deswegen kommen sogenannte Blocking-Techniken zum Einsatz, die zur Reduzierung des Suchraums dienen. Die zugrundeliegende Annahme ist, dass DatensĂ€tze, die eine gewisse MindestĂ€hnlichkeit unterschreiten, nicht miteinander verglichen werden mĂŒssen. Die Arbeit stellt eine MapReduce-basierte Umsetzung der Auswertung des Kartesischen Produktes sowie einiger bekannter Blocking-Verfahren vor. Nach dem Vergleich der DatensĂ€tze erfolgt abschließend eine Klassifikation der verglichenen Kandidaten-Paare in Match beziehungsweise Non-Match. Mit einer steigenden Anzahl verwendeter Attributwerte und Ähnlichkeitsmaße ist eine manuelle Festlegung einer qualitativ hochwertigen Strategie zur Kombination der resultierenden Ähnlichkeitswerte kaum mehr handhabbar. Aus diesem Grund untersucht die Arbeit die Integration maschineller Lernverfahren in MapReduce-basierte Entity Resolution-Workflows. Eine Umsetzung von Blocking-Verfahren mit MapReduce bedingt eine Partitionierung der Menge der zu vergleichenden Paare sowie eine Zuweisung der Partitionen zu verfĂŒgbaren Prozessen. Die Zuweisung erfolgt auf Basis eines semantischen SchlĂŒssels, der entsprechend der konkreten Blocking-Strategie aus den Attributwerten der DatensĂ€tze abgeleitet ist. Beispielsweise wĂ€re es bei der Deduplizierung von ProduktdatensĂ€tzen denkbar, lediglich Produkte des gleichen Herstellers miteinander zu vergleichen. Die Bearbeitung aller DatensĂ€tze desselben SchlĂŒssels durch einen Prozess fĂŒhrt bei Datenungleichverteilung zu erheblichen Lastbalancierungsproblemen, die durch die inhĂ€rente quadratische KomplexitĂ€t verschĂ€rft werden. Dies reduziert in drastischem Maße die Laufzeiteffizienz und Skalierbarkeit der entsprechenden MapReduce-Programme, da ein Großteil der Ressourcen eines Clusters nicht ausgelastet ist, wohingegen wenige Prozesse den Großteil der Arbeit verrichten mĂŒssen. Die Bereitstellung verschiedener Verfahren zur gleichmĂ€ĂŸigen Ausnutzung der zur VerfĂŒgung stehenden Ressourcen stellt einen weiteren Schwerpunkt der Arbeit dar. Blocking-Strategien mĂŒssen stets zwischen Effizienz und DatenqualitĂ€t abwĂ€gen. Eine große Reduktion des Suchraums verspricht zwar eine signifikante Beschleunigung, fĂŒhrt jedoch dazu, dass Ă€hnliche DatensĂ€tze, z. B. aufgrund fehlerhafter Attributwerte, nicht miteinander verglichen werden. Aus diesem Grunde ist es hilfreich, fĂŒr jeden Datensatz mehrere von verschiedenen Attributen abgeleitete semantische SchlĂŒssel zu generieren. Dies fĂŒhrt jedoch dazu, dass Ă€hnliche DatensĂ€tze unnötigerweise mehrfach bezĂŒglich verschiedener SchlĂŒssel miteinander verglichen werden. Innerhalb der Arbeit werden deswegen Algorithmen zur Vermeidung solch redundanter Ähnlichkeitsberechnungen prĂ€sentiert. Als Ergebnis dieser Arbeit wird das Entity Resolution-Framework Dedoop prĂ€sentiert, welches von den entwickelten MapReduce-Algorithmen abstrahiert und eine High-Level-Spezifikation komplexer Entity Resolution-Workflows ermöglicht. Dedoop fasst alle in dieser Arbeit vorgestellten Techniken und Optimierungen in einem nutzerfreundlichen System zusammen. Der Prototyp ĂŒberfĂŒhrt nutzerdefinierte Workflows automatisch in eine Menge von MapReduce-Jobs und verwaltet deren parallele AusfĂŒhrung in MapReduce-Clustern. Durch die vollstĂ€ndige Integration der Cloud-Dienste Amazon EC2 und Amazon S3 in Dedoop sowie dessen VerfĂŒgbarmachung ist es fĂŒr Endnutzer ohne MapReduce-Kenntnisse möglich, komplexe Entity Resolution-Workflows in privaten oder dynamisch erstellten externen MapReduce-Clustern zu berechnen

    Detecting Duplicates in Complex XML Data

    No full text
    Recent work both in the relational and the XML world have shown that the efficacy and efficiency of duplicate detection is enhanced by regarding relationships between entities. However, most approaches for XML data rely on 1:n parent/child relationships, and do not apply to XML data that represents m:n relationships
    corecore