unknown

Research of Duplicate Record Detection Algorithm in Data Mining

Abstract

随着信息化的高速发展和客观上硬件技术的有效支撑,使得数据集中的海量 数据不免存在冗余、缺失、不确定数据和不一致数据等诸多情况,这些统称为“脏 数据”。人们需要从数据集中获取真实可靠的数据就必须进行数据清洗。而重复 记录检测是数据清洗领域中的研究热点。本文首先介绍了数据仓库、数据清洗以 及重复记录检测的相关知识,包括数据清洗的原理、方法、基本流程和工具以及 重复记录检测匹配算法和重复记录检测清除算法。在此基础上,本文提出了三个 改进算法。分别是基于传递闭包的重复记录检测算法,基于属性分析的重复记录 检测算法和基于完全子图的重复记录检测算法。基于传递闭包的重复记录检测算 法在SNM...Approximately duplicate records’ cleaning is important in the field of data cleaning. Duplicate records detection is the process of identifying multiple records that refer to one unique real-world entity or object. However, due to different data representations in different data sources or errors because of various reasons, determining whether two records are equal is not a simple arithmet...学位:工学硕士院系专业:软件学院_计算机软件与理论学号:2432010115224

    Similar works