Design and Implementation of Data Cleaning System Based on Memcached

Abstract

目前数据格式错误、不同来源的数据使用不同的标识等,脏数据大量存在,例如:字母拼写错误、打印格式不一致、数据值不合法、数据空值、简写大写不规范、同一实体的多种表示(重复)、引用完整性不统一等;对海量的数据进行清洗处理的时候需性能比较高的专业服务器,对于个人数据分析人员或企业都会增加额外的硬件开支。但是目前其实有大量的计算机节点(个人PC机或专用服务器)都处于性能过剩状态。 在数据挖掘和分析的过程中会搜集到大量的未分类、未格式转换及未清洗的数据文件,这些数据中蕴含着丰富的关联关系可以挖掘,但是想从海量的数据中挖掘出有价值的数据就需要进行分类、标识、格式转换和清洗,如果是人工参与完成,费时又费力,...Dirty data exists in large numbers, such as: misspelled letters, inconsistent print formats, invalid data values, invalid data values, non-standard shorthand uppercase, multiple representations of the same entity (Repeated), referential integrity is not uniform, etc .; for large amounts of data to be cleaned when the need for high-performance professional server, for personal data analysts or busi...学位:工程硕士院系专业:软件学院_工程硕士(软件工程)学号:X201223127

    Similar works