基于MapReduce框架的近似复制文本检测
李瑞 清华大学软件学院,北京,100084;清华信息科学与技术国家实验室(筹)(清华大学),北京,100084;信息系统安全教育部重点实验室(清华大学),北京,100084王朝坤 清华大学软件学院,北京,100084;清华信息科学与技术国家实验室(筹)(清华大学),北京,100084;信息系统安全教育部重点实验室(清华大学),北京,100084郑伟 清华大学软件学院,北京,100084;清华信息科学与技术国家实验室(筹)(清华大学),北京,100084;信息系统安全教育部重点实验室(清华大学),北京,100084王建民 清华大学软件学院,北京,100084;清华信息科学与技术国家实验室(筹)(清华大学),北京,100084;信息系统安全教育部重点实验室(清华大学),北京,100084王伟平 中国科学院计算技术研究所国家智能计算机研究开发中心,北京,100190
摘 要:海量文本数据近似复制文本检测在现实生活中具有广泛应用,如相似网页检测.提出了一种基于MapReduce的相似文本匹配算法,给定一个文本集合和相似性阈值,该算法能够有效计算文本集合中不小于该阈值的所有文本对.在真实数据集合上的实验结果表明,与现有工作相比,所提算法能够快速返回相似文本对.
关键词:MapReduce;近似复制文本检测
中图分类号:TP391
馆藏号:H064246
所有评论仅代表网友意见