[1]张宗华,屈英,叶志佳,等.基于多特征匹配和Bloom Filter的重复数据删除算法[J].深圳大学学报理工版,2016,33(5):531-535.[doi:10.3724/SP.J.1249.2016.05531]
 Zhang Zonghua,Qu Ying,Ye Zhijia,et al.Deduplication based on multi-feature matching and Bloom Filter[J].Journal of Shenzhen University Science and Engineering,2016,33(5):531-535.[doi:10.3724/SP.J.1249.2016.05531]
点击复制

基于多特征匹配和Bloom Filter的重复数据删除算法()
分享到:

《深圳大学学报理工版》[ISSN:1000-2618/CN:44-1401/N]

卷:
第33卷
期数:
2016年第5期
页码:
531-535
栏目:
电子与信息科学
出版日期:
2016-09-24

文章信息/Info

Title:
Deduplication based on multi-feature matching and Bloom Filter
作者:
张宗华屈英叶志佳牛新征
1)国家电网公司北京电力医院信息通讯部,北京 100073;2)电子科技大学计算机科学与工程学院,成都 611731
Author(s):
Zhang Zonghua Qu Ying Ye Zhijia and Niu Xinzheng
1)Ministry of Information and Communication, Beijing Electric Power Hospital, State Grid Corporation of China, Beijing 100073, P.R.China
2)School of Computer Science and Engineering, University of Electronic Science and Technology of China, Chengdu 611731, P.R.China
关键词:
计算技术计算方法重复数据删除多特征匹配布隆过滤器EB算法
Keywords:
computing technology computing method deduplication multi-feature matching Bloom Filter extreme binning
分类号:
TP 301.6
DOI:
10.3724/SP.J.1249.2016.05531
文献标志码:
A
摘要:
针对EB(extreme binning)算法重复数据删除率低,磁盘I/O开销大的缺陷,提出基于多特征匹配和Bloom Filter的重复数据删除算法DBMB(deduplication based on multi-feature matching and Bloom filter). 将小文件聚合为局部性文件单元,作为一个整体进行去重处理,采用最大、最小以及中间数据块ID的多重相似性特征进行匹配,并基于Bloom Filter优化磁盘数据块的查找和匹配过程. 结果表明,DBMB算法能有效提升重复数据删除率,降低算法执行时间,同时减少处理小文件的内存开销,性能提升显著.

相似文献/References:

[1]张宗华,张海全,李师航,等.基于加权滑动平均的磁盘使用率预测模型[J].深圳大学学报理工版,2016,33(1):72.[doi:10.3724/SP.J.1249.2016.01072]
 Zhang Zonghua,Zhang Haiquan,Li Shihang,et al.Disk usage prediction based on an improved weighted moving average method[J].Journal of Shenzhen University Science and Engineering,2016,33(5):72.[doi:10.3724/SP.J.1249.2016.01072]

更新日期/Last Update: 2016-09-07