【摘要】在云环境中,传统意义上的物理服务器正在逐渐被各式虚拟机所取代,云数据中心中托管的虚拟机镜像所占用的存储空间急剧增长,如何高效地管理这些镜像文件已成为云计算研究热点之一.由于虚拟机镜像内部存在大量空白重复数据块,这在一定程度上导致了镜像内部冗余率较高.其次,不同的虚拟机镜像可能运行了相同的操作系统和应用程序,使得镜像之间同样存在较多的重复数据.针对海量虚拟机镜像,传统的去重策略将产生巨大的时间开销,同时会消耗巨大的内存空间和CPU资源,影响数据中心的性能.提出一种基于改进Simhash算法的海量虚拟机镜像多级去重方法,将一个完整的镜像文件分割为操作系统镜像段和应用数据镜像段,同时提取各部分的特征值,利用DBSCAN(density-based spatial clustering of applications with noise)聚类算法完成对镜像段的分组,将相似度较高的镜像段聚为一类,从而将全局去重分解为规模较小且重复率较高的分组内部去重,实现了指纹索引数据完全存放于内存中的重复数据删除,大幅减少了磁盘I/O次数,达到缩短去重时间的目的.
【关键词】
《建筑知识》 2015-05-12
《中国医疗管理科学》 2015-05-12
《中国医疗管理科学》 2015-05-12
《中国医疗管理科学》 2015-05-12
《重庆高教研究》 2015-06-29
《现代制造技术与装备》 2015-06-26
《当代体育科技》 2015-07-07
《广州大学学报(社会科学版)》 2015-07-03
Copyright © 2013-2016 ZJHJ Corporation,All Rights Reserved
发表评论
登录后发表评论 (已发布 0条)点亮你的头像 秀出你的观点