云计算环境下多副本管理综述
对于在云环境下的副本一致性的管理,文献提出了按照4个类别的应用程序的一致性,根据他们的阅读频率和更新频率,然后设计相应的一致性策略。应用程序在运行时自动选择最合适的战略,以实现一致性,可用性和高性能之间的动态平衡。
评价结果表明,该机制在保证数据一致性的同时还降低了操作带来的负载消耗。文献则提出了一种基于树的一致性的方法,减小副本服务器对于引入云数据库的部分一致和完全一致的状态的依赖关系。
保证从主服务器到所有副本服务器都在最可靠路径上。因此,事务失败的概率大大减少,这有助于提高不可靠的网络性能和使吞吐量均匀。
云环境下的动态迁移技术则更多的是结合虚拟化技术应用。动态迁移和多副本技术可以简单理解成计算机中的剪切与复制技术。如何选择合适的节点做数据的容灾备份或者热点迁移地址,并且在保证服务不中断的情况下迅速进行数据转移。
尤其在云环境下,用户会产生不同的用户需求,比如实时动态迁移过程等,延迟删除与线下删除等技术的结合使用可以。而且在云环境下的副本数据是海量存储,分布式的文件系统将海量数据分割成较为小的数据,但需要处理的数据量依然很大。
如果立即删除会给系统突发地带来相当大的负载,甚至可能会引起用户访问的响应率降低的任务。将删除任务分割成很多很小的任务,分批地提交给系统定时线下处理。Aaron等人提出一种弹性云平台下的动态迁移技术,有效进行非共享事务实时数据库迁移。
文献提出的一种懒惰更新算法是分隔云的数据复制和数据访问的过程,从而提高数据访问的吞吐量和缩短响应时间。多副本技术在云环境下应用也更多讨论的是副本动态迁移问题,充分利用了上述提到过的几种技术策略,综合性较强。
3、云环境下的多副本管理技术展望
在云环境下未来的研究中,多副本管理仍将是讨论的重点,随着海量数据的出现,相信云存储及云端海量数据分析都将遇到挑战。笔者认为,在云环境下,多副本管理可以从以下几方面进行研究:
1)基于云平台的数据迁移问题。云环境下对于数据迁移工作的部署,必将是大量数据由传统的数据存储中转移到云存储中。另外,在云存储的海量数据中,如何备份容灾和进行海量数据转移也是很关键的问题。
云平台下的数据库管理系统要具有可伸缩、容错和弹性,这样才能够保证副本之间可以在不宕机的情况下进行无缝迁移复制,并且使用户完全感觉不到。
而这项技术是传统多副本定位、删除、一致性保证等技术融合,对于云存储这种海量数据的处理以及面对超级多的用户访问,策略的完善更是刻不容缓。而在云环境下,无论是云计算或是云存储都是基于虚拟化技术的实现,多副本存储与虚拟化存储的配合使用也是云平台下多副本管理的研究值得思考的问题。虚拟机宕机之后的多副本存放与硬盘存储设备的接管,都是迁移技术的难点所在。
单是针对存储资源的动态迁移已经是现在技术的难点,更值得提出的是对于云环境下多副本的处理,动态迁移哪个副本文件,副本选择策略放置策略等技术在迁移过程中的应用,更将把这个云环境下的副本迁移技术难度推向一个新高度。
2)在云环境下,由于海量级的数据存在多个副本,对于像Google的GFS系统和Yahoo!的Hadoop这样的系统,还要将其庞大的数据分割存放,其副本的选择和放置策略则要经过精密计算。如何有效对碎片式的多副本数据进行整合调用将成为未来研究重点之一。
海量数据的处理已经让技术人员煞费苦心,对于分布式文件管理系统开发人员,数据的分割策略也是技术难点,而对于应用分布式存储的云环境下的海量数据多副本管理这个课题,更将是难上加难。云环境下的多副本意味着海量数据的数量级更上一层楼,而数据分割分配策略也会因实际情况底层存储系统不同而不同。因此,云环境下的海量分片式多副本管理仍面临很多技术挑战。
3)在云环境下对多用户多应用的即时响应也是需要深度探讨的问题。要求副本粒度随着用户数的变化而动态调整,使副本数不至于太多而浪费存储空间,也不会太少而影响多用户访问速度。该删除副本时是用哪种删除策略才不会影响系统性能。
4)数据基于地理位置的感知也十分关键。随着数据量增大,存放数据的云朵规模也越来越大,越来越多的应用被部署在不同地理空间上。如何改进传统的放置和选择多副本策略使之适应于云环境的大规模数据调用,使副本合理分布在不同的地理空间,以节省数据在传输过程的消耗并保证数据副本数容灾性及可靠性必将是多副本在云存储平台的一个讨论热点。
5)当年伴随云计算的提出,很多质疑声音也出现了,那就是云安全的问题。对于云计算安全的处理一直是云技术发展的一个难点。用户将大量私密数据存在云端,而在云环境下数据的多副本策略,既要保证数据不被外界截获盗取,又要保证数据一致性无误保存,又将是云存储环境下的技术难点。副本数目越多,分布范围越广,其管理难度就会越大。,安全性也会越低。如何在云端对数据的多副本进行加密处理等措施是未来云端副本秘密安全性的重点。