深入剖析基于云的灾难恢复
所谓的云杀手级应用——基于云的灾难恢复在大多数企业范围内都执行着快速、经济的恢复作业。
一直以来,灾难恢复都被称为是云平台的杀手级应用。基于云的灾难恢复(DR)解决方案具有超越传统灾难恢复解决方案的一些引人瞩目的优势,这些传统的应用场景通常会涉及一个在辅助设施或异地运行的可移除式存储介质中维护的一个专用IT基础设施。
云灾难恢复在基础设施和管理费用两方面都实现了更高的简便性、更快速的恢复以及更低廉的成本。简而言之,使用云作为灾难恢复的运行平台可以提供比传统方法更高的附加值,它实际上可以让这样一个更高效的灾难恢复解决方案成为众多从微小型到超大型企业均切实可行的方案。
本文给出了基于云的灾难恢复的定义,详细讨论了云灾难恢复技术(或灾难恢复即服务)这一热门话题,并介绍了多种不同类型的云计算灾难恢复解决方案。我们还就这一技术背后的一些详细信息进行了讨论,这也是企业用户在实施这类服务前就应当了解的内容。
灾难恢复定义
所谓灾难就是导致服务器或应用程序出现非计划停机的任何东西,确保制定一个处于第一位的灾难恢复计划是非常重要的。这样的一个定义意味着,一次灾难可以是由一个孤立的硬件故障、存储系统上的数据损害或者管理员意外关闭服务器所导致的。它不一定就是在数据中心中发大水或者遭遇龙卷风什么的。事实上,大多数的停机时间并不涉及一个全站点范围的灾难。
恢复则是指重新启动应用程序并在其与用户和其他应用程序之间重新建立连接——并不只是恢复数据而已。在过去,高效的恢复会要求配备冗余的基础设施,但是,归功于新的虚拟化技术,现在一个可用于运行关键虚拟机(VM)副本的辅助主机就可以构成一个灾难恢复解决方案。一个真正可靠的灾难恢复解决方案要付出大量的努力而不仅仅只是在云数据中心内建立若干虚拟机,但是这一技术可以大大简化恢复过程并潜在地降低了传统灾难恢复解决方案的成本。
基于云的灾难恢复定义
云灾难恢复可以有若干个定义,但是鉴于我们的目的,我们认为云灾难恢复涉及一家企业在它自己的数据中心运行关键任务应用程序并将相关数据以虚拟机镜像的形式移至云。其解决方案通常包括在虚拟机镜像被保存的主机基础设施上重新启动这些虚拟机的能力。
服务器虚拟化已极大地简化了恢复过程。把一整个服务器实例封装至一两个文件就已经让虚拟机重启了,其简易程度就如同恢复一个VMDK或VHD文件一样。虽然这样一个解决方案可能是无法满足所有企业需求的,但是一个裸机灾难恢复解决方案可以是很简单的,就好像确定一个备份版本虚拟机的位置并将其相关文件复制回原来的服务器或者一台备用服务器。
恢复到位
通过指向一台在备份存储位置的恢复服务器,用户还可以“到位地”运行这些虚拟机。这是一个能够把基于云备份转至云灾难恢复的高效功能,它催生了灾难恢复即服务(DRaaS)的细分市场。虽然它承诺它的恢复速度比把虚拟机镜像从云导回要快得多,但是还是存在着一些用户需要知道的潜在问题——其大部分都与延迟性相关
云灾难恢复服务供应商
实施基于云的灾难恢复通常有两种方法:
1. 一种方法就是让现有的备份供应商在其云中增加存储和运行虚拟机镜像的功能选项。
2. 而另外一个方法就是让现有的云存储供应商、计算供应商或者基础设施即服务供应商新增加一个灾难恢复服务。
云备份供应商。在某些方面,备份和灾难恢复是相互重叠的,而对于一个完整的数据保护解决方案来说,这两者又都是不可或缺的。有鉴于此,让一个提供异地存储服务的现有备份供应商顺应这一趋势而增加云灾难恢复服务将是比较合乎逻辑的。一个通用的架构涉及:使用一个现场设备、一台物理机器或虚拟机来控制本地备份并管理数据传输至云计算。这一类解决方案中的很多都提供了“物理-虚拟”的转换,这样他们就可以为裸机(非虚拟化的)服务器提供需要被纳入灾难恢复计划中的数据保护了。
大部分的服务供应商还提供了在云中运行虚拟机的选项,通常就是在他们自己的云施中。但是,故障转移和故障恢复流程是随供应商不同而有所不同的,因此他们的云基础设施的复杂性亦是如此。很多这类产品都是专为中小型企业而量身定做的,并把他们的灾难恢复服务吹捧为“一键式”的解决方案。很显然,企业用户需要了解这些解决方案的工作原理以及其中蕴含的相关潜在风险。也就是说,这一方法也是有着一些优势的。
这样一个备份和灾难恢复的功能组合可以简化数据保护,而使用一个现场设施则意味着,如有需要,可以使用一个数据的本地副本以便于实现更快速的文件恢复和服务器恢复。因为大多数的停机时间都是由一个单台服务器或应用程序而不是整个站点范围的故障造成的,所以拥有一个本地副本来进行数据恢复则是一个既合乎逻辑又比较高效的解决方案。一个混合实施可使用云平台来简化数据传输并承担这一过程的开销。通过处理与主机服务器的同步,它还提供了一些选项以改进故障恢复。
有很多的供应商都使用了一个现场设施以便于在其数据保护解决方案中增加云灾难恢复功能,其中包括了Acronis nScaled、Axcient、Barracuda Networks、Datto、Quantum、Quorum以及Unitrends等。而有一些包含了灾难恢复选项的云备份解决方案并没有采用现场设施,但是混合方法是最常见的实施方法,因为它具有一些显著的优势。
云基础设施供应商。基于云的灾难恢复的其它常见方法通常涉及运行主机或基于云的存储和计算基础设施业务的服务,另外还增加了一个灾难恢复选项。有些则提供了集成存储系统的特定平台解决方案,他们的客户目前使用该存储系统以利用其内嵌的复制功能。但是,大多数都提供了支持从云存储和运行虚拟机的通用云存储与计算服务。
他们的产品各有不同,从由供应商负责现场安装和管理的完整交钥匙解决方案到简单地向企业用户提供用于从根本上建立企业自有云灾难恢复解决方案的“积木”。所用的具体架构主要取决于服务供应商和客户企业的环境,但是大多数解决方案都涉及在专用服务器或虚拟机上运行以用于处理与云相关的数据传输的软件。
这些供应商们通常都会重点关注较高端的市场,强调这一需求而不仅仅只是在云中的一台主机。他们的说法是,云基础设施的质量不应当被认为是理所当然的,而且大多数供应商所提供的过程和支撑服务也不应是必须的。当一个应用程序发生故障而转移至云时,很多供应商都致力于为用户提供一个转移无缝的使用体验,解决让用户和其它应用程序重新连接至故障服务器的“前端”问题,而不只是运行被存储虚拟机镜像的“后端”工作。
一些提供这些服务的企业正活跃于传统灾难恢复市场,他们提供了冗余基础设施的解决方案,但是他们现在已接受了基于虚拟机的灾难恢复技术的好处。这里稍举几个供应商,如亚马逊(通过合作伙伴)、Databarracks、Egenera、IBM SoftLayer、Rackspace、Seagate的EVault 以及 Windstream等。VMware公司还使用其基于管理程序的复制引擎以建立一个云灾难恢复服务,从而将虚拟机镜像移至它的云计算。
云灾难恢复的若干关键考量
不要忘记本地的灾难。虽然飓风和自然灾害事件会占据所有的新闻头条,但是企业用户所面临应用程序停用事件往往源于硬件故障、受损的软件或者人为错误等。正是由于这个原因,一个包括了现场存储组件和提供针对故障服务器基于LAN的恢复功能的云灾难恢复解决方案可以具有相当大的吸引力。
云备份成为云。当一家企业需要在云中运行应用程序时,它与云供应商的关系也会变化——云备份供应商变成了云供应商。他们需要了解供应商提供了哪一种的服务等级协议(SLA),以及他们可以支持运行企业应用程序多长时间。在发生区域性灾难的情况下,如果多家企业同时启用恢复功能,那么云备份供应商的计算基础设施可能很快就会不堪重负。为了确保他们能够得到期望的服务,企业需要确保提供计算级的SLA而不仅仅只是尽最大努力保证。
不要忘记重新连接。在云中发生故障的服务器中,重新启动是恢复过程的第一个步骤,但却不是唯一的步骤。用户和其它的应用程序服务器还需要与这些虚拟机重新建立连接。如果寻求基于云的灾难恢复服务的企业希望在检修他们的主要基础设施时能够在云中运行生产应用程序,那么他们就需要进一步了解相关的详细信息,如网络、防火墙、端口监控、入侵保护以及安全性等等。
退出策略。最后,企业需要了解他们的退出程序——故障转移是如何运行的,以及它将花费多长时间。如果一个应用程序在云中运行的时间越长,那么它通过广域网与主服务器进行同步所需花费的时间也越多。对于大型数据集而言 ,它的解决方案可能包括存储设施出货,但是这个过程仍然会涉及重新同步以适应运货时间。
云灾难恢复的底线
云灾难恢复是当前云技术和虚拟化技术的一个良好应用范例。服务器虚拟化、云服务以及混合备份解决方案的发展让灾难恢复成为了企业用户的一个切实可行的选择,而这些企业可能永远都无法证明传统灾难恢复基础设施的建设可行性。但是,用户还是必须考虑云灾难恢复解决方案的细节,尤其是恢复方面,例如供应商是否提供了SLA,云环境是如何处理用户和应用程序的重新连接的,以及灾难事件结束后退出策略是什么样的等等。企业还应当考虑在解决方案中包括一个从本地或有限灾难提供恢复功能的现场设施。
何为DRaaS?
灾难恢复(DR)即服务实际上就是我们所定义的云灾难恢复。事实上,这两个词被大多数希望尽可能扩大吸引力的企业交替使用着。这与基础设施每月支付费用有所不同,就好像云供应商只是租用云资源或者还提供了一些现场设施。但是,由于云灾难恢复并不是一种用户提供设备的主机托管解决方案,所以他们仍然将灾难恢复打包作为服务进行销售。