如何做好云端灾难恢复的规划与测试?
由于某些类型的灾难所造成的停机时间,将使相关公司遭受每小时数万美元的损失。传统物理服务器的灾难恢复不仅速度缓慢而且其成本费用也相对较为昂贵。但是,实施基于云计算的灾难恢复(DR)可实现虚拟服务器的快速恢复,而其成本仅为传统灾难恢复的一小部分。但是为了实现低成本的快速恢复,云计算经理们必须掌控生产场所和灾难恢复场所。
数据恢复取决于你的恢复时间目标(RTO),或者你对从停机事件中完成恢复的速度要求以及你愿意为之付出的成本。在坐标图中速度成本曲线的“缓慢-廉价”端,你可以使用五至七天RTO的离线恢复。
而在曲线的另一端(快速-昂贵)则可以采用数分钟RTO的热现场恢复。该方法涉及SAN-SAN复制,该方法的特点在于在生产场所与灾难恢复场所之间始终对数据进行着复制操作。毋庸多言,这一灾难恢复方法的代价是极其昂贵的。
当然还有众多走中间路线的灾难恢复方法。例如,冷现场恢复就是指在灾难恢复场所提供服务器,但并不载入生产场所的备份。温现场恢复中的服务器可供管理员们进行设置并在开始恢复之前移动数据库。
如果你没有使用生产场所和灾难恢复场所之间SAN或SAN-SAN同步而备份物理服务器,那么传统的裸机恢复(BMR)提出了一些挑战,具体如下:
1、你需要在灾难恢复场所使用一台物理服务器与在生产场所试图恢复的物理服务器具有完全相同的配置、BIOS、驱动器等。这一点是很难做到的,除非你在完全相同的时间购买了这两台服务器。
2、你无法在灾难恢复场所找到一台具有你所需相同配置的物理服务器,因此你必须选择另一台服务器、负载和打过补丁的操作系统、负载和打过补丁的应用程序,载入数据,然后配置系统。如果所有的步骤都能够正确完成,系统就可恢复。
3、你还必须配置你的网络以确保它与生产场所的网络相匹配,因此所有虚拟专用网络(VPN)和虚拟局域网(VLAN)都必须进行相同配置,同时防火墙规则也应相同。网络配置可真正延缓IT基础设施的恢复时间。
转移至基于云计算的灾难恢复
与传统物理服务器恢复相比,基于云计算的灾难恢复不仅加快了恢复速度,而且它还允许你在之后某个时间非现场发送应用程序和相关数据以实现恢复。
但是,当成本是一个问题时、当你无法承受SAN-SAN同步时或者当你不拥有整个物理基础设施以恢复服务器时,恢复过程可能需要花费很长的一段时间。这就意味着你需要在生产场所和灾难恢复场所之间完整复制你的网络及其变更管理。此举将确保你在生产场所进行的任何操作都会被复制到灾难恢复场所。当你为你的生产场所新增了一台物理服务器,你需要确保你的变更管理过程也会在灾难恢复场所中复制一台物理服务器。
与之形成鲜明对比的是,一旦云计算技术使用管理程序通过一台虚拟服务器捕获了一台物理服务器,虚拟服务器基本上就会成为一个文件(即VMware vSphere ESXi上的一个VMDF文件)。因此,不同于发送数据和应用程序至一台传统非现场备份并经历漫长恢复过程的做法,你只需每隔几个小时将虚拟服务器文件送至灾难恢复场所就可实现备份工作。当你需要恢复数据时,只需打开虚拟服务器并确保网络的正确配置。恢复工作就可完成了。
可以周期性地把虚拟服务器文件发送至灾难恢复场所,可以是每隔四至六个小时,或者更频繁。如VEEAN备份与复制这样专用基于VMware云计算环境的工具就可用于完成该过程。
如果你控制了生产场所和灾难恢复场所,这一基于云计算的灾难恢复流程将可正常工作。例如,如果生产场所使用微软公司的Hyper-V以完成服务器虚拟化,而灾难恢复场所是基于VMware vSphere ESXi的虚拟服务器,那么整个灾难恢复过程可能就会无法正常工作。你需要找到一家基于云计算的灾难恢复服务供应商,由他来管理Hyper-V虚拟服务器文件。
一个好办法,也许也是最简单的办法就是在云计算中处理灾难恢复,即使用一个能够处理多租户云计算服务器和提供基于云计算灾难恢复服务的托管供应商。由托管服务供应商来掌控生产场所和灾难恢复场所。
并不是所有人都能看到基于云计算灾难恢复的好处的。其中一个问题就是,当在云计算中管理灾难恢复时,企业并没有真正得到充分和传统的灾难恢复。批评人士认为,那些企业实际上只是得到了备份即服务(BaaS)。可以说,当单一组织掌握生产场所和灾难恢复场所时,你只能得到基于云计算的灾难恢复。
灾难恢复:当钱不是一个选择时
如果撇开成本预算问题不谈,一个完整和传统的灾难恢复方法较之基于云计算全面灾难恢复方法又如何呢?在恢复的成本和时间上是否存在着如何的差异?
如果钱不是问题,企业可以使用两种方法的SAN-SAN复制。他们可能会把一切东东移至SAN,并在生产场所和灾难恢复场所之间执行同步或异步的数据复制操作。这将快速减少恢复点目标(RPO)并提升你的恢复能力。
由于你需要复制整个文件结构、文件系统等等,所以使用同步SAN的传统灾难恢复方法和基于云计算灾难恢复方法所需要的恢复时间是基本一致。但是传统方法的总成本要明显高于基于云计算灾难恢复方法。
如果比较不采用SAN-SAN同步的传统物理灾难恢复方法和基于云计算灾难恢复方法,那么后者不仅成本低廉而且恢复速度也要快得多,当然其前提条件是生产场所和灾难恢复场所以及复制网络配置的变更都完全处于你的掌控之下。在许多情况下,无法提供网络变更管理是灾难恢复无法正常工作的一个主要原因。
因为,基于云计算的灾难恢复方法需要的物理服务器更少、相关任务更少。基于云计算灾难恢复方法中的物理服务器包括一些多个虚拟服务器的虚拟托管服务器。例如,可对二十台物理服务器进行虚拟化,从而只需在生产场所和灾难恢复场所分别运行两台虚拟托管服务器。
规划一个基于云计算的完整策略
为了设计贵企业的灾难恢复策略,你需要确定灾难恢复预算和当灾难发生时你需要完成服务器恢复的时间。如果你的预算不宽裕,而传统灾难恢复方法速度也较慢。而为了提升物理服务器恢复的速度,则要求你投入更多的花费。但是,因为众多企业用户正在高速发展虚拟化,所以基于云计算的灾难恢复方法就成为了他们灾难恢复规划的一部分。
与用于物理服务器的传统方法相比,基于云计算的灾难恢复可承诺大幅降低灾难恢复的成本和时间。基于云计算灾难恢复的关键在于一个企业应当控制生产场所和灾难恢复场所;企业还需要使用变更管理流程复制生产场所的网络配置。
你可以创建你自己的虚拟化数据中心和独立的灾难恢复场所,它可允许你控制生产场所和灾难恢复场所。你还可以使用一个变更管理流程在灾难恢复场所复制生产场所的网络配置。但是,这是一个工作量非常大的工作,同时价格亦是较为昂贵。尽管这种方法可让企业的IT部门控制环境,但是构建这种类型的灾难恢复环境的成本几乎等同于重新构建生产场所的费用。
企业还可以选择一个灾难恢复托管供应商,其所使用的虚拟化技术与企业用于实现数据中心虚拟化的技术相同。这将创建一个私有云计算环境,但是将迫使企业与灾难恢复托管供应商共同确定变更管理流程。这是很难做到的,因为是由两个组织而非一个组织来行使控制权限。