五点提示帮助您幸免于云服务运行中断
“所有的一切都运行失败。”亚马逊首席技术官沃纳?威格尔(Werner Vogels)说。
去年四月,亚马逊网络服务本身经历了一次备受瞩目的为期四天的服务中断;另一次服务中断发生在去年八月,其他很多云服务公司也发生了类似的中断服务。微软的Windows Azure云平台在去年二月由于公司没有考虑到闰日“Leap Day”而出现宕机,尽管云供应商正在不断的改进以便减少未来可能发生的中断事故,但仍有更多的中断事故会在今年及以后的时间里不可避免地发生。
如下是专家建议的一些步骤,帮助企业的IT部门在发生云服务中断时应果断采取,避免发生更大的损失:
1)使用亚马逊网络服务的多个可用性区域。
亚马逊网络服务在各地区为每个服务都提供了“可用区域”(AZ)。公司将其可用区域描述为每一项服务都是运行在不同的独立的基础设施上的。“他们实际在物理上是分开的,这样,即使是非常罕见的灾害,如火灾、龙卷风或洪水也只会影响单个可用区域。”在去年的停电事故中,约45%的客户只采用了单个可用区域,使得其关系数据库服务受到了影响,较之仅仅只有不到3%的客户使用了多个可用性区域方式,亚马逊网络服务在报告中说。该公司经历了去年的大规模停电事故后,通过允许共同设计和API分发跨多个可用性区域的实例,使得客户更容易使用多可用性区域的方式。
2)使用多个地区的亚马逊网络服务。
亚马逊网络服务包括八个地区:美国东部(北佛吉尼亚州)、美国西部(俄勒冈)、美国西部(加利福尼亚北部)、欧盟(爱尔兰)、亚太(新加坡)、亚洲(东京),南美洲(圣保罗),和亚马逊网络服务政府部分云服务。除了额外的安全和保护多可用性区域方法之外,用户还可以采用多个地区的亚马逊网络服务,将工作量分配到多个地区。毕竟要将工作量分配到多个“可用区域”还是不太容易的,单独的API需要调用不同地区的需求。
3)选择多家云服务供应商。
即使采用了亚马逊网络服务的多“可用区域”和多“地理区域”的方法仍然感觉不保险?那么,Drue Reeves建议您选择多家云服务提供商,Drue Reeves是Gartner公司的云分析师。但Reeves也同时告诫,因为一些服务提供商共享公共数据中心资源。客户可以检查个别供应商,看看他们是否与任何其他客户共享资源。
4)明确服务水平协议。
除了采取技术措施,客户还可以采取非技术性的措施,如与云服务供应商就服务水平协议(SLA)进行谈判,明确规定好不同中断情况的处罚赔偿条款。如果客户采用了一家云提供商的灾难恢复服务,SLA可能强制高达99.999%的可用性。
5)谨慎从事,三思后行。
如果用户极为关注在云中数据和应用程序的高可用性,IDC公司的分析师史蒂夫?亨德里克说,这也许意味着该客户尚未准备好采用公共云服务。亨德里克说,这是一个简单的等式:关键任务数据和计算资源越重要,客户就对于更多的弹性和高可用性的保护落实到位就越重视。