如何避免云服务中断
中国IDC圈7月15日报道:我们不能阻止云服务提供商服务中断。但是,有许多方法可以保护自己。亚马逊4月份发生的声名狼籍的云服务中断事故使包括Foursquare和Reddit在内的一些流行的网站断网。但是,亚马逊的许多客户安全渡过了这场风暴,没有发生断网故障。让我们一起来看一下避免云服务中断的方法。
我们不能阻止云服务提供商服务中断。但是,有许多方法可以保护自己。
亚马逊4月份发生的声名狼籍的云服务中断事故使包括Foursquare和Reddit在内的一些流行的网站断网。但是,亚马逊的许多客户安全渡过了这场风暴,没有发生断网故障。
这些用户设计自己的系统具有弹性,使用多个可用的区域,在传统的数据中心进行热备份或者在云提供商设置中有一个备份并且准备在一旦出现故障时开始运行。
硅谷的照片共享公司SmugMug甚至在其竞争对手断网的时候仍然在这个中断故障期间保证了连接。保证连接的部分原因是SmugMug没有使用亚马逊的弹性块存储。亚马逊的这个服务组件发生了断网故障。
但是,SmugMug还把它的系统分散在亚马逊称作“可用区域”的几个数据中心。
SmugMug首席执行官Chris MacAskill称,其它公司如果也把自己的应用程序分散开的话也能在中断故障时保持连接。MacAskill还建议企业使用多个亚马逊区域,这些区域比可用区域的隔离程度还要高。当然,亚马逊要对使用多个区域收取额外的费用。因此,这些需求需要考虑。
SmugMug主要依赖亚马逊,使用亚马逊基于云的S3(简单存储服务)服务存储用户的照片和视频。SmugMug还使用许多EC2(弹性计算云)的实例。但是,SmugMug没有使用亚马逊的弹性块存储,而是仍然使用传统的数据中心。亚马逊弹性块存储附加在单个的EC2实例,通常用于存储运营数据。
MacAskill称,那有它自己的弱点。例如,在亚马逊发生中断故障的那个星期,该公司失去了一个核心路由器、它的备份和一个核心的主数据库服务器。我希望我不必再处理路由器或者数据库硬件故障问题。这是我们仍在朝着云方面发展的原因。
他说,尽管发生中断故障,他从亚马逊得到的基于云的服务仍比SmugMug自己的东西好,并且比其它云服务提供商的服务好。我们完全相信这些服务。
以色列的创业企业Kitely仅使用一个亚马逊的可用区域。但是,幸运的至这个区域没有发生中断故障。
然而,Kitely计划从这次体验中吸取教训。Kitely负责研发的副总裁Oren Hurvitz称,我们打算把我们所有的服务分散到多个可用区域。
Kitely运行基于OpenSim平台的基于云的虚拟会议和协作环境。Kitely不断地进行检查以保证其服务的正常运行。
Hurvitz称,我们的系统是根据任何服务都可能在任何时间停止工作的假设设计的。如果我们发现一台服务器没有反应,那么,我们就关闭这台服务器并且启动一台新的服务器。
传统的备份
另一家公司没有受到中断故障影响是因为它使用了多个可用区域。这家公司名为Mashery.Mashery向百思买、Hoovers和纽约时报等100多家公司提供应用程序编程接口。但是,Mashery还有另一个备份计划,一个传统的数据中心。
Mashery首席执行官Oren Michels称,我们非常早地认识到可能会出现服务问题使亚马逊完全不可用。我们确定我们需要容错基础设施。我们有Internap公司的专用硬件。
位于亚特兰大的Internap网络服务公司不仅为Mashery提供热备份网站,而且还为需要比云服务速度更快的服务的那些用户提供一个生产环境,或者在亚马逊没有提供服务的地区提供服务。
Michels称,我们在两边都有许多基础设施以处理高峰的工作量。
当Mashery两年前开始建立自己的云基础设施的时候,亚马逊是城里的唯一的真正的运营商。向另一个云进行备份在当时还不是一个选择。但是,现在这可能是一个选择。
Michels称,我们确实在关注这个事情。但是,如果它没有坏,就不要修理它。亚马逊与我们的合作非常好。同样,Internap一直是一个很好的合作伙伴并且继续向我们提供我们所需要的服务。
Michels补充说,Internap甚至降低价格以保持竞争力。不过,价格不是他决策的主要因素。我们有100个大品牌厂商客户。一旦发生故障,丢失大客户的损失会更大。我们的客户向我们付费解决其应用程序编程接口问题。那包括如果发生中断故障,我们能继续保持连接。
市场研究公司Enderle Group的分析师Rob Enderle称,刚刚开始向云过渡的企业在开始的时候通常使用传统的数据中心作为备份。
Enderle称,你可以有一套次要的资源处于待机状态。你可以把容错转移到这些资源。这些资源通常是你向云过渡之前所拥有的设备。你可以容错到较低性能的技术并且仍拥有你的客户。
但是,Enderle警告称,不要多分相信在同一个云服务中使用一套云服务作为另一套云服务的备份。他说,一个冗余的服务可能使用同样的资源作为主要的服务。应该加小心以保证那个冗余的服务是冗余的,而不是重叠的硬件和软件的一个不同的名称。
备用云提供商
使用一个云服务提供商作为一个传统的数据中心的备份主要是为了节省成本,而不是为了采取其它方法。
那是因为采用一个云服务提供商,你为计算周期付费。当没有使用的时候,用户只需要保持最低的计算能力运行以实现迅速的转换,然后根据需要增加更多的服务器容量。
拥有一个传统的数据中心,必须有足够的服务器处理高峰的工作量,尽管这些服务器很少使用。这就涉及到硬件成本以及电源和配备人员的需求。一般来说,一个传统的备份中心会使计算总成本增加一倍,而云备份仅增加一部分成本。
例如,总部设在拉斯维加斯的基于Web的硬盘加密厂商AlertBoot的首席执行官Tim Maliyil称,该公司过去每月支付5万美元电费。他说,我们在一个地方有两个数据中心。你不相信我们关闭它有多么高兴。现在,两个云服务、带宽和托管成本是每月1.6万美元。以前,电和容量的浪费太大了。云服务真正把我们的成本和运营开支减少到最低水平。
向云提供商过渡不是很困难,因为AlertBoot在其传统的数据中心已经在使用VMware的虚拟化软件。该公司选择的两个云提供商SunGard和OpSource也都使用VMware软件。
Maliyil称,从一个云提供商转换到另一个云提供商只需要一两分钟。备份云能够迅速启动以处理增加的工作量。这个转换本身是由一家英国厂商Zeus Technology提供的服务处理的。这家公司帮助企业把应用程序从一个云迁移到另一个云。
Maliyil称,他的公司选择这些厂商是因为这些厂商是以企业级的可靠性而闻名的。对于我们进入的这种业务,我们的客户缺少容错能力。我们已经从亚马逊的基础设施转移到这里。
帮助企业管理在多个云中运行的服务的另一个厂商是rPath.rPath拥有90多个企业用户,大多数是大企业和互联网服务提供商,包括AMD、富士通、高通和EMC.
rPath目前应用16种类型的镜像格式。所谓镜像是在云环境中运行的应用程序的快照。rPath首席营销官Jake Sorofman称,向这个列表中增加另一个云一般需要不到一个星期的时间。这对我们来说是非常容易的一件事。
Sorofman称,rPath目前支持亚马逊EC2、VMware、思杰Zen、微软Hyperv、Rackspace以及其它一些格式。一旦应用程序进入rPath系统,它只需15分钟就能生成一个新的镜像并且把这个镜像部署到一个新的云。
然而,首先为rPath系统设计一个应用程序需要较长的时间。Sorofman称,根据复杂程度的不同,为我们的平台封装一个新的应用程序的过程需要几个小时至几天的时间。但是,我们有一个专业的服务团队。如果客户选择他们的话,他们可以为客户做这些事情。
Sorofman称,许多应用程序已经封装了,包括完整的Windows和Linux操作系统、WebLogi以及WebSphere、SAP、EMC和RSA的产品。使用我们的技术建立模型并且能够使用的完整的堆栈列表还有许多。
Sorofman表示,拥有把更多的应用程序在云中转换的选择不仅为企业提供了备份的选择,而且还允许企业从他们的提供商那里得到尽可能优惠的交易。
Sorofman说,这些选择带来了套利的机会。能够根据性能、政策和价格优化工作量在什么地方运行。在某种程度上,你能够轻松地在亚马逊、Rackspace和其它环境中迁移工作量。因为你消除了厂商锁定,你可以利用你的多个服务提供商。