全球主机论坛

 找回密码
 立即注册

QQ登录

只需一步,快速开始

查看: 56|回复: 0

如何预防数据中心停电而造成的损失

[复制链接]
发表于 2017-8-11 17:17:29 | 显示全部楼层 |阅读模式
如何预防数据中心停电而造成的损失
当市场上没有可用的基础设施技术,或者当他们觉得可以节约该成本的时候,像亚马逊这类的超大型数据中心运营商自然而然地会构建自己特有的基础设施技术。
亚马逊内置的一项技术是为了避免公司的一名顶级基础设施工程师所形容的事情的发生,那就是——避免像电气开关设备供应商那样不分主次地设计他们的产品。
正是这个问题导致了去年夏天达美航空公司数据中心发生的中断事件以及2013年“超级杯”举办期间臭名昭著的停电事件的发生,而达美航空公司最终因此损失了1.5亿美元。亚马逊网络服务的副总裁兼杰出工程师John Hamilton在他监管的数据中心中也遭遇过这种意外。(更多文章阅读:主机cn.bluehost.com)
他在个人博客的一篇博文中写道:“我在工作生涯中亲身遭遇过两次这样的事件,而且规模要更大。”我们不知道当这些意外发生的时候他在哪里就职,但这位工程师在加入亚马逊之前曾在微软工作过大约10年的时间。
Hamilton并没在他的博文中特别指明该公司是达美航空公司,但去年夏天只有一家主要航空公司的数据中心发生了中断事件,且该航空公司后面公布了九位数的损失。
参见:如何避免因云服务中断而造成的损失
亚马逊为避免这种停电事件的发生而设计了一个固件,它决定了当数据中心被切断公用电源时电气开关柜应该做的事。据Hamilton所述,典型的供应商固件优先考虑的是防止损坏昂贵的备用发电机,而不是避免数据中心完全停电事件的发生。亚马逊(或许还有大多数其他大型数据中心运营商)都宁愿冒着损失低于100万美元设备的风险,都不要冒着广泛的应用程序停机的风险。
在公用设施停电期间(大多数时候都是这种情况),当每件事如预期那样发生时,开关柜会先等待几秒钟以防止公用电源恢复(这也是最常见的情况)。如果这种情况并没有发生的话,开关柜就会启动发电机,而数据中心就能靠着UPS系统中存储的电力运行了。当发电机稳定下来后,开关柜就会使它们成为IT系统的主要电力来源。
达美航空公司去年发生的数据中心停电事件归因于开关柜“锁定了”该公司位于亚特兰大的发电机,而大多数开关柜在数据中心或输入电力供电中感测到主要电压异常时都会对发电机进行锁定。将可用发电机插入短路电路通常会烧毁发电机,所以开关柜才会将发电机锁定以避免其烧毁。
参见:数据中心的冷却中断干扰了日本的Azure Cloud云服务
在大多数情况下,这种意外发生在建筑物之外,因此这个设计只会造成数据中心的停电,Hamilton这样写道。(他目睹的两起事件都是由于汽车撞倒了电报传输电缆所造成的)。在极少数情况下,当数据中心内部发生了短路时,分支断路器会打开,接着它馈送的服务器会切换到次级电源,或(如果配电系统中的故障程度较高或断路器未能打开)发电机在未锁定时会被损坏。
他还写道:“我宁愿冒着损失低于100万美元的设备的风险,也不要让负荷下降。 如果只有一个客户可能会亏损1亿美元,那么保护发电机就不是正确的优先事项了。”
当亚马逊工程师要求其开关柜制造商取消他们固件中的锁定状态时——意味着他们已经了解了并愿意接受潜在设备故障的发生,供应商拒绝了该要求,这就使得亚马逊不得不决定自行生成固件。
Hamilton写道:“我很幸运能够为一个高规模的运营商工作,在这里即使是为了避免一个罕见的故障而定制工程都具有极好的经济意义。因此,我们在几年前就解决了这种特定的故障模式。”

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|Archiver|小黑屋|全球服务器论坛

GMT+8, 2024-10-10 20:13 , Processed in 1.528802 second(s), 18 queries , File On.

Powered by Discuz! X3.5

Copyright © 2001-2024 Tencent Cloud.

快速回复 返回顶部 返回列表