大型服务器场如何优雅地关闭所有或部分服务器场?我正在考虑计划内和计划外的情况,例如:
- “我们需要关闭 Rack 42”
- “我们需要对整个街区的供电进行工作”
- “停电!UPS 的果汁快用完了!啊!”
- “空调下降,空气温度为 125F 并且正在攀升”
我感兴趣的问题是人们如何处理测序,以及如何启动整个事情。我还想到,这很容易与启动和关闭服务以及软件升级系统混为一谈。
(在这一点上,我更多是出于好奇而询问。)
大型服务器场如何优雅地关闭所有或部分服务器场?我正在考虑计划内和计划外的情况,例如:
我感兴趣的问题是人们如何处理测序,以及如何启动整个事情。我还想到,这很容易与启动和关闭服务以及软件升级系统混为一谈。
(在这一点上,我更多是出于好奇而询问。)
计算机重新联机时比运行时使用的电量要多得多,因为它们必须让所有的盘片和风扇都旋转,通常有大量的 CPU 活动来启动所有应用程序,等等。大多数商店都会有一套让初创公司错开的顺序,所以他们不会把赛道弄得筋疲力尽,而必须重新开始。如果您有一堆希望与数据库通信的应用程序,或者一堆需要与应用程序服务器通信的 Web 服务器,这一点也很重要。您通常从下往上开始,将启动错开 30 秒到一分钟,具体取决于您的电路中有多少个盒子。
啊,现在我更清楚地理解了你的问题。
dataprobe 的iBootBar等产品允许您监控和管理远程设备的电源。智能系统可以监控每个设备的电流消耗,以验证其是否在标称限制内运行。如果没有,它可以使设备离线并在线更换备用设备,观察初始浪涌并等待电源稳定后再打开下一个设备。
一种方法是在临时热交换上镜像实时机器,并假设通过网络访问,通过重新配置路由器将流量转移到镜像来进行切换。对于计划外的中断,此过程可以自动化。
对于计划内的维护,有些人只是简单地通知他们的用户系统将在某个窗口期间不可用。
冗余电源和燃气发电机可处理大多数与电力相关的问题,同样具有自动故障转移功能。
请记住,“大型服务器场”旨在永远不会关闭,除非他们有义务这样做。这意味着这是一个可能的但很遥远的事件,当它发生时,你真的很着急。所有其他用例,例如关闭机架或在电源线上工作,都将尽可能提前计划。
当事情真的出错时,你实际上会很着急。
例如发电机用完燃料(通常他们会保留至少一整天的储备,并有合同及时补充,所以我们在这里谈论的是大灾难)或类似事件,你会知道的将有数小时的时间来关闭事物。或者 HVAC 系统完全失效,那么您只有几分钟的时间在温度升高太多之前关闭所有设备。
我不是这里的专家,在路障的另一边(数据中心的客户),但我认为他们将有系统来命令关闭他们控制的所有系统,他们只会切断电源客户的系统,他们无法控制并正确关闭。
当所有系统重新上线并准备好满负荷运行时(UPS、发电机、HVAC 等),农场最终将一次重新启动一个区域,一次一个机架。当他们完全控制系统(即,不是客户系统,而是私人农场)时,他们通常会逐渐将交流电引入所有电路,并且服务器将自动启动(如果配置为这样做,许多服务器甚至可以设置例如“在最多 X 分钟的随机时间后开机”),或者它们将被命令通过 IPMI 或类似系统等熄灯管理来开机。