题 服务器机房里正在燃烧东西;我怎样才能快速确定它是什么?


前几天,我们注意到服务器机房里散发出可怕的燃烧气味。简而言之,它最终成为UPS装置中燃烧的电池模块之一,但是我们花了几个小时才能弄明白。我们能够弄清楚的主要原因是UPS显示屏最终显示需要更换模块。

问题出在这里:整个房间充满了气味。做嗅觉测试非常困难,因为气味已经渗透到了所有东西(更不用说它让我们头晕目眩)。我们几乎错误地把我们的生产数据库服务器关闭了,因为它是气味最强的地方。生命体似乎没问题(CPU温度显示60摄氏度,风扇速度正常),但我们不确定。事实上,燃烧的电池模块与机架上的服务器高度大约相同,距离仅3英尺。如果这是一个真正的紧急情况,我们会悲惨地失败。

实际上,实际服务器硬件烧毁的可能性相当罕见,而且大部分时间我们都会将UPS视为罪魁祸首。但是有几个装有几件装备的架子,它很快就会成为猜谜游戏。 如何快速准确地确定哪些设备实际燃烧? 我意识到这个问题高度依赖于环境变量,如房间大小,通风,位置等,但任何输入都将受到赞赏。


448
2018-04-04 14:22




@DeerHunter嗯,谢天谢地,这是一天的结束,建筑中的人很少。感谢您的建设性批评,我一定会让我的主管知道她决定保持系统的风险。 - Chad Harrison
@hydroparadise - 有人必须有胆量说“停 我们并没有做正确的事情“。如果你的主管不理解安全规则,除了增长一些脊柱而不是屈服于偷工减料的冲动之外,没有太多可以做的事情。 - Deer Hunter
@DeerHunter:当你闻到燃烧的东西时会有什么适当的反应?没有可见的烟雾,只有一股焦灼的气味。您是否关闭整个数据中心,将其放出几个小时,然后逐个打开服务器直到气味恢复?一个小的25机架数据中心可以有1,000台服务器来检查,这是一个“气味”的大量停机时间 - OP没有报告可见的烟雾或火灾。 - Johnny
@Johnny - 引用OP:“整个房间充满了气味。进行嗅觉测试非常困难,因为气味渗入了所有东西(更不用说它让我们头晕目眩)”回答你的问题 - 是的,你必须放空房间,排除故障 系统。其他任何事都是不负责任的。 - Deer Hunter
那么,批评OP对气味处理的批评是否表明气味和火/烟之间的紧迫性没有区别?如果你闻到房子里燃烧的东西,但看不到烟雾,也没有听到任何警报,你会把你和你的家人赶出家里拨打911吗? - trpt4him


答案:


普遍的共识似乎是你的问题的答案分为两部分:

我们如何找到有趣燃烧气味的来源?

你已经很好地确定了“如何”:

  • “嗅探测试”
  • 寻找可见的烟雾/烟雾
  • 使用热(IR)相机走进房间,找到热点
  • 检查监控和设备面板是否有警报

您可以通过多种方式快速提高发现问题的机会 - 改进监控通常是最简单的方法。有些问题要问:

  • 您是否从您的设备获得温度和其他健康警报?
  • 您的UPS系统是否向您的监控系统报告故障?
  • 您是否从配电设备获得电流报警?
  • 房间的烟雾探测器是否向监控系统报告? (和 他们可以吗?

我们应该何时进行故障排除而不是击中Big Red Switch?

这是一个更有趣的问题。
点击大红色开关可能会使公司花费大量资金匆忙:清洁代理商发布可能会达到数万美元,紧急停电后中断/恢复成本(EPO,“放下房间”) )可能是毁灭性的。
您不希望丢弃数据中心,因为电源中的电容器弹出并使房间有异味。

相反,服务器机房中的火灾可能会使您的公司损失其数据/设备,更重要的是您的员工的生命。
排除“那种有趣的燃烧气味”绝不应该优先于安全因此,制定一些关于排除“预发射”条件的明确规则非常重要。

以下指南是 我个人的局限 我在没有(或除此之外)任何其他明确定义的程序/规则的情况下申请 - 他们很好地帮助了我,他们可以帮助你,但他们可能很容易让我在明天被杀或被解雇,所以将它们应用于你的个人风险。

  1. 如果你看到烟雾或火,请放下房间
    这应该是不言而喻的,但无论如何我要说:如果有活火(或烟雾表明很快就会出现),你撤离房间,切断电源,然后放电灭火系统。
    可能存在例外(运用一些常识),但这几乎总是正确的行动。

  2. 如果您正在进行故障排除,请至少让其他人参与其中
    这有两个原因。首先,你不想在数据中心闲逛,突然间有一个架子在你走下去的行中,没有人知道你在那里。其次,另一个人是您在排除故障时的理智检查而不是放弃房间,如果您打电话给大红色开关,您可以让第二个人同意该决定(有助于避免职业限制方面)如果有人稍后提出质疑,请做出这样的决定。

  3. 在排除故障时采取谨慎的安全措施
    确保始终有一个逃生路径(行的开放端和通向出口的畅通路径)。
    让某人驻扎在EPO /灭火释放器上。
    随身携带灭火器(请使用哈龙或其他清洁剂)。
    记住上面的规则#1。
    有疑问时, 离开这个房间。 注意呼吸:使用呼吸器或氧气面罩。这可能会在发生化学火灾时保护您的健康。

  4. 设定限制并坚持下去
    更准确地说,设定  限制:

    • 条件 (“我会让这更糟糕吗?”),和
    • 时间 (“在风险太高之前,我会一直试图找到问题多长时间?”)。

    您设置的限制也可用于让您的团队开始有序关闭受影响的区域,所以当您  拉动电源你不会崩溃一堆活动的机器,你的恢复时间会短得多,但请记住,如果有序关机耗时太长,你可能不得不让一些系统以安全的名义崩溃。

  5. 相信你的直觉
    如果您在任何时候都担心安全问题,请关闭故障排除并清理房间。
    您可能会或可能不会根据直觉感到放弃房间,但在(相对)安全的房间外重新组合是谨慎的。

如果没有迫在眉睫的危险,您可以选择在采取EPO或清洁剂释放等任何激烈行动之前带入当地消防部门。 (无论如何,他们可能会告诉你这样做:他们的任务是保护人民,然后保护财产,但他们显然是处理火灾的专家,所以你应该按照他们的说法做!)

我们在评论中已经解决了这个问题,但也可以在答案中进行总结 - @ DeerHunter,@ Chris,@ Sirx和许多其他人参与讨论


380
2018-04-04 14:29



大学我去安装了一个新的数据中心。他们实施了一个高度复杂的EPO /灭火系统。它所保护的设备价值数百万美元,而且还被用于学校医疗部门数百万美元的研究。显然,如果需要红色按钮会被击中但是,如果是红色按钮则说 是 点击,只是重置它接近20万美元。 纳税人美元 你可以肯定,如果开关在不需要的时候被击中,那么击中它的人将不再有工作。 - Ryan
为好友系统+1。我认为有一点可靠,那里有使用EPO的DC还可以进行灭火。在很多情况下你都想要EPO,而不想将电击器上的halotron转移。 EPO是一个严肃的协议,但不是“摧毁DC有点交易中的一切”或至少不应该。 DC中的那些人应该希望能够很好地理解大红色按钮和灭火系统,以便衡量按下按钮的效果。实际上可能是EPO 停 例如,火灾并保存DC。 - chris
我没有看到的一个重要注意事项是,大多数情况下,当某些东西出现故障时,会发出燃烧的气味,无论燃烧的是什么 在检测到气味之前自行熄灭 并且在设备故障之外没有燃烧任何东西。有时一件设备只要有电就会继续闷烧,但如果有人看到烟雾,就应该可以识别设备,切断电源,看看烟雾是否会很快消失或不断恶化。 - supercat
@ryan:如果按下大红色按钮会花费这么多纳税人的钱,那么负责人就有希望制定一个计划来解决与当地消防部门有关的小事故,这些事件并不会危及员工。 - Christoph
@ryan这让我想起了我最近看到的有关CERN的电视报道:相机团队和记者真的被系统的内心所吸引,有一次是摄影师之一 几乎 用他的背包砸了一个红色的紧急关闭按钮 - 给那些考虑重新启动成本的员工提供近乎心脏病的攻击...... - Hagen von Eitzen


热像仪可以完成工作,让您确定过热的位置。 像这样的设备可以让你识别火焰的来源或在充满烟雾的房间里燃烧。


182
2018-04-05 04:59



如今,热成像摄像机的使用范围非常广泛,如果您正在运行大型服务器机房,那么它们是值得拥有的工具。 - rackandboneman
一个T.I.C.不是那么昂贵,在数据中心或大型服务器机房非常有用。不仅在电缆或设备过热等问题的情况下,而且还作为问题的预防或早期检测,制冷优化,气流等。 - ddalcero
像激光温度枪一样 这个,是一个便宜的替代品 - MichaelHouse
@mfinni电工也经常使用热像仪。 (每年我们的配电盘的热成像检查,或在任何主要布线工作之后,当我在托管公司工作时是标准的)。 - voretaq7
热像仪具有非常大的局限性:1。视野可能会妨碍使用2.您的环境可能非常密集。 [将发现大火但不是小火灾] 3.需要平均温度来确定阈值 - monksy


你不做这些事 已经说过了。你离开了危险的环境,因为通过整个房间抽水的任何东西都会对你的健康造成危害,并且可能会使你的肺部陷入困境。如果房间里有一些你无法找到的东西燃烧的刺鼻气味,请致电(911 | 112 | 999 |任何紧急电话号码适合您所在的司法辖区)并让火(公司|部门|)将它们排除在外“重新装上瓶装空气。

计算机部件包含各种有趣的化学物质,包括 和很多塑料外壳。请注意,我所做的所有链接都解释了低水平暴露如何导致持久性伤害甚至快速死亡。这是一个可以的环境 立即危及生命和健康

......真的,如果有东西燃烧,不要花几个小时嗅闻。 如果您无法识别它并立即采取措施控制它,请离开。


137
2018-04-04 14:27



应该补充的是,如果这种情况发生在一个“真实”的数据中心,烟雾探测器与空调和安装的灭火系统集成在一起,火灾报警器就会熄灭,房间将被密封并自动充满氩气或二氧化碳,所以甚至没有想过跑来跑去嗅探设备。 - the-wabbit
@ syneticon-dj这取决于 类型 安装了探测器。电离探测器可能已经熄灭了火焰抑制,但我已经在(并且目前在主机设备处)有光学烟雾探测器的地方工作 - 那些在它们绊倒之前需要可见烟雾(或至少是良好的雾度)。 - voretaq7
我希望我能更多地投票。冒着争议的风险,“获得专业”消防员是前进的唯一途径。 - Iain
是的,作为一名前消防员,如果没有我的装备我就不会留在那里。即使在火灾发生时,我们也会受到训练,因为有毒气体而无法打包。如果我打电话给专业人士,你也应该! - Jeff Ferland
@Michael我见过的设计并不依赖于天花板烟雾探测器,而是在回风气流中有光电探测器。我唯一一次看到它触发的是在一个测试程序中,在该测试程序中,氩气系统已被拆卸,并且烟雾源已被放置在其中一个壁橱中。它起作用我希望它起作用。值得庆幸的是,我从来没有处理过真正的火灾。 - the-wabbit


如果您对UPS进行了适当的监控(通常是通过SNMP),则设备本身应该响应监控系统上的铃声。如果没有,请与您的供应商讨论。它出现故障或您的监控系统配置不正确。

如果活动的某些东西实际上正在燃烧,它应该以某种方式抱怨它,或者只是离开网络,这也应该引起警报。

如果它类似于通过绝缘体燃烧的实际电源轨,并且它不在智能PDU上,那么我们回到原来的问题,即“如何找到燃烧的东西?”我认为正确的答案是“击中EPO并弄清楚。你的生产服务器可能不够重要,不会冒生命危险。”


76
2018-04-05 10:49



EPO是什么意思? - Midhat
紧急电源关闭...大红色按钮,切断房间的所有电源。主要是因为它着火了。 - Grant
一个强调+1,将投票+1,000。按下按钮,撤离,等待,以后再解决问题。像往常一样做生意火灾和烟雾(并试图解决任何问题)是工程师可能犯的最严重的错误之一。 - Deer Hunter
@chris我必须尊重“EPO,离开,等待” - 激活EPO和/或清洁剂释放到一个充满生产设备的房间通常是我们喜欢称之为 职业限制移动。如果没有 活跃,可见 来自某些进行初步调查的设备的火灾或烟雾通常是正确的事情。当然,你应该准备好在你的调查中的任何一点点击适当的红色按钮时从房间里闩上。 - voretaq7
甚至一个完美的监控系统也可能不会发现这一点,直到UPS面板说“更换模块”的同一时间 - 据说你当然希望你的监控系统能够引起你的注意。下一次模块可能在星期五19:30失败,当时没有人,并且监控警报会让你回来并在问题发展成为一个完全成熟的紧急情况之前处理问题。如果您可以将监控系统连接到您的FACP,您的烟雾和/或热传感器甚至可能会警告您有关电源导轨等的绝缘材料烧毁情况。 - voretaq7


这是其中一种情况

XKCD Die Hard sysadmin

不适用,你应该打电话给专业人士

Firefighter in protective gear

其他任何东西都是愚蠢的。


43
2018-04-05 12:50



这显然是最好的答案。 :) - Citizen
@Navin没有 您 不要消防部门的人这样做。 - Iain


作为一个以前的职业生涯是电子技术的人,我有“燃烧的气味”的经验,而不是火灾。这并不罕见。

我不会因为气味而关闭数据中心。烟是另一回事,有些东西真的在燃烧(通常,但是豌豆大小的钽电容器也可以在房间内充满烟雾)。令人惊讶的是,电源中的油炸组件可以产生多少气味。

TIC或IR温度计(一种有用的工具,比TIC便宜很多)不一定会显示它,因为该组件根本不会产生太多热量而且它在一个箱子里面。但检查设备无法正常工作,请使用监控工具。对于这样的气味,95%的时间它将成为影响整个设备性能的电源。


40



+1,吹制电源很常见。在大多数具有高气流速率的数据中心中,烟雾被快速吹走,并且难以找到气味源。然而,在一个小房间里,气味可能非常糟糕,并且可以迅速蔓延到整个房间。 - Stefan Lasiewski


我喜欢红外成像或温度计的答案,但也许有助于真正的“气味探测器”。毕竟触发你的谨慎是气味。烟,热,红外线等都是代理人。

像这样的东西: from Shinyei 。我个人从未使用它们,甚至没有看到它们在数据中心中使用过。但至少在理论上它应该是一个简洁的工具。如果你有钱花在这个小发明上。

http://www.sca-shinyei.com/odormeter 要么 http://www.intopsys.com/products/cyranose.html?gclid=CNXXzOrLs7YCFUws6wodViYApQ

它为您提供气味强度和分类。因此应该可以归巢到气味上。恶魔的细节当然。它是多么敏感,掩盖了虚假的背景气味等。

与纯温度测量相比的一个优点是通常在更早的点或阈值处发生气味。或者,如果过热的部件被身体/隐藏的布线等隐藏,则比检测视线热点更容易检测到逃逸的分子。

另一种情况是与热有关的气味。我们之前有冷却回路泄漏,冷却剂气味也很特殊。我甚至不会进入现在古老的死于啮齿动物的病例。 :)

我很惊讶这些传感器有多敏感。显着的硫化氢/硫醇等(通常的罪魁祸首)可在亚ppm级别检测到。

enter image description here


19