前几天,我们注意到服务器机房里散发出可怕的燃烧气味。简而言之,它最终成为UPS装置中燃烧的电池模块之一,但是我们花了几个小时才能弄明白。我们能够弄清楚的主要原因是UPS显示屏最终显示需要更换模块。
问题出在这里:整个房间充满了气味。做嗅觉测试非常困难,因为气味已经渗透到了所有东西(更不用说它让我们头晕目眩)。我们几乎错误地把我们的生产数据库服务器关闭了,因为它是气味最强的地方。生命体似乎没问题(CPU温度显示60摄氏度,风扇速度正常),但我们不确定。事实上,燃烧的电池模块与机架上的服务器高度大约相同,距离仅3英尺。如果这是一个真正的紧急情况,我们会悲惨地失败。
实际上,实际服务器硬件烧毁的可能性相当罕见,而且大部分时间我们都会将UPS视为罪魁祸首。但是有几个装有几件装备的架子,它很快就会成为猜谜游戏。 如何快速准确地确定哪些设备实际燃烧? 我意识到这个问题高度依赖于环境变量,如房间大小,通风,位置等,但任何输入都将受到赞赏。
普遍的共识似乎是你的问题的答案分为两部分:
我们如何找到有趣燃烧气味的来源?
你已经很好地确定了“如何”:
- “嗅探测试”
- 寻找可见的烟雾/烟雾
- 使用热(IR)相机走进房间,找到热点
- 检查监控和设备面板是否有警报
您可以通过多种方式快速提高发现问题的机会 - 改进监控通常是最简单的方法。有些问题要问:
- 您是否从您的设备获得温度和其他健康警报?
- 您的UPS系统是否向您的监控系统报告故障?
- 您是否从配电设备获得电流报警?
- 房间的烟雾探测器是否向监控系统报告? (和 他们可以吗?)
我们应该何时进行故障排除而不是击中Big Red Switch?
这是一个更有趣的问题。
点击大红色开关可能会使公司花费大量资金匆忙:清洁代理商发布可能会达到数万美元,紧急停电后中断/恢复成本(EPO,“放下房间”) )可能是毁灭性的。
您不希望丢弃数据中心,因为电源中的电容器弹出并使房间有异味。
相反,服务器机房中的火灾可能会使您的公司损失其数据/设备,更重要的是您的员工的生命。
排除“那种有趣的燃烧气味”绝不应该优先于安全因此,制定一些关于排除“预发射”条件的明确规则非常重要。
以下指南是 我个人的局限 我在没有(或除此之外)任何其他明确定义的程序/规则的情况下申请 - 他们很好地帮助了我,他们可以帮助你,但他们可能很容易让我在明天被杀或被解雇,所以将它们应用于你的个人风险。
如果你看到烟雾或火,请放下房间
这应该是不言而喻的,但无论如何我要说:如果有活火(或烟雾表明很快就会出现),你撤离房间,切断电源,然后放电灭火系统。
可能存在例外(运用一些常识),但这几乎总是正确的行动。
如果您正在进行故障排除,请至少让其他人参与其中
这有两个原因。首先,你不想在数据中心闲逛,突然间有一个架子在你走下去的行中,没有人知道你在那里。其次,另一个人是您在排除故障时的理智检查而不是放弃房间,如果您打电话给大红色开关,您可以让第二个人同意该决定(有助于避免职业限制方面)如果有人稍后提出质疑,请做出这样的决定。
在排除故障时采取谨慎的安全措施
确保始终有一个逃生路径(行的开放端和通向出口的畅通路径)。
让某人驻扎在EPO /灭火释放器上。
随身携带灭火器(请使用哈龙或其他清洁剂)。
记住上面的规则#1。
有疑问时, 离开这个房间。
注意呼吸:使用呼吸器或氧气面罩。这可能会在发生化学火灾时保护您的健康。
设定限制并坚持下去
更准确地说,设定 二 限制:
- 条件 (“我会让这更糟糕吗?”),和
- 时间 (“在风险太高之前,我会一直试图找到问题多长时间?”)。
您设置的限制也可用于让您的团队开始有序关闭受影响的区域,所以当您 做 拉动电源你不会崩溃一堆活动的机器,你的恢复时间会短得多,但请记住,如果有序关机耗时太长,你可能不得不让一些系统以安全的名义崩溃。
相信你的直觉
如果您在任何时候都担心安全问题,请关闭故障排除并清理房间。
您可能会或可能不会根据直觉感到放弃房间,但在(相对)安全的房间外重新组合是谨慎的。
如果没有迫在眉睫的危险,您可以选择在采取EPO或清洁剂释放等任何激烈行动之前带入当地消防部门。 (无论如何,他们可能会告诉你这样做:他们的任务是保护人民,然后保护财产,但他们显然是处理火灾的专家,所以你应该按照他们的说法做!)
我们在评论中已经解决了这个问题,但也可以在答案中进行总结 - @ DeerHunter,@ Chris,@ Sirx和许多其他人参与讨论
热像仪可以完成工作,让您确定过热的位置。
像这样的设备可以让你识别火焰的来源或在充满烟雾的房间里燃烧。
你不做这些事 已经说过了。你离开了危险的环境,因为通过整个房间抽水的任何东西都会对你的健康造成危害,并且可能会使你的肺部陷入困境。如果房间里有一些你无法找到的东西燃烧的刺鼻气味,请致电(911 | 112 | 999 |任何紧急电话号码适合您所在的司法辖区)并让火(公司|部门|)将它们排除在外“重新装上瓶装空气。
计算机部件包含各种有趣的化学物质,包括 汞, 镉, 铅和很多塑料外壳。请注意,我所做的所有链接都解释了低水平暴露如何导致持久性伤害甚至快速死亡。这是一个可以的环境 立即危及生命和健康。
......真的,如果有东西燃烧,不要花几个小时嗅闻。 如果您无法识别它并立即采取措施控制它,请离开。
如果您对UPS进行了适当的监控(通常是通过SNMP),则设备本身应该响应监控系统上的铃声。如果没有,请与您的供应商讨论。它出现故障或您的监控系统配置不正确。
如果活动的某些东西实际上正在燃烧,它应该以某种方式抱怨它,或者只是离开网络,这也应该引起警报。
如果它类似于通过绝缘体燃烧的实际电源轨,并且它不在智能PDU上,那么我们回到原来的问题,即“如何找到燃烧的东西?”我认为正确的答案是“击中EPO并弄清楚。你的生产服务器可能不够重要,不会冒生命危险。”
作为一个以前的职业生涯是电子技术的人,我有“燃烧的气味”的经验,而不是火灾。这并不罕见。
我不会因为气味而关闭数据中心。烟是另一回事,有些东西真的在燃烧(通常,但是豌豆大小的钽电容器也可以在房间内充满烟雾)。令人惊讶的是,电源中的油炸组件可以产生多少气味。
TIC或IR温度计(一种有用的工具,比TIC便宜很多)不一定会显示它,因为该组件根本不会产生太多热量而且它在一个箱子里面。但检查设备无法正常工作,请使用监控工具。对于这样的气味,95%的时间它将成为影响整个设备性能的电源。
我喜欢红外成像或温度计的答案,但也许有助于真正的“气味探测器”。毕竟触发你的谨慎是气味。烟,热,红外线等都是代理人。
像这样的东西:
。我个人从未使用它们,甚至没有看到它们在数据中心中使用过。但至少在理论上它应该是一个简洁的工具。如果你有钱花在这个小发明上。
http://www.sca-shinyei.com/odormeter
要么
http://www.intopsys.com/products/cyranose.html?gclid=CNXXzOrLs7YCFUws6wodViYApQ
它为您提供气味强度和分类。因此应该可以归巢到气味上。恶魔的细节当然。它是多么敏感,掩盖了虚假的背景气味等。
与纯温度测量相比的一个优点是通常在更早的点或阈值处发生气味。或者,如果过热的部件被身体/隐藏的布线等隐藏,则比检测视线热点更容易检测到逃逸的分子。
另一种情况是与热有关的气味。我们之前有冷却回路泄漏,冷却剂气味也很特殊。我甚至不会进入现在古老的死于啮齿动物的病例。 :)
我很惊讶这些传感器有多敏感。显着的硫化氢/硫醇等(通常的罪魁祸首)可在亚ppm级别检测到。
