题 更好的做法是单独购买RAID磁盘而不是批量购买?


这可能听起来像一个奇怪的问题,但它与我的一些同事产生了一些激烈的讨论。考虑一个中等大小的RAID阵列,包括八个或十二个磁盘。购买初始批量磁盘,或购买替换件以扩大阵列或刷新硬件时,可以采取两种广泛的方法:

  1. 从一个供应商处购买一个订单中的所有驱动器,并接收一个包含所有磁盘的大盒子。
  2. 从各种供应商订购一个磁盘,和/或分散(在几天或几周的时间内)每个磁盘的几个订单。

显然,有一些中间立场,但这些是主要的反对心态。我真的很好奇哪种方法在降低阵列灾难性故障的风险方面更为明智。 (让我们定义为“25%的磁盘在一个时间窗口内失败,等于一次重新激活阵列所需的时间。”)逻辑是,如果所有磁盘来自同一个地方,它们可能都具有相同的等待罢工的潜在缺陷。同一时间炸弹与时钟相同的初始倒计时,如果你愿意的话。

我为每种方法收集了一些更常见的优缺点,但其中一些感觉像是猜想和直觉,而不是基于证据的硬数据。

专业人士一次购买

  • 减少研究/订购阶段的时间。
  • 如果供应商收费,请尽量减少运费。
  • 磁盘几乎可以保证具有相同的固件版本和操作特性(温度,振动等)相同的“怪癖”
  • 价格上涨/库存短缺不太可能使项目中途停滞。
  • 当需要安装时,每个下一个磁盘都在手边。
  • 序列号都是预先知道的,磁盘可以按序列号增加的顺序安装在机箱中。似乎过于挑剔,但有些人似乎很重视。 (我猜他们的管理界面按序列号而不是硬件端口顺序对磁盘进行排序......?)

一次购买,缺点

  • 所有磁盘(可能)来自同一工厂,由同一材料制成。它们存储在同一环境中,并在运输过程中受到相同的潜在滥用。一个中存在的任何缺陷或损坏都可能存在。
  • 如果将驱动器一次一个地更换为现有阵列,并且每个新磁盘需要单独进行重新安装,则可能需要数周才能安装订单中的最后一个磁盘并发现其有故障。与供应商的退货/更换窗口可能在此期间到期。
  • 无法利用项目期间可能发生的近期价格下降。

单独购买,专业

  • 如果一个磁盘发生故障,它与任何其他磁盘共享很少的制造/传输历史记录。如果故障是由制造或运输中的某些原因引起的,则根本原因可能不会发生在任何其他磁盘中。
  • 如果磁盘在到达时死机或在使用的第一个小时内发生故障,将在货物到达后不久检测到,并且返回过程可能会更顺利。

单独购买,缺点

  • 需要花费大量时间才能找到价格合理的供应商。解决订单跟踪,交货失败,损坏的退货和其他问题可能非常耗时。
  • 运费可能会更高。
  • 一个非常现实的可能性是需要一个新的磁盘,但没有一个将在现有,拖延项目。
  • 想象中的好处。无论购买的供应商或日期如何,所有磁盘都来自同一个地方并且实际上是相同的。通过质量控制可以检测到制造缺陷,并且不会出售不合标准的磁盘。运输损坏必须如此恶劣(并且肉眼可见),拆开时损坏的驱动器将是显而易见的。

如果我们只是通过子弹点计数,“批量购买”非常清楚地获胜。但是一些职业选手很弱,有些缺点很强。许多要点仅仅说明了其他一些要素的逻辑反转。其中一些可能是荒谬的迷信。但是,如果迷信在保持阵列完整性方面做得更好,我想我会愿意接受它。

哪个群体最明智?

更新: 我有与此讨论相关的数据。我个人建立的最后一个阵列(大约四年前)有八个磁盘。我从一家供应商处订购,但将购买分成两个订单,每个订单包含四个磁盘,相隔约一个月。阵列的一个磁盘在运行的最初几小时内失败。它来自第一批,该订单的返回窗口在旋转所有内容的时间内关闭。

四年后,七个原始磁盘加上一个替换仍然没有运行。 (敲木头。)


93
2017-08-23 16:01




这个问题来自我+1,因为我自己想知道它已经有一段时间了。我有 无疑 看到大文件服务器的硬盘驱动器大约在同一时间到达浴缸曲线末端的现象,但通常这些服务器的批准供应商的数量相当少,因此“购买许多地方”的方法非常困难。我很期待看到答案 真实数据 在他们中。 - MadHatter
回覆。您的更新:这是一个单一的数据点。对数千个磁盘重复此操作以获取任何有用的指标。这很难做到,特别是在磁盘产品周期短的情况下,导致缺少这种数据。 - Sven♦
我似乎记得在某个时候回来同意meta 最佳实践 问题是关于主题的,只要它们不仅仅产生一堆轶事。我希望这个问题有一些很好的答案,我认为我们应该给它一个机会。 - MadHatter
@Sven谢谢,你是个绅士;在这里希望。对于任何潜在的回答者: 请给我们数据,而不是轶事。 - MadHatter
我通过raid管理了很多机器。 所有磁盘最终都会失败 所以手头上有足够的备件,你可以在最早的通知中交换它们,可能是预失败而不是等待完全失败。 - Criggie


答案:


在实践中,从企业供应商(HPE,戴尔等)购买的人 不要担心这个

这些供应商采购的驱动器已经分布在多个制造商的相同部件号下。

特定SKU下的HP磁盘可以是HGST或Seagate或Western Digital。

相同的HP部件号,制造商,批号和固件的变化 enter image description here

但是,您不应该试图超越/智胜批次失败的可能性。如果它让您高枕无忧,欢迎您尝试,但它可能不值得努力。

集群,复制和固态备份等良好实践是批量故障的真正保护。添加冷热备件。密切监控您的系统。利用像ZFS这样的智能文件系统:)

请记住,硬盘驱动器故障并不总是机械故障......


56
2017-08-23 16:29



然而,存储/运输方面仍在发挥作用。如果HP或FedEx库房中的某个人放下一个装满磁盘的盒子,它可能会影响整个收到的批次。 - smitelli
@smitelli好的。备份,RAID,复制,DR,备件。所有驱动器一次性失败的可能性很小,这不是大多数应该准备遇到的问题。 - ewwhite
需要注意的是,我在亚马逊的一个订单中为SW RAID盒子购买了5个消费级存档驱动器。第一个在48个月后失败了。第二个,53个月。第三和第四次在第55个月的2周内失败,最后一次在57个月失败。幸运的是我使用的是3路冗余,但仍然......不是我预期的。我不知道连续剧是顺序的,但驱动器本身基本相同。 - MooseBoys
@ewwhite是的, 但 如果您一次性订购10个相同的SKU,那么他们不太可能来自多个供应商,而不是每月订购1个。这就是我要说的。 - Kaithar
这个答案似乎有点自以为是,似乎没有任何争论为什么它可能是真的...你和戴尔订购的所有人谈过了吗?关于智能批处理失败的“智能”是什么?实际上是吗? 好 那些人做你想做的事情吗? - AnoE


根据ewwhite的回答,一些系统管理员会批量订购。我本人永远不会单独订购驱动器,但在我工作的最后一个地方的标准操作是批量订购驱动器。对于12驱动机器,SOP规定驱动器分为三批,为机器提供三层冗余配置文件。

但是,我咨询过的其他小型服装遵循不同的协议,有些不关心批次,有些则将批次分成两个或四个数组。简短的回答是 做适合您需要达到的服务水平的事情。

旁注:我工作的最后一个地方当然是做正确的事情。应用程序存储计算机决定在整批驱动器上失败,我们发现这个特定的批处理器都有同样的错误。如果我们没有遵循批处理协议,我们将遭受灾难性的数据丢失。


43
2017-08-23 17:44



我会考虑在前面做那个旁注! - Oddthinking


一个人花了很多时间处理垂死的raid阵列和困难驱动器的人的诚实回答:如果可以避免,请不要使用同一批次的所有驱动器。

我的经验仅适用于旋转磁盘,SSD在批量订购时有自己的问题和好处。

处理事情的最佳方式主要取决于您使用的阵列有多大,如果您正在使用具有2个驱动器冗余的6个驱动器阵列,您可以安全地从3个制造商处购买类似的驱动器并拆分阵列像那样。

如果您正在使用奇怪的驱动器,或者您正在使用无法轻松分区的阵列,您可以尝试其他方法,例如从不同供应商处购买相同的驱动器,或者如果您批量购买,则可以查看并尝试根据一起制造的可能性来分离驱动器。

如果您使用正确的底层技术运行足够小的阵列,那么甚至可能值得花时间从异构磁盘耗材中逐步构建它。从您可以获得的最少数量的驱动器开始,并在一两个月之后购买下一个供应,或者当您填满系统时。这也让您感觉到您选择的特定型号可能存在​​的任何问题。

这个建议背后的原因是两个驱动器的怪癖的组合。

  1. 当你有很多具有类似起源的驱动器时,MTBF会被严重破坏。在统计学中,我们称之为采样偏差,因为样本中的相似性,平均效应往往不太有用。如果批次或设计本身出现故障,并且发生频率超出您的想象,则该批次的驱动器将比MTBF建议的更快失败。

    如果驱动器分散,您可能会得到[50%,90%,120%,200%]的MTBF,但如果所有驱动器都来自50%批次,那么您手上就会弄得一团糟。

  2. Raid阵列重组会杀死磁盘。不完全是。如果您遇到驱动器故障并且阵列重建,则会在扫描其他驱动器时对其他驱动器施加额外负载。如果您的驱动器接近故障,则重建可能会将其取出,或者它可能已经存在您不知道的故障位置,因为该部分最近未被读取。

    如果您从同一批次中获得了大量驱动器,那么这种级联故障发生的可能性远高于它们不同的机会。您可以通过定期巡逻扫描,清理,重新同步来缓解这种情况,无论建议的做法是针对您正在使用的阵列类型,但缺点是它会影响性能并且可能需要数小时才能完成。

关于驱动器寿命变化的一些背景,Backblaze做了一个常规的驱动器故障统计报告......我不以任何方式与公司有关联,但他们应该知道他们在驱动器可靠性方面谈论的内容。一个例子是 https://www.backblaze.com/blog/hard-drive-failure-rates-q1-2017/ ...你的样本集可能会更小,所以外围数据可能会破坏你自己的经验,它仍然是一个很好的参考。


37
2017-08-23 20:52



这应该是加入的答案。类似的突袭(来自相同的固件/批次,或一起购买并在某些时候处理不当)磁盘具有更高的灾难性故障风险 - Olivier Dulac
@OlivierDulac,如果磁盘发生灾难性的设计失败,你的生活也会变得非常痛苦。 300GB / 600GB / 900GB 2.5英寸WD Raptor系列硬盘具有必须经历的故障率。 - Kaithar
引用Backblaze ......很棒。 - O. Jones


几年前我不得不为客户考虑这个问题。我结合了实践经验和研究来支持多源的建议。

暂时搁置你的利弊,以及 ewwhite的优秀答案,谨慎的是,如果你自己购买驱动器,你可以多源。快速浏览维基百科关于RAID弱点的讨论,可以看到两个有趣的参考资料。

第一个参考文献是ACM论文 RAID:高性能,可靠的二级存储 (Chen,Lee,Gibson,Katz和Patterson.ACM Computing Surveys.26:145-185)。在3.4.4节中,作者指出硬件故障并不总是统计独立的事件,并说明原因。在我写这个答案的时候,这篇论文可以在网上找到;第19-22页讨论可靠性(http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.41.3889)。

第二个参考是 现实世界中的磁盘故障:1,000,000小时的MTTF对您意味着什么? (Schroeder,Gibson。第五届USENIX文件和存储技术会议。)作者提供统计数据来支持驱动器故障可能以高于独立事件预测的速率及时聚集的断言。在我写这个答案的时候,这篇论文也可以在网上找到(https://www.usenix.org/legacy/events/fast07/tech/schroeder/schroeder_html/index.html)。

由于大磁盘环境中的相关磁盘故障,戴尔明确建议在2012年针对RAID 5;由于类似的原因,预计RAID 6在2019年左右变得不可靠(一篇题为“为什么-raid-6-stops-working-in-2019”的ZDNet文章: http://www.zdnet.com/article/why-raid-6-stops-working-in-2019/)。虽然这两者的关键因素是磁盘大小和重建时间,但驱动器尺寸和驱动器尺寸较小 来源多样化 曾被推荐为RAID 5问题的缓解器。

所以,是的,如果可以,多源驱动器;如果您是按照中所述从企业供应商处购买的 ewwhite的回答 这可能会透明地发生在你身上。但是......我的客户从企业供应商处购买了16个2TB驱动器。他们恰好来自同一制造商,似乎是同时制造的。其中两个驱动器在配置RAID01阵列的两周内发生故障。所以当你拿到它们时检查它们。 (无论如何你已经检查过了,对吧?)


9
2017-08-25 20:29



我真的不明白他们因存储容量增加而导致RAID6消失的论点。任何RAID阵列都依赖于良好的维护以正常运行。我们有非常大的阵列运行RAID6,并且在重建期间从未遇到过导致数据丢失的URE。只需进行预定的体积检查,就像每个MFG建议的那样,你会没事的。 - Brian D.


单独订购驱动器的另一个潜在缺点是包装和处理。

硬盘驱动器几乎从未在零售包装中提供。如果您一次购买一件,他们几乎肯定会被卖家重新包装。我发现这种重新包装的变化很大。有时你会得到一个带有大量填充物的漂亮盒子,但有时候你几乎没有填充任何填充物。

较小的盒子也更容易被载体抛掷而没有明显的外部损坏。


4
2017-08-23 20:44





如果您正在尝试缓解“错误批处理”方案,这意味着特定购买批次中的每个驱动器可能/将在同一时间内失败,那么考虑阵列的大小和正在使用的RAID级别也很重要。

如果您考虑进行多个订单,则不会在整个董事会中应用任何标准。推荐2到4个购买层的人应该问问自己,如果一整层驱动器出现故障,那么阵列是否仍然在线?因此,对于像1/5/10/50这样的冗余RAID级别,您必须一次购买1个驱动器。对于RAID6,您可以一次购买2个。

无论您如何购买定期备份的驱动器,并为阵列大小和RAID类型购买足够的热/冷备件,我都会建议您使用。


2
2017-08-28 19:01





我总是买二手/散货。我跟踪的订单几乎总是相同的设备型号,并且至少使用它可以减轻对“坏批次”的担忧。网络上有如此多的销售硬件,我很难证明购买新驱动器(或其他任何事情),除非是关键任务硬件(我们所有的备份硬件仍在翻新!)

+ PRO: 具有竞争力的在线定价以及来自不断变化的商业环境的硬件不断泛滥,意味着只需花费50-80%的折扣即可获得零售工作环境。

+ PRO: 价钱 低廉的价格可以将预算从过度购买中解放出来,并保持更换硬件的稳固库存。

+ PRO: 卖方关系 我有一些在线卖家,我可以从已经相当大的翻新/二手硬件折扣中获得轻微的折扣。除非你大量购买或与他们一起购买SLA,否则Monoprice通常不会这样做。此外,特别是对于硬盘驱动器,只需确保您可以立即测试它们。我从来没有遇到卖家没有退款或更换DOA硬件的问题(除非这是我未能抓到的骗局)。

- CON: 保修,合法性问题 保修是基于设备的制造日期,您还需要留意在线huksters试图向您推销重新品牌,克隆等。

- CON: 测试 需要考虑测试的开销。无论如何,您应该测试新硬件,因此不确定是否适用。

- CON: 寿命难以判断;稍微容易受到磁盘故障的影响。

注意: 如果它是客户端构建并且他们没有明确请求翻新/使用,总是通过闪亮/新!


2
2017-09-01 06:17



完全。我买了很多租赁和再制造的惠普磁盘因为:便宜。此外,HP服务器保修往往涵盖任何内容 内 底盘,只要它是一个有效的部分,它是好的。 - ewwhite


通过使用来自不同批次和理想制造商的硬盘驱动器,可以获得更高的可靠性。否则他们可能会失误太近。 @Eliodorus的优秀答案解释了这一点。

当然,谁是洗牌机并不重要。如果您的提供商确认它已经为您完成,则无需关心。然而,对于甚至不同的提供者做一些法医似乎是不合理的,并且如果没有直接告诉你有人为你做了。提供商通常不会懒得宣传他们采取的各种措施来提高他们的驾驶可靠性。


1
2017-08-28 14:18