题 如何备份20 + TB的数据?


我们工作的公司有一台NAS服务器用于存储摄影会话。每个会话大约100gb。在过去几年中,这台服务器累积了10多TB的数据,而且我们正以指数方式增加拍摄数量。我估计到明年年底,我们将在这个NAS上存储20多个TB。我们目前使用带有Symantec BackupExec的LTO-5磁带将此服务器备份到磁带。由于此服务器的大小已经增长,因此该服务器的完整备份不会在一夜之间完成。有没有人对如何备份这些数据有任何建议?我们应该把它备份到磁带吗?还有其他选择可能会更好吗?


81
2017-12-12 03:50
你为什么每晚都进行完全备份?为什么不每周运行一次完整备份,并且每周剩余的6天运行增量备份? - joeqwerty
这就是我们正在做的事情,对不起,我没有提到......每周完整是没有完成的。 - Jesus Fidalgo
每周完整需要一夜之间完成吗?对于足够大的数据集而言,周刊花费超过24小时并不罕见。 - Stefan Lasiewski
你使用什么类型的NAS? - ewwhite
你确定拍摄的照片是增加的吗? 指数? - gerrit


答案:


你需要退后一步,不要再想“我的NAS上有20TB,我需要备份!”并制定一个考虑到数据性质的存储策略:

 • 它来自哪里以及您获得了多少新数据? (你的问题中有这个)
 • 一旦拥有数据,数据如何使用?人们在编辑图片吗?你保留原件并生成编辑版本吗?
 • 你需要多长时间保存所有数据?人们还在改变2年前的照片吗?

根据最后两个问题的答案,您可能需要更多的答案 存档系统 而不是一个完全不同的备份系统。

静态数据(例如,您保留的2年图片“以防万一”)不需要每晚备份,甚至每周备份,都需要存档。你实际做的可能会更复杂,但从概念上讲,所有旧图片都可以写入磁带(多个副本!)而不再备份。

根据您的意见,还有一些额外的想法:

 • 由于您保持每次拍摄的原件不受影响并处理副本,并且假设至少一些原始图片是哑弹,您可能能够将需要备份的数据量减少一半。

 • 如果仍然无法在任何时间窗口内完成完整备份,那么加快速度的常用方法是先进行磁盘到磁盘备份,然后再将备份集复制到磁带上。


110
2017-12-12 04:19原始拍摄未经存储,然后使用另一张照片拍摄进行编辑。数据可能需要保存大约2年。 - Jesus Fidalgo
+1好吧说。我很惊讶备份和存档之间的区别通常很难理解。我对我的系统和短暂的数据(如电子邮件和文档)进行完整和增量备份,但归档我的摄影(1.2TB并且不断增长:-)。希望我能为磁盘到磁盘的建议另外给出+1。 - Ex Umbris
+1我敢打赌,NAS上80%的数据从未使用过一次。 - Stefan Lasiewski
+1这里最好的选择是每天甚至每小时磁盘到磁盘增量传输以捕获更改,然后每周或每半周将完整或增量备份发送到存档或场外提供商/位置。我们过去每15分钟对SQL文件进行增量备份,以减少灾难恢复方案中的数据丢失量。 - Brent Pabst


你有两个选择:

选项1:

 1. 买另一个NAS
 2. 为您的用户提供对new_NAS的RO访问权限
 3. 将所有超过2年的文件移至new_NAS
 4. 像往常一样继续备份old_NAS
 5. 每6个月将2年以上的文件移至new_NAS

选项2:

 1. 买另一个NAS
 2. rsync 每小时:old_NAS - > new_NAS

  或者,更好地使用类似的东西 rdiff进行备份 rsync +保持文件更改的增量(您可以恢复旧版本的文件)

  rdiff-backup user1@old_NAS::/source-dir  user2@new_NAS::/dest-dir
  
 3. 每隔6个月清理旧文件,运行如下:

  rdiff-backup --remove-older-than 2Y  old_NAS::/dest-dir
  

12
2017-12-12 15:07

为什么备份必须在一夜之间完成?文件服务器性能?您可以限制备份软件的带宽,以限制白天的影响。或者在NAS上专用接口与磁带机通信,以限制对其他流量的影响。

你可以在周末运行完全转储,并且只在一周内执行增量转换吗?如果问题是在周末没有人的情况下改变磁带,那么便宜的磁带库/自动转换器比付钱给某人更换磁带要便宜得多。

您是否可以将数据划分为多个小组,这些小组足以在备份窗口内完成?

我们的NAS上有大约50TB的数据,使用2个磁带驱动器需要一周的时间来完全转储整个东西(一个卷需要将近一周的时间,因为它包含许多小文件)。我们所做的是将我们的数据复制到第二个NAS。我们的辅助NAS是现场(但在与主服务器不同的数据中心),因此我们仍将数据假脱机到磁带以进行异地备份。我们从该辅助NAS运行备份,因此备份不会减慢任何人的速度。

如果你可以远离你的辅助NAS,那么它可以是你的备份,不需要磁带。


2
2017-12-12 18:47

我对每次拍摄的大小都有疑问,它真的是100gb / session吗?贵公司每个月会做多少次会议?

由于您主要存储的是不经常使用的旧会话等,并且可能不需要经常恢复该信息,我建议您使用某公司的服务来为您处理该任务。

例如,使用Amazon Glacier等在线服务存储这些20TB的费用将超过每月200美元。如果您需要经常检索这些存档,或者甚至完全恢复存档,则会遇到一些时间/成本限制。如果你只是存储这些东西“以确保它们存储”,也许使用第三部分可以让你的生活更轻松(甚至比购买另一个NAS,磁带等更便宜)


1
2017-12-12 12:15每个会话100 GB对我来说听起来有点高,但并非不合理。我们以前常常使用32+ GB的会话,而我们的设备是中等级的。 - Tom Marthenal


full backups of this server are not completing overnight
然后尝试增量备份?每xx天一次完整备份,其余为增量备份。

硬盘价格低廉,比磁带快,可用于备份。

此外,云备份现在还有很好的替代方案,因此不需要继续添加更多更快的磁带。
例如:


1
2017-12-12 13:47看看评论 - 这是每周完整的未完成。此外,20TB数据的云备份......不是一个好主意。亚马逊冰川的“便宜”选项每年的成本约为2500美元,而检索所有这些数据的成本约为36,000美元。 - HopelessN00b
实际上并不是很多。 - Sirex
我想这是一个意见问题,如果每年2400美元对于20TB相对安全且完全免维护的存储空间很大。无功耗,无冷却,无故障硬件,无SLA,不占用机架空间。与大多数系统一样,您应该期待大约0次完全恢复操作。如果你需要恢复,价格更像1800美元而不是36000美元(不确定从哪里得到这个数字)。 - Tedd Hansen
对于冰川,36,000美元非常接近。我大致计算出20TB的检索成本为42,000美元。它仍然不是很多。带宽更是一个问题。 - Sirex


我认为最好的解决方案是我们对工资核算数据的处理方式,这应该只需要很少的工作量来实现。

 • 最初,它与每天备份的其余服务器数据保持一致。我们在这些备份上的保留期为13个月。

 • 一旦我们不再期望需要修改数据(两个支付期,IIRC),数据(通过脚本)保存到从常规备份中排除的存档卷。

 • 存档卷每年备份到磁带,并将磁带发送到Cintas以进行无限期存储。

这使我们可以轻松地在线访问这些不变的数据(因此我们无需在会计师想要查看某些内容时随时调用磁带),同时保持我们可能需要永久保留的无限期异地数据存档,而不是破坏我们的备份系统。听起来相同类型的设置可能对您有用,但您可能需要调整在线数据量,具体取决于您及时访问此数据的需求 - 20TB的企业级存储要贵得多而不是将其存档到存储在场外保险库中的两组或三组LTO5磁带。


1
2017-12-12 16:58

也许你可以建立自己的 Backblaze Pod135Tb 对于 7384 $
点击这里查看更多信息: Backblaze Pod建筑信息

您可以购买所需的部件并自行构建。

也许你可以建造3个,并保持2个现场,1个异地。 然后,您可以使用一个pod作为“在线数据”,第二个现场pod作为第一个pod的备份,第三个offsite pod作为紧急异地备份。

每个吊舱有135Tb的存储空间,你甚至可以考虑保留一些变化的历史......
135Tb / 20Tb = 19完整备份副本
或者,您可以保留10个完整备份以及大量的差异备份。

当然,如果你想要一个非现场备份,你需要一些大带宽...... :-)


0
2017-12-18 08:28如果您的数据和工作对您很重要,则不应尝试从头开始构建自己的backblaze pod。这似乎是一个好主意,直​​到你意识到你把所有的鸡蛋放在一个非常大的篮子里。更糟糕的是,该篮子尚未经过彻底的整体测试。 backblaze秘诀是跨越许多pod的软件复制,这允许整个pod无缝地失败。我建议使用supermicro存储服务器,centos,xfs和rdiff-backup。 - bugaboo


我的同事购买了Synology 8磁盘NAS。它运行混合RAID。他几周前从NewEgg购买了8台3TB Seagate Barracuda,售价89美元。您可以通过GigaBit将镜像从生产NAS镜像到新的NAS。由于您只是转移差异,转移将花费更短的时间。然后,您可以使用备份NAS执行完整或增量。对于备用NAS来说,成本低于2000美元。


-1
2017-12-12 16:38