数据保存起来有很多方法,关键还是要看数据查询索引和使用频次。

通常我们会把数据区分为热数据和冷数据,随时要取用的叫热数据,不常用仅仅是备份,取用时可以花时间等待的叫冷数据。

所以,先要看这2000TB的用途,区分是作为热数据处理还是冷数据处理。

还有不少回答忽视了一点,就是要查询和管理2000TB数据对系统也是有要求的,不是拿个设备存储了就完事。所以只计算介质成本其实不科学。如果只算介质成本,玻璃、胶片、甚至白纸都可以存储大密度数据的。

譬如有的答主提出的蓝光光盘方案,每TB的存储成本是可以做很低,但是2000TB数据的刻盘的时间、要在数据中找到目标文件的方式和时间、读取和刻录设备的价格、管理系统和设备价格等因素都考虑进去的话成本不见得比硬盘低,磁带也同样。

光盘和磁带属于冷数据的保存方式,特点就是在大规模备份存储时的总体成本比较低。但是需要特定的设备来管理和调取数据保存介质(磁带存储设备或光盘塔),这些设备成本不低,存储量越大折合单位存储成本越低且不支持实时调取数据,查询到文件后需要等待一个不短的loading过程才能读取。2000TB这个数据量使用这类设备其实有点尴尬,性价比并不突出。至少到10PB以上的数据冷保存才有高性价比。

如果要较快的寻找到文件(类似影音档案库)的热存储,目前可行实用的方式还是硬盘。但如果需要妥当保存,最低要求都得要磁盘阵列(raid)来保证。这么大数据量需要数百块硬盘,肯定有硬盘会坏,所以还要考虑系统能容忍多少块硬盘同时坏掉也不丢失数据,还需要快速在数百块硬盘中快速查询到相应的数据。目前的NFS存储或者NAS系统是没有能力管理和查询这么大数据量的。

这时候专业的存储就有性价比了。使用分布式存储系统来管理2000TB数据还是比较适合的。如果都是影片、音频之类的大文件(大文件相反好管理),其实可以采用4+1的方案部署,要达到2000TB的可用空间需要2500TB的物理存储,500TB的存储服务器共5台,就是其中一台服务器的硬盘全坏了也不会丢失数据和影响访问,换掉坏的硬盘就可以自动数据重建。分布式存储系统基本都使用对象存储,可以快速查询到所需文件。5台多盘位服务器加硬盘相对于这个数据存储量来说并不贵。(当然也可以选择2组3+1或者其他高可用方案)

利益相关,价格和选型部分就不说了。

发表评论

电子邮件地址不会被公开。 必填项已用*标注