performance - 大规模加载 PB 级数据

Question

我需要在一秒钟内将 PB 的文本数据加载到存储 (RAM/SSD) 中。

以下是解决上述问题的一些问题。

1）实际上/理论上是否可以在一秒钟内加载 PB 的数据？2) 为了在亚秒内实现 PB 级数据的快速加载，最好的设计方法是什么。3）任何可用的基准方法？

我可以使用 Hadoop、spark、HPCC 等任何类型的技术来实现...

score 5 · Accepted Answer

“PB ......在一秒钟内”。严重地？请查看wikipedia Petabyte：它是 1.000.000 GB！

还要检查维基百科内存带宽。即使是最快的 RAM 也不能处理超过几个 10 GB / s（实际上这要低得多）。

只是好奇：你的用例是什么？

score 2 · Accepted Answer

不，目前在技术上是不可能的。甚至 RAM 内存都不够快（更不用说明显的容量限制了）。最快的 SSD（M.2 驱动器），您可以获得大约 1.2GB/s 的写入速度，使用 raid 0，您最多可以达到大约 3GB/s 的速度。还有经济上的限制，因为这些驱动器本身非常昂贵。
因此，要回答您的问题，目前这些速度在技术上是不可能的。

score 0 · Accepted Answer

从 HPCC 的角度...

Thor旨在加载数据并支持多个服务器。然而，我听说的最大集群是大约 4000 台服务器。Thor 旨在长时间（甚至一周）加载大量数据。

另一方面，Roxie旨在快速提供数据，但不是您所要求的……它也不能在一秒钟内提供 PB 级数据。

performance - 大规模加载 PB 级数据

3 回答 3

Related

Reference