我需要在一秒钟内将 PB 的文本数据加载到存储 (RAM/SSD) 中。
以下是解决上述问题的一些问题。
1)实际上/理论上是否可以在一秒钟内加载 PB 的数据?2) 为了在亚秒内实现 PB 级数据的快速加载,最好的设计方法是什么。3)任何可用的基准方法?
我可以使用 Hadoop、spark、HPCC 等任何类型的技术来实现...
我需要在一秒钟内将 PB 的文本数据加载到存储 (RAM/SSD) 中。
以下是解决上述问题的一些问题。
1)实际上/理论上是否可以在一秒钟内加载 PB 的数据?2) 为了在亚秒内实现 PB 级数据的快速加载,最好的设计方法是什么。3)任何可用的基准方法?
我可以使用 Hadoop、spark、HPCC 等任何类型的技术来实现...
“PB ......在一秒钟内”。严重地?请查看wikipedia Petabyte:它是 1.000.000 GB!
还要检查维基百科内存带宽。即使是最快的 RAM 也不能处理超过几个 10 GB / s(实际上这要低得多)。
只是好奇:你的用例是什么?
不,目前在技术上是不可能的。甚至 RAM 内存都不够快(更不用说明显的容量限制了)。最快的 SSD(M.2 驱动器),您可以获得大约 1.2GB/s 的写入速度,使用 raid 0,您最多可以达到大约 3GB/s 的速度。还有经济上的限制,因为这些驱动器本身非常昂贵。
因此,要回答您的问题,目前这些速度在技术上是不可能的。
从 HPCC 的角度...
Thor旨在加载数据并支持多个服务器。然而,我听说的最大集群是大约 4000 台服务器。Thor 旨在长时间(甚至一周)加载大量数据。
另一方面,Roxie旨在快速提供数据,但不是您所要求的……它也不能在一秒钟内提供 PB 级数据。