apache-drill - Dremel 或其实现（例如 Drill）如何处理内存中的大型列式数据布局？

Question

我正在阅读 Google Dremel 的白皮书。我知道它将复杂数据转换为列式数据布局。

这些数据存储在什么位置？

由于 Drill 没有中央元数据存储库，我假设它必须是in-memory。

因此，当我有数十亿行时，Drill 如何处理这些数据？

score 2 · Accepted Answer

要从数十亿行中获得完整、一致的查询结果，您将使用连接到多个 Drillbit 的分布式文件系统，通过将文件复制到每个节点来模拟分布式文件系统，或者使用 NFS 卷，例如 Amazon Elastic File System。Drill 使用多种技术对大数据进行高性能查询，包括：

1 回答 1