我开始探索演练,以满足我们在半结构化数据上运行 SQL 的要求。我已经用 zookeeper 设置了一个 4node 钻集群。对它的实际工作原理有几个问题,
当我使用 dfs(本地文件系统)以分布式模式运行 Drill 时,我在其中一个节点(比如 n1)上有一个 1GB 的 Json 文件。我可以通过从任何节点(n1、n2、n3、n4)启动 sqlline 来运行查询,inspire 只有在 n1 上有日期。我的问题是
一个。查询是否在所有节点上执行?即,Drill 会通过将数据分发到其他节点 n2、n3n4 来并行化查询执行吗?
湾。如果否,通过在所有节点 n2、n3、n4 上复制相同的文件将有助于利用 Drill 的 MPP 架构?