hadoop - Druid + Hadoop（用于两种用途，深度存储和索引）

Question

如果我在单独的机器上运行 Hadoop 服务器（伪分布式模式），我还需要将这些文件放在我的 Druid 的 conf 目录下吗？：http ://druid.io/docs/latest/configuration/hadoop.html

我的看法：

看起来那些 -site.xml 文件用于 Hadoop 服务器......，而 Druid 仅充当 Hadoop 客户端。所以我认为 Druid 不需要 hdfs-site.xml。

Core-site.xml...，好的，我可以得到它。我的意思是，德鲁伊需要知道名称节点（hadoop）的 IP。

Mapred-site.xml，部分。Druid 需要知道 mapreduce 作业的状态（我想它会将索引作为 MR 作业委托给 Hadoop）。因此它需要与那些作业跟踪器进行通信，以查看索引是否完成/失败/正在进行。为此，它需要 Hadoop JT 的 URL。

但是 Druid 不需要这个属性“mapreduce.cluster.local.dir”，因为它不积极参与 MR 工作。

纱线站点.xml？也许它应该保留，部分。至少用于提交工作（？）。

HDFS-site.xml 呢？我认为这可以完全废弃。

容量调度程序.xml？它可以走了。

如果我错了，请纠正我。

出现这些问题/疑问是因为我对 hadoop 很陌生。我正在运行我的 hadoop 设置。伪分布式模式。我还使用 javascript webhdfs 库对其进行了测试以写入和读取文件。还尝试了 hadoop dist 提供的示例 MR 作业。所以我想我的hadoop设置很好。我对德鲁伊网站有点不确定，部分原因是文档不太清楚。

顺便说一句....我有 hadoop 2.7.2 ...虽然 Druid 使用的 hadoop-client 库仍在 2.3.0 上。

我应该将我的 hadoop 服务器降级到 2.3.0 吗？

http://druid.io/docs/latest/operations/other-hadoop.html

谢谢，拉卡

score 0 · Accepted Answer

请将 mapred-site.xml core-site.xml hdfs-site.xml yarn-site.xml 添加到类路径中。此外，您不需要降级 druid 与 2.7.X 配合得很好。正如您在文档中看到的，您可以使用多个版本的 hadoop。

hadoop - Druid + Hadoop（用于两种用途，深度存储和索引）

1 回答 1

Related

Reference