0

如果我在单独的机器上运行 Hadoop 服务器(伪分布式模式),我还需要将这些文件放在我的 Druid 的 conf 目录下吗?:http ://druid.io/docs/latest/configuration/hadoop.html

我的看法:

看起来那些 -site.xml 文件用于 Hadoop 服务器......,而 Druid 仅充当 Hadoop 客户端。所以我认为 Druid 不需要 hdfs-site.xml。

Core-site.xml...,好的,我可以得到它。我的意思是,德鲁伊需要知道名称节点(hadoop)的 IP。

Mapred-site.xml,部分。Druid 需要知道 mapreduce 作业的状态(我想它会将索引作为 MR 作业委托给 Hadoop)。因此它需要与那些作业跟踪器进行通信,以查看索引是否完成/失败/正在进行。为此,它需要 Hadoop JT 的 URL。

但是 Druid 不需要这个属性“mapreduce.cluster.local.dir”,因为它不积极参与 MR 工作。

纱线站点.xml?也许它应该保留,部分。至少用于提交工作(?)。

HDFS-site.xml 呢?我认为这可以完全废弃。

容量调度程序.xml?它可以走了。

如果我错了,请纠正我。


出现这些问题/疑问是因为我对 hadoop 很陌生。我正在运行我的 hadoop 设置。伪分布式模式。我还使用 javascript webhdfs 库对其进行了测试以写入和读取文件。还尝试了 hadoop dist 提供的示例 MR 作业。所以我想我的hadoop设置很好。我对德鲁伊网站有点不确定,部分原因是文档不太清楚。

顺便说一句....我有 hadoop 2.7.2 ...虽然 Druid 使用的 hadoop-client 库仍在 2.3.0 上。

我应该将我的 hadoop 服务器降级到 2.3.0 吗?

http://druid.io/docs/latest/operations/other-hadoop.html

谢谢,拉卡

4

1 回答 1

0

请将 mapred-site.xml core-site.xml hdfs-site.xml yarn-site.xml 添加到类路径中。此外,您不需要降级 druid 与 2.7.X 配合得很好。正如您在文档中看到的,您可以使用多个版本的 hadoop。

于 2016-12-10T16:21:05.447 回答