2

我已经在Windows 8系统的Ubuntu 14.04 VM中成功配置了Hadoop 2.4 。Hadoop 安装工作非常好,而且我可以从我的 Windows 浏览器查看 Namenode。附图如下:

在此处输入图像描述

所以,我的主机名是:ubuntu 和 hdfs 端口:9000(如果我错了,请纠正我)。

核心站点.xml:

<property>
  <name>fs.defaultFS</name>
  <value>hdfs://ubuntu:9000</value>
</property>

问题出在从我的 Pentaho 数据集成工具连接到 HDFS 时。附图如下。 PDI 版本:4.4.0 使用的步骤:Hadoop 复制文件

在此处输入图像描述

请帮助我使用 PDI 连接到 HDFS。我需要为此安装或更新任何 jar 吗?如果您需要更多信息,请告诉我。

4

1 回答 1

3

PDI 4.4 afaik 不支持 Hadoop 2.4。在任何情况下,您必须在文件中设置一个属性才能使用特定的 Hadoop 配置(您可能会在论坛中看到“Hadoop 配置”被称为“shim”等)。在 data-integration/plugins/pentaho-big-data-plugin/plugin.properties 文件中有一个名为 active.hadoop.configuration 的属性,默认设置为“hadoop-20”,指的是 Apache Hadoop 0.20。 x 分布。您需要将其设置为 Pentaho 附带的“最新”发行版,或者按照我的博客文章中的描述构建自己的 shim:

http://funpdi.blogspot.com/2013/03/pentaho-data-integration-44-and-hadoop.html

即将推出的 PDI 版本(5.2+)将支持包括 Hadoop 2.4+ 的供应商发行版,因此请密切关注 PDI Marketplace 和 pentaho.com :)

于 2014-07-31T02:37:54.283 回答