0

oue 数据仓库是基于 hive 的,现在我们需要将数据从 hive 转换为 greenplum,我们想使用带有 gphdfs 的外部表,但它看起来出了点问题。表创建脚本是

CREATE EXTERNAL TABLE flow.http_flow_data(like flow.zb_d_gsdwal21001)
LOCATION ('gphdfs://mdw:8081/user/hive/warehouse/flow.db/d_gsdwal21001/prov_id=018/day_id=22/month_id=201202/data.txt')
FORMAT 'TEXT' (DELIMITER '      ');

当我们跑步时

bitest=# select * from flow.http_flow_data limit 1;
ERROR:  external table http_flow_data command ended with error. sh: java: command not found  (seg12 slice1 sdw3:40000 pid=17778)
DETAIL:  Command: gphdfs://mdw:8081/user/hive/warehouse/flow.db/d_gsdwal21001/prov_id=018/day_id=22/month_id=201202/data.txt

我们的 hadoop 是 1.0,greenplum 是 4.1.2.1

我想知道我们是否需要配置一些东西来让 gp 访问 hadoop

4

3 回答 3

0

你打开端口(8081)监听month_id=201202目录了吗?

于 2012-07-25T22:05:50.357 回答
0

我会仔细检查管理员指南,我认为您可以使用 gphdfs,但直到 greenplum 4.2

于 2013-02-01T21:42:11.187 回答
0

你检查过确保你的Greenplum系统上安装了java吗?因为这是 gphdfs 工作所必需的。

于 2016-01-21T22:03:13.873 回答