1

我们有小型 hadoop 和 Greenplum 集群。
当前的数据管道流程是:

External table >> hadoop-hawq external readbale table >>hawq internal table.

输出: 1.我们正在尝试使用 GREENPLUM 扩展数据管道。基本上想将HAWQ内部表或外部可读表数据直接推入greenplum。原因是因为我们想编辑我们的文件。另外,HAWQ 不支持更新和删除。是否有任何替代方法来处理或推送数据。请指导。

2.gphdfs协议如何通过GPDB外表访问HDFS数据

提前致谢!

4

1 回答 1

2

如果要将HAWQ内表中的数据推送到Greenplum数据库,可以:

1)使用可写外部表将HAWQ内部表中的数据卸载到HDFS上的文件。这是一个执行卸载的示例:http: //gpdb.docs.pivotal.io/4380/admin_guide/load/topics/g-unloading-data-using-a-writable-external-table.html

2)然后使用可读外部表将HDFS文件中的数据加载到Greenplum数据库中,协议如gphdfs、gpfdist等。详细信息可以参考http://gpdb.docs.pivotal.io/4320/admin_guide/load.html

如果要将HAWQ中可读外部表中的数据推送到Greenplum数据库,可以像HAWQ一样直接使用Greenplum数据库中的可读外部表。

对于 gphdfs,这里有一些示例会有所帮助: http ://gpdb.docs.pivotal.io/4380/admin_guide/load/topics/g-example-1-greenplum-file-server-gpfdist.html

于 2016-09-19T04:30:48.543 回答