1

我正在使用 HDP 2.4.2 我想将 Spark 与 HAWQ 连接以进行数据摄取。

请让我知道是否有任何推荐/正确的方法,目前我正在使用 postgress jdbc 驱动程序将 spark 与 HAWQ 连接。我面临着这样的问题

- 如果表格不存在,DataFrame 会在 HAWQ 中自动创建表格。

-记录摄取太慢。

- 间歇性地显示错误,例如"org.postgresql.util.PSQLException: ERROR: relation "table_name" already exists".

4

1 回答 1

1

请参阅此示例 Scala 项目以通过 Spark RDD 读取 HAWQ 数据:https ://github.com/kdunn926/sparkHawq

如果您希望使用 HAWQ 读取 Spark 生成的数据,最好的选择是从 Spark 写入 HDFS,然后使用 PXF 使用 HAWQ 读取数据。请参阅此处的文档:http: //hdb.docs.pivotal.io/200/hawq/pxf/PivotalExtensionFrameworkPXF.html

于 2016-10-18T12:43:30.737 回答