scala - 如何连接到 Pivotal HD（来自 Spark）？

Question

我想知道如何将 Spark 应用程序连接到 Pivotal HD（一种 Hadoop 实现）。

使用 Spark 连接到它的最佳方式是什么？

val jdbcDataFrame = sqlContext.read.format("jdbc").options(
  Map("url" -> "jdbc:postgresql:dbserver", "dbtable" -> "schema.tablename")).load()

score 1 · Accepted Answer

我看到您的问题已被编辑，但我会尝试回答您的所有问题。

Pivotal HD（以前称为 Greenplum HD）是一个 Hadoop 发行版，因此您应该像使用任何 Hadoop/HDFS 发行版一样使用它。具体来说：

text_file = spark.textFile("hdfs://...")

或通过 YARN 运行作业，请参阅：

http://spark.apache.org/docs/latest/running-on-yarn.html

Greenplum DB（分布式 Postgres）不支持 Pivotal HD。例外情况是，如果您指的是 Pivotal HAWQ，它实际上是 HDFS 之上的 Greenplum DB。

Greenplum 是一家构建 Greenplum DB 和 Greenplum HD 的公司，后来被 EMC 收购。随后，EMC 将几家企业归入“Pivotal Initiative”，将Greenplum DB 重新命名为“Pivotal Greenplum Database”，将Greenplum HD 重新命名为“Pivotal HD”。

scala - 如何连接到 Pivotal HD（来自 Spark）？

1 回答 1

Related

Reference