1

我想知道如何将 Spark 应用程序连接到 Pivotal HD(一种 Hadoop 实现)。

使用 Spark 连接到它的最佳方式是什么?

val jdbcDataFrame = sqlContext.read.format("jdbc").options(
  Map("url" -> "jdbc:postgresql:dbserver", "dbtable" -> "schema.tablename")).load()
4

1 回答 1

1

我看到您的问题已被编辑,但我会尝试回答您的所有问题。

Pivotal HD(以前称为 Greenplum HD)是一个 Hadoop 发行版,因此您应该像使用任何 Hadoop/HDFS 发行版一样使用它。具体来说:

text_file = spark.textFile("hdfs://...")

或通过 YARN 运行作业,请参阅:

http://spark.apache.org/docs/latest/running-on-yarn.html

Greenplum DB(分布式 Postgres)不支持 Pivotal HD。例外情况是,如果您指的是 Pivotal HAWQ,它实际上是 HDFS 之上的 Greenplum DB。

Greenplum 是一家构建 Greenplum DB 和 Greenplum HD 的公司,后来被 EMC 收购。随后,EMC 将几家企业归入“Pivotal Initiative”,将Greenplum DB 重新命名为“Pivotal Greenplum Database”,将Greenplum HD 重新命名为“Pivotal HD”。

于 2015-09-11T07:06:50.757 回答