我想知道如何将 Spark 应用程序连接到 Pivotal HD(一种 Hadoop 实现)。
使用 Spark 连接到它的最佳方式是什么?
val jdbcDataFrame = sqlContext.read.format("jdbc").options(
Map("url" -> "jdbc:postgresql:dbserver", "dbtable" -> "schema.tablename")).load()
我想知道如何将 Spark 应用程序连接到 Pivotal HD(一种 Hadoop 实现)。
使用 Spark 连接到它的最佳方式是什么?
val jdbcDataFrame = sqlContext.read.format("jdbc").options(
Map("url" -> "jdbc:postgresql:dbserver", "dbtable" -> "schema.tablename")).load()
我看到您的问题已被编辑,但我会尝试回答您的所有问题。
Pivotal HD(以前称为 Greenplum HD)是一个 Hadoop 发行版,因此您应该像使用任何 Hadoop/HDFS 发行版一样使用它。具体来说:
text_file = spark.textFile("hdfs://...")
或通过 YARN 运行作业,请参阅:
http://spark.apache.org/docs/latest/running-on-yarn.html
Greenplum DB(分布式 Postgres)不支持 Pivotal HD。例外情况是,如果您指的是 Pivotal HAWQ,它实际上是 HDFS 之上的 Greenplum DB。
Greenplum 是一家构建 Greenplum DB 和 Greenplum HD 的公司,后来被 EMC 收购。随后,EMC 将几家企业归入“Pivotal Initiative”,将Greenplum DB 重新命名为“Pivotal Greenplum Database”,将Greenplum HD 重新命名为“Pivotal HD”。