apache-spark - 额外的 Spark 安装对 HDFS 和 Hive 的访问

翻译自：https://stackoverflow.com/questions/35308884 2016-02-10T07:07:29.780

172 次

我安装了 Cloudera Quickstart VM 5.5.0，并且捆绑了 Spark v1.5.0。当我启动spark-shell

scala> val data = sc.textFile("/hdfs/path/file.csv")

data.first即使没有hdfs://namenode:port/URL ， Spark 也能够从 HDFS 读取数据（使用证明）。因为我有一个旧版本 Spark 的用例，即 v1.4.0。我将旧版本安装/解压到 HOME 目录。

当我尝试做同样的事情时，sc.textFile 指向 Linux 本地文件系统而不是 HDFS。hdfs://namenode:port/即使不指定URL ，如何将额外的 Spark 安装点添加到 HDFS ？

第二件事是，为了访问 Hive 表，我将 hive-site.xml 复制到 Spark 的 conf 目录。在 Spark 默认安装中执行此操作后，我可以轻松查询 Hive 表：

scala> val orders = sqlContext.sql("SELECT * FROM default.orders")

scala> orders.limit(5).foreach(println)

这将显示行。

当我尝试在 Spark v1.4 上做同样的事情时，我得到了错误。如何以与默认安装相同的方式访问 Hive 表？

0 回答 0