0

我安装了 Cloudera Quickstart VM 5.5.0,并且捆绑了 Spark v1.5.0。当我启动spark-shell

scala> val data = sc.textFile("/hdfs/path/file.csv")

data.first即使没有hdfs://namenode:port/URL , Spark 也能够从 HDFS 读取数据(使用 证明)。因为我有一个旧版本 Spark 的用例,即 v1.4.0。我将旧版本安装/解压到 HOME 目录。

当我尝试做同样的事情时,sc.textFile 指向 Linux 本地文件系统而不是 HDFS。hdfs://namenode:port/即使不指定URL ,如何将额外的 Spark 安装点添加到 HDFS ?

第二件事是,为了访问 Hive 表,我将 hive-site.xml 复制到 Spark 的 conf 目录。在 Spark 默认安装中执行此操作后,我可以轻松查询 Hive 表:

scala> val orders = sqlContext.sql("SELECT * FROM default.orders")

scala> orders.limit(5).foreach(println)

这将显示行。

当我尝试在 Spark v1.4 上做同样的事情时,我得到了错误。如何以与默认安装相同的方式访问 Hive 表?

4

0 回答 0