2

这是一个包含 Hadoop 2.5.0、Spark 1.2.0、Scala 2.10 的集群,由 CDH 5.3.2 提供。我使用了一个编译好的 spark-notebook 发行版

Spark-Notebook 似乎默认找不到 Hive 元存储。

如何hive-site.xml为 spark-notebook 指定位置以便它可以加载 Hive 元存储?

这是我尝试过的:

  1. 将包含 hive-site.xml 的 /etc/hive/conf 中的所有文件链接到当前目录

  2. 在 bash 中指定 SPARK_CONF_DIR 变量

4

2 回答 2

1

当您启动笔记本时,使用您在其中找到 hive-site.xml 的路径设置环境变量 EXTRA_CLASSPATH,这对我有用:EXTRA_CLASSPATH=/path_of_my_mysql_connector/mysql-connector-java.jar:/my_hive_site.xml_directory/conf ./bin/spark-notebook 我还传递了我的 mysqlconnector 的 jar,因为我有 Hive 和 MySql。

我从这个链接中找到了一些信息:https ://github.com/andypetrella/spark-notebook/issues/351

于 2016-02-01T15:01:20.673 回答
0

使用 CDH 5.5.0 快速入门 VM,解决方案如下:您需要对hive-site.xml提供对 hive 元存储的访问信息的 notebook 的引用。默认情况下,spark-notebooks 使用内部元存储。

您可以在中定义以下环境变量~/.bash_profile

HADOOP_CONF_DIR=$HADOOP_CONF_DIR:/etc/hive/conf.cloudera.hive/
export HADOOP_CON_DIR

source ~/.bash_profile(如果你没有打开一个新的终端,请确保你执行终端)

(这里给出了解决方案:https ://github.com/andypetrella/spark-notebook/issues/351 )

于 2016-05-17T08:50:54.793 回答