PySpark
我通过conda
和pip
pyspark 从头开始构建并以编程方式使用我的环境(就像我在这里演示的那样);而不是PySpark
从可下载的 Spark 发行版中使用。正如您在上面 URL 的第一个代码片段中看到的那样,我通过 SparkSession 启动脚本中的(除其他外)k/v conf-pairs 来完成此操作。(顺便说一下,这种方法使我能够在各种 REPL、IDE 和 JUPYTER 中工作)。
但是,关于配置 Spark 支持以访问 HIVE 数据库和元数据存储,该手册是这样说的:
的配置
Hive
是通过将您的hive-site.xml
,core-site.xml
(用于安全配置)和hdfs-site.xml
(用于 HDFS 配置)文件放入conf/
.
conf/
上面的意思是conf/
Spark 分发包中的目录。但是pyspark
via pip
andconda
当然没有那个目录,那么在这种情况下如何将 HIVE 数据库和元存储支持插入到 Spark 中呢?
我怀疑这可能会被特殊前缀的 SparkConf K/V 对形式的适应:(spark.hadoop.*
见这里);如果是,我仍然需要确定需要哪些 HADOOP / HIVE / CORE 指令。我想我会试错。:)
注意:.enableHiveSupport()
已经包含在内。
我会修补spark.hadoop.*
K/V 对,但如果有人知道这是如何临时完成的,请告诉我。
谢谢你。:)
编辑:提供解决方案后,我更新了上面第一个 URL中的内容。它现在集成了下面讨论SPARK_CONF_DIR
的HADOOP_CONF_DIR
环境变量方法。