我正在尝试使用自定义输入运行 pySpark 作业,以进行测试。该作业具有三组输入,每组都从不同元存储数据库中的表中读取。
在 spark 中读取数据:hiveContext.table('myDb.myTable')
测试输入是三个文件。为了不更改任何原始代码,我将所有三个输入读入DataFrame
s,并尝试使用myDF.registerTempTable('myDb.myTable')
.
问题是火花失败了org.apache.spark.sql.catalyst.analysis.NoSuchTableException
。
我也试过:
hiveContext.sql('create database if not exists myDb')
hiveContext.sql('use myDb')
myDF.registerTempTable('myTable')
但这也失败了。
知道为什么找不到表吗?
使用 Spark 1.6