我是新手sparklyr
,也没有接受过任何正式的培训——这在这个问题之后会变得很明显。我也更多地站在统计学家的一边,这没有帮助。子设置 Spark 后出现错误DataFrame
。
考虑以下示例:
library(sparklyr)
library(dplyr)
sc <- spark_connect(master = "local[*]")
iris_tbl <- copy_to(sc, iris, name="iris", overwrite=TRUE)
#check column names
colnames(iris_tbl)
#subset so only a few variables remain
subdf <- iris_tbl %>%
select(Sepal_Length,Species)
subdf <- spark_dataframe(subdf)
#error happens when I try this operation
spark_session(sc) %>%
invoke("table", "subdf")
我得到的错误是:
Error: org.apache.spark.sql.catalyst.analysis.NoSuchTableException
at org.apache.spark.sql.hive.client.ClientInterface$$anonfun$getTable$1.apply(ClientInterface.scala:122)
at org.apache.spark.sql.hive.client.ClientInterface$$anonfun$getTable$1.apply(ClientInterface.scala:122)
还有其他几行错误。
我不明白为什么我会收到这个错误。"subdf" 是一个 Spark DataFrame
。