我正在使用两个 Jupyter 笔记本在分析中做不同的事情。在我的 Scala notebook 中,我将一些清理过的数据写入 parquet:
partitionedDF.select("noStopWords","lowerText","prediction").write.save("swift2d://xxxx.keystone/commentClusters.parquet")
然后我去我的 Python notebook 读入数据:
df = spark.read.load("swift2d://xxxx.keystone/commentClusters.parquet")
我收到以下错误:
AnalysisException: u'Unable to infer schema for ParquetFormat at swift2d://RedditTextAnalysis.keystone/commentClusters.parquet. It must be specified manually;'
我查看了 spark 文档,我认为我不应该被要求指定模式。有没有人遇到过这样的事情?保存/加载时我应该做其他事情吗?数据登陆对象存储。
编辑:我在读和写时都在唱 spark 2.0。
edit2:这是在 Data Science Experience 的一个项目中完成的。