0

我正在运行 Spark Notebook 以将 DataFrame 作为 Parquet 文件保存在 Bluemix 对象存储中。

我想在重新运行笔记本时覆盖 Parquet 文件。但实际上它只是附加数据。

下面是 iPython 代码示例:

df = sqlContext.sql("SELECT * FROM table")
df.write.parquet("swift://my-container.spark/simdata.parquet", mode="overwrite")
4

2 回答 2

0

我不是 python 人,但SaveMode像这样适用于数据框

df.write.mode(SaveMode.Overwrite).parquet("swift://my-container.spark/simdata.parquet")
于 2016-05-12T13:08:43.070 回答
0

我认为blockstorage仅替换'simdata.parquet''PART-0000 *'仍然是'simdata.parquet'和'UUID'的app-id,当你尝试读取时,DF读取所有文件'simdata.parquet*'

于 2016-09-09T13:33:04.443 回答