pyspark - PySpark - 在分区中覆盖的数据

Question

我看到一种情况，当将 pyspark 数据帧保存到具有多列分区的配置单元表时，它也会覆盖子分区中的数据。或者 - 可能我假设它是一个子分区。

我想将“月”列视为子分区。因此，当我将 df2 保存到同一个表时，我可以看到 4 条记录（在 hive 表中）而不是 2 条。

mode=append将工作。但是，如果年份和月份相同，我希望数据被覆盖。保存 pyspark 数据框时有没有办法做到这一点？

>>> df1 = spark.sql('select * from test_input')
>>> df1.show()
+---+---+----+-----+
| f1| f2|year|month|
+---+---+----+-----+
|  a|  b|2018|   01|
|  c|  d|2018|   01|
+---+---+----+-----+

>>> df1.write.saveAsTable('test_output',mode='overwrite',partitionBy=('year','month'))
>>> spark.sql('select * from test_output').show()
+---+---+----+-----+
| f1| f2|year|month|
+---+---+----+-----+
|  a|  b|2018|   01|
|  c|  d|2018|   01|
+---+---+----+-----+

>>> df2 = spark.sql('select * from test_input')
>>> df2.show()
+---+---+----+-----+
| f1| f2|year|month|
+---+---+----+-----+
|  a|  b|2018|   02|
|  c|  d|2018|   02|
+---+---+----+-----+

>>> df2.write.saveAsTable('test_output',mode='overwrite',partitionBy=('year','month'))
>>> spark.sql('select * from test_output').show()
+---+---+----+-----+
| f1| f2|year|month|
+---+---+----+-----+
|  a|  b|2018|   02|
|  c|  d|2018|   02|
+---+---+----+-----+

score 0 · Accepted Answer

您似乎误解了分区的概念。

这不是您在 SQL 语句中遇到的窗口函数分区；相反，它指的是数据在内存或文件系统中的存储和引用方式。这是一个有用的介绍。

更改 Spark 数据帧的分区永远不会改变该数据帧中的行数。

pyspark - PySpark - 在分区中覆盖的数据

1 回答 1

Related

Reference