我是这个 Databricks 自动加载器的新手,我们有一个要求,我们需要通过 Databricks 自动加载器处理从 AWS s3 到增量表的数据。我正在测试这个自动加载器,所以我遇到了重复的问题,如果我上传一个名为 emp_09282021.csv 的文件,它具有与 emp_09272021.csv 相同的数据,那么它没有检测到任何重复,它只是插入它们,所以如果我有 5 行emp_09272021.csv 文件现在在我上传 emp_09282021.csv 文件时将变为 10 行。
下面是我尝试过的代码:
spark.readStream.format("cloudFiles") \
.option("cloudFiles.format", "csv") \
.option("header",True) \
.schema("id string,name string, age string,city string") \
.load("s3://some-s3-path/source/") \
.writeStream.format("delta") \
.option("mergeSchema", "true") \
.option("checkpointLocation", "s3://some-s3-path/tgt_checkpoint_0928/") \
.start("s3://some-s3-path/spark_stream_processing/target/")
请有任何指导来处理这个问题?