我有一个不断获取新文件的 s3 文件夹。这些文件也可能基于 url 列有重复项。
s3file1.csv - lastmodified 2022-03-01 at 10 UTC
url name
http://a/ jai
http://b/ nitu
s3file2.csv 上次修改时间为 2022 年 3 月 1 日 12 UTC
url name
http://a/ aron
http://b/ max
我将我的外部表创建为:
create external table test
(
url VARCHAR as (nullif(value:c1,'')::VARCHAR)
refershed_on TIMESTAMP_LTZ(9) as CURRENT_TIMESTAMP()
)
with location = @test_stage
file_format = test_format
auto_refersh=true
pattern = '.*s3file[.]csv';
问题是我在基于 url 的表测试中有重复项。所有行的 refreshed_on 日期也相同。如何删除重复项并仅保留具有最新最后修改日期的条目在 url 上唯一?
最终表测试应该只有 s3file2.csv 数据,但它有两个文件数据