我在 AWS 中设置了 ETL 管道,如下所示
input_rawdata -> s3 -> lambda -> 触发 spark etl 脚本(通过 aws 胶水)-> 输出(s3,parquet 文件)
我的问题是假设以上是数据的初始加载,我如何设置运行每天(或每小时)来的增量批处理,以添加新行或更新现有记录
a.) 我如何继续附加到相同的 s3 parquet 文件。以便后续的 presto db 查询产生最新的数据。
b.) 如何处理重复记录获取查询的最新时间戳。
在 spark 脚本中,我是否需要创建源为 s3 的 Hive 外部表并在 presto db 中使用?
感谢您的任何投入。