尝试探索 apach hudi 以使用 S3 作为源进行增量加载,然后最终通过 AWS 粘合作业将输出保存到 S3 中的不同位置。
有什么博客/文章可以作为起点提供帮助吗?
尝试探索 apach hudi 以使用 S3 作为源进行增量加载,然后最终通过 AWS 粘合作业将输出保存到 S3 中的不同位置。
有什么博客/文章可以作为起点提供帮助吗?
还有另一种可能的方法(根据罗伯特的回答),将自定义罐子包含到胶水作业中。然后这些将被加载到您的胶水作业中,并可以在任何其他 hadoop/spark 环境中使用。
实现此方法所需的步骤如下(至少这些适用于我的 pyspark 工作,如果您发现一些信息没有用尽或遇到一些麻烦,请纠正我,我会更新我的答案):
注 1:以下是批量写入,未针对 hudi 流进行测试
注 2:胶水作业类型:Spark,胶水版本:2.0,ETL 语言:python
最后一点:确保为您的胶水作业分配适当的权限