目前jdbchdfs作业没有用于输出目录的partitionPath ,如hdfs接收器。推荐的方法是什么?我也没有看到任何 JIRA,将来会支持这样的事情的任何计划吗?
我考虑了一下并得出结论,它可以为多个执行分区创建多个文件。但是,对于大型数据集负载,我们希望根据数据中的值将输出拆分到多个目录。
如果我想创建这样的作业,我如何重用 HDFS 接收器中使用的开箱即用分区策略?任何指针将不胜感激。
目前jdbchdfs作业没有用于输出目录的partitionPath ,如hdfs接收器。推荐的方法是什么?我也没有看到任何 JIRA,将来会支持这样的事情的任何计划吗?
我考虑了一下并得出结论,它可以为多个执行分区创建多个文件。但是,对于大型数据集负载,我们希望根据数据中的值将输出拆分到多个目录。
如果我想创建这样的作业,我如何重用 HDFS 接收器中使用的开箱即用分区策略?任何指针将不胜感激。
当前的 jdbchdfs 作业使用一个非常简单的 ItemWriter 实现。它应该改为使用 Spring Hadoop DataWriter 实现,并且看起来很容易进行改进。我创建了 JIRA https://jira.spring.io/browse/XD-2822来跟踪这个改进的功能并提供有关实施方法的提示。如果您可以尝试一下并发出 PR,将不胜感激。
干杯,马克