data-collection - 一个作业的多个数据收集器，无需在流集中复制记录

Question

我有一个由多个文件组成的目录，并且在多个数据收集器之间共享。我有一份工作来处理这些文件并将其放入目的地。因为记录很大，我想在多个数据收集器中运行这项工作。但是当我尝试时，我在目的地得到了重复的条目。有没有办法在不复制记录的情况下实现它。谢谢

score 1 · Accepted Answer

你可以使用卡夫卡。例如：

使用此模式，您可以运行与您的 kafka 主题分区数一样多的收集器。希望它会帮助你。

score 0 · Accepted Answer

从 Ask StreamSets复制我的答案：

目前没有办法跨多个数据收集器自动分区目录内容。

您可以在多个数据收集器上运行类似的管道，并使用文件名模式配置中的不同字符范围手动对源中的数据进行分区。例如，如果您有两个数据收集器，并且您的文件名按字母表分布，则第一个实例可能会处理[a-m]*，而第二个实例可能会处理[n-z]*.

一种方法是将文件名模式设置为运行时参数- 例如${FileNamePattern}。然后，您可以在管道的参数选项卡中或通过 CLI、API、UI 或 Control Hub 启动管道时设置模式的值。

2 回答 2