0

我正在从事大数据项目。我们正在使用 Flume 将文件从 sftp 下载到 HDFS。然后,我们配置了 3 个代理。他们从同一来源阅读。结果,我们将 3 个重复文件放入 HDFS,这并不好。然而,我们必须只有一个文件。但是,我们需要对已处理的文件保持可追溯性,并管理代理之间的并发性。例如,我们有 3 个主要代理 A1、A2 和 A3。如果代理 A2 正在处理或正在处理文件 xxx.csv。其他人不会处理它,并且会寻找未处理的文件。因此,每个文件只能由一个代理处理。

有没有人研究过类似的问题?

4

1 回答 1

1

您可以使用负载平衡接收器处理器拥有一个源和 3 个接收器。

于 2017-06-23T09:58:31.870 回答