是一种从 FetchHDFS 处理器的单次运行中获取文件总数的方法吗?
我的用例是 ==> 从目录(hdfs)中读取所有文件,将它们连接起来,然后进行进一步处理。但是要停止合并处理器(直到所有文件都在队列中),所以我需要文件计数来设置“最小条目数”。
我可以使用等待/通知,但我仍然需要总计数以便正确设置标志。
无论如何,将其作为 FetchHDFS 或任何文件列表处理器的属性听起来不合逻辑。
更新#2(合并处理器)根据配置,合并处理器应该每 300 秒释放一次文件。在我的用例中,输入文件总数为 2000,但它们的速度很慢(大约 200 秒)。所以下面的配置应该足以合并所有文件。但它不起作用。我仍然可以看到合并处理器让文件以更小的间隔进入。
更新 #3 == 所有 1600 个文件的总大小为 318 KB,远小于 bin 大小 128 MB