我正在为我们的 ETL 流程评估 Nifi。我想构建以下流程:从 SQL 数据库中获取大量数据 -> 拆分为块,每个块 1000 条记录 -> 计算每个块中的错误记录 -> 计算错误记录的总数 -> 如果超过阈值失败过程 - > 否则将每个块保存到数据库。
我无法解决的问题是如何等到所有块都得到验证。例如,如果我有 5 个验证任务同时工作,我需要某种屏障来等待所有块都被处理,然后才运行错误计数处理器,因为我不想保存无效数据并在达到阈值时将其删除.
我的另一个问题是,是否有可能在多个节点上并行运行此验证处理器,并且仍然有可能等到它们全部完成。