我正在尝试构建涉及大量数据摄取的数据管理(DM)解决方案,通过一些数据域规则,替换(丰富),在将错误数据发送到下游系统之前对其进行标记。规则检查和值替换可以是简单的东西,比如数据元素应该满足的允许阈值数值,也可以是更复杂的东西,比如使用域值池的主数据查找。
您认为 Apache Flink 可以成为此类处理的良好候选者吗?是否可以定义 flink 运算符来对流经它的每个元组进行查找(使用主数据)?我认为对于后一个问题使用 Apache Flink 有一些缺点 - 1)查找可能是一个阻塞操作,会降低吞吐量,2)如果操作员函数必须获取主数据,则无法执行检查点和持久化操作员状态从别处。
有什么想法?在上述用例中还有其他最好的工具吗?
谢谢