Find centralized, trusted content and collaborate around the technologies you use most.
Teams
Q&A for work
Connect and share knowledge within a single location that is structured and easy to search.
现在我有一个要求汇总某人过去 3 个月的操作。然后将结果放入 ML 模型以获得异常。
考虑到系统的巨大流量,这是一个非常大的窗口。
我该如何处理这种情况?
我将基于以下假设回答您的问题:数据以流方式传输,并且您需要在该流之上创建一个窗口,因为您的问题无法清楚地获得该细节。
话虽如此,您可以使用 RocksDB 状态后端创建如此大的窗口,因为该窗口不会存储在内存中,并且您的窗口大小限制仅取决于硬件的硬盘大小。
您可以对 Flink 使用批处理,因为您有数据集,但是,flink 是一个真正的流引擎,这意味着批处理被视为流的特殊情况。另一种选择是使用 Hadoop 进行这种批处理。