0

现在我有一个要求汇总某人过去 3 个月的操作。然后将结果放入 ML 模型以获得异常。

考虑到系统的巨大流量,这是一个非常大的窗口。

我该如何处理这种情况?

4

2 回答 2

1

我将基于以下假设回答您的问题:数据以流方式传输,并且您需要在该流之上创建一个窗口,因为您的问题无法清楚地获得该细节。

话虽如此,您可以使用 RocksDB 状态后端创建如此大的窗口,因为该窗口不会存储在内存中,并且您的窗口大小限制仅取决于硬件的硬盘大小。

于 2017-11-10T10:29:22.900 回答
0

您可以对 Flink 使用批处理,因为您有数据集,但是,flink 是一个真正的流引擎,这意味着批处理被视为流的特殊情况。另一种选择是使用 Hadoop 进行这种批处理。

于 2017-11-10T04:09:07.273 回答