如何通过时间窗口清除过滤掉无限流上的重复项?我没有无限的空间/内存,我知道在说 2 秒(在本地时钟上)之后,任何可能发生的重复都会发生。这意味着 2 秒后我可以丢弃(清除)旧数据。
使用时间窗口清除过滤无限流上的重复项。
我在这个问题中得到了如何删除重复项的一个很好的答案(非常感谢 Till):apache flink 0.10 如何从无界输入数据流中获取复合键的第一次出现?
但我不知道如何告诉 flink 在 2 秒(当地时间)后丢弃旧数据。
请问我怎么能用flink 0.10做到这一点?
非常感谢!!!
这是删除重复但不清除的语句:
input.keyBy(0, 1).flatMap(new DuplicateFilter()).print();
如果我在它不可编译.timeWindow(Time.minutes(1), Time.seconds(30))
之后添加。keyBy(0, 1)