0

考虑到我有一个简单的聚合,其中定义了一个没有任何水印的窗口。

df
.groupBy(window(col("time"), "30 minutes","10 minutes").as("time"))
.aggr ....

这里就像我们的窗口一样30 minutes,滑动间隔为10 minutes

  • Q1。这是否意味着10分钟后,它会滑动?
  • Q2。如果是这样,那是不是有点类似于水印?
4

1 回答 1

1
  1. 是的,它将每 10 分钟滑动/计算一次(滑动间隔),提供 30 分钟的重叠窗口。您没有定义是使用事件还是摄取时间。如果一个人使用事件时间,那么后期处理,乱序被处理以随着时间的流逝将这些数据包含在更新的窗口中。

  2. 继上一个问题之后,这与水印不同。加水印意味着在一段时间后,迟到的数据被丢弃,因此上述效果需要考虑时间来应对。也就是说,一些较旧的窗口不会更新。

于 2021-01-26T18:17:25.600 回答