Apache Beam 或 Spark Streaming 中的流处理中的水印估计有多准确。我的数据源是来自 gcs/s3 的文件,但我使用与每个事件关联的事件时间作为窗口函数的时间戳。关于这些流处理引擎如何计算这种启发式或估计的任何想法,以及是否有办法衡量这个估计有多糟糕。
我的用例我有几个服务器在 gcs/S3 上生成事件日志,然后我从我的流处理引擎以流的方式读取这些文件。因此,由于文件系统中断和故障或服务器在几个小时内无法刷新日志事件,可能会出现延迟。因此,在我的流处理管道中,正确性是聚合某些事件时的重要方面之一。所以我很好奇这个水印估计是如何计算的