如果我想count
知道有多少人在积极工作"Coca-Cola"
,我会使用以下查询:
people.filter(_.company == "Coca-Cola").groupByKey(_.company).count().writeStream...
这在批处理模式下工作正常。
但是,假设该company
领域person
随着时间的推移而发生变化,或者假设人们完全被移除Dataset
,我如何才能使用结构化流式处理,所以count
仍然正确?
AFAIK 结构化流式处理假设数据源是仅附加的:这是否意味着我需要将删除和更新作为单独的数据源进行跟踪,并自己合并它们?