1

如果我想count知道有多少人在积极工作"Coca-Cola",我会使用以下查询:

people.filter(_.company == "Coca-Cola").groupByKey(_.company).count().writeStream...

这在批处理模式下工作正常。

但是,假设该company领域person随着时间的推移而发生变化,或者假设人们完全被移除Dataset,我如何才能使用结构化流式处理,所以count仍然正确?

AFAIK 结构化流式处理假设数据源是仅附加的:这是否意味着我需要将删除和更新作为单独的数据源进行跟踪,并自己合并它们?

4

1 回答 1

0

一般来说,结构化流的模型 是您正在从一个不断增长的仅附加表中读取。您是对的,这意味着为了回答您的问题,您必须将更改值建模为删除(可能在字段中使用负值,如numEmployees),然后进行插入。

于 2017-02-23T23:55:55.060 回答