apache-spark - 如何处理 Spark Structured Streaming 中已删除（或更新）的行？

Question

如果我想count知道有多少人在积极工作"Coca-Cola"，我会使用以下查询：

people.filter(_.company == "Coca-Cola").groupByKey(_.company).count().writeStream...

这在批处理模式下工作正常。

但是，假设该company领域person随着时间的推移而发生变化，或者假设人们完全被移除Dataset，我如何才能使用结构化流式处理，所以count仍然正确？

AFAIK 结构化流式处理假设数据源是仅附加的：这是否意味着我需要将删除和更新作为单独的数据源进行跟踪，并自己合并它们？

score 0 · Accepted Answer

一般来说，结构化流的模型是您正在从一个不断增长的仅附加表中读取。您是对的，这意味着为了回答您的问题，您必须将更改值建模为删除（可能在字段中使用负值，如numEmployees），然后进行插入。

1 回答 1