apache-spark - apache spark结构化流

Question

我正在使用 spark 结构化流从 s3 位置读取传入数据，所以我在这里有 2 个问题。

问题1）

我开始我的结构化流管道，它读取 s3 中的传入文件。我为传入的 json 数据提供架构为

上校 A、上校 B、上校 C

我执行一些转换并将数据以镶木地板格式写入另一个 s3 位置，该格式具有以下架构

col A, col A', col B, col B', col C, col C'

现在说几天后我传入的流数据发生了变化，所以我需要将传入的模式更改为

案例 1) col A, col B, col C, col D

案例 2) col A, col B

然后在我进行转换之后，我需要在镶木地板中使用我的新转换模式

案例 1) col A, col A', col B, col B', col C, col C', col D, col D'

案例 2) col A, col A', col B, col B'

考虑到流输出被写入镶木地板文件，这件事是否可能

问题2）

Spark 结构化流使用 checkpointLocation，所以有什么方法可以重新处理一些/所有处理过的数据。

score -1 · Accepted Answer

-1

回答你的问题 2

只需删除 checkPointing 位置的目录并重新启动该过程。

于 2017-09-23T04:40:25.663 回答

1 回答 1