streaming - 将 Spark 流连接到流集输入

Question

我想知道是否可以为 StreamSets 的火花流提供输入。我注意到 StreamSets 连接器目标https://streamsets.com/connectors/中不支持 Spark 流。

我探索是否有其他方法可以将它们连接起来以获得示例 POC。

score 4 · Accepted Answer

在 Apache Spark Streaming 中处理来自 Streamsets Data Collector (SDC) 的数据的最佳方法是将数据写入 Kafka 主题并从那里读取数据。这允许您将 Spark Streaming 从 SDC 中分离出来，因此两者都可以按照自己的处理速度进行。

SDC 微批次是定义的记录数，而 Spark Streaming 微批次是由时间决定的。这意味着每个 SDC 批处理可能不（也可能不会）对应于 Spark Streaming 批处理（很可能 Spark Streaming 批处理可能包含来自多个 SDC 批处理的数据）。SDC 将每个批次发送到目的地后“提交” - 将批次写入 Spark Streaming 意味着每个 SDC 批次都需要对应于 Spark Streaming 批次以避免数据丢失。由于处理或节点故障，Spark Streaming 也有可能“重新处理”已经提交的批次。SDC 无法重新处理已提交的批次 - 因此，要从这种情况中恢复，您确实必须写入允许您重新处理批次的 Kafka 之类的东西。

简而言之，您最好的选择是 SDC -> Kafka -> Spark Streaming。

streaming - 将 Spark 流连接到流集输入

1 回答 1

Related

Reference