3

我想知道是否可以为 StreamSets 的火花流提供输入。我注意到 StreamSets 连接器目标https://streamsets.com/connectors/中不支持 Spark 流。

我探索是否有其他方法可以将它们连接起来以获得示例 POC。

4

1 回答 1

4

在 Apache Spark Streaming 中处理来自 Streamsets Data Collector (SDC) 的数据的最佳方法是将数据写入 Kafka 主题并从那里读取数据。这允许您将 Spark Streaming 从 SDC 中分离出来,因此两者都可以按照自己的处理速度进行。

SDC 微批次是定义的记录数,而 Spark Streaming 微批次是由时间决定的。这意味着每个 SDC 批处理可能不(也可能不会)对应于 Spark Streaming 批处理(很可能 Spark Streaming 批处理可能包含来自多个 SDC 批处理的数据)。SDC 将每个批次发送到目的地后“提交” - 将批次写入 Spark Streaming 意味着每个 SDC 批次都需要对应于 Spark Streaming 批次以避免数据丢失。由于处理或节点故障,Spark Streaming 也有可能“重新处理”已经提交的批次。SDC 无法重新处理已提交的批次 - 因此,要从这种情况中恢复,您确实必须写入允许您重新处理批次的 Kafka 之类的东西。

简而言之,您最好的选择是 SDC -> Kafka -> Spark Streaming。

于 2016-07-06T19:51:54.993 回答