3

即使在完成教程之后,我对架构也不是很清楚。我们如何在分布式环境中扩展流集?比方说,我们的输入数据速度从源头开始增加,那么如何确保 SDC 不会出现性能问题?将运行多少个守护进程?是 Master worker 架构还是对等架构?

如果在多台机器上运行多个守护进程(例如 YARN 中的一个 sdc 和一个 NodeManager),那么它将如何显示数据的集中视图,即总记录数等?

另外请让我知道 Dataflow 性能管理器的架构。该产品中有哪些守护进程?

4

1 回答 1

3

StreamSets Data Collector (SDC) 通过对输入数据进行分区来扩展。在某些情况下,这可以自动完成,例如Cluster Batch 模式在 Hadoop / MapR 集群上将 SDC 作为 MapReduce 作业运行以读取 Hadoop FS / MapR FS 数据,而Cluster Streaming 模式利用 Kafka 分区并将 SDC 作为 Spark Streaming 执行应用程序运行与 Kafka 分区一样多的管道实例。

在其他情况下,StreamSets 可以通过多线程进行扩展——例如,HTTP ServerJDBC Multitable Consumer起源在不同的线程中运行多个管道实例。

在所有情况下,Dataflow Performance Manager (DPM) 都可以为您提供集中的数据视图,包括总记录数。

于 2017-12-08T19:24:28.083 回答