cloudera-quickstart-vm - 什么是 StreamSets 架构？

Question

即使在完成教程之后，我对架构也不是很清楚。我们如何在分布式环境中扩展流集？比方说，我们的输入数据速度从源头开始增加，那么如何确保 SDC 不会出现性能问题？将运行多少个守护进程？是 Master worker 架构还是对等架构？

如果在多台机器上运行多个守护进程（例如 YARN 中的一个 sdc 和一个 NodeManager），那么它将如何显示数据的集中视图，即总记录数等？

另外请让我知道 Dataflow 性能管理器的架构。该产品中有哪些守护进程？

score 3 · Accepted Answer

StreamSets Data Collector (SDC) 通过对输入数据进行分区来扩展。在某些情况下，这可以自动完成，例如Cluster Batch 模式在 Hadoop / MapR 集群上将 SDC 作为 MapReduce 作业运行以读取 Hadoop FS / MapR FS 数据，而Cluster Streaming 模式利用 Kafka 分区并将 SDC 作为 Spark Streaming 执行应用程序运行与 Kafka 分区一样多的管道实例。

在其他情况下，StreamSets 可以通过多线程进行扩展——例如，HTTP Server和JDBC Multitable Consumer起源在不同的线程中运行多个管道实例。

在所有情况下，Dataflow Performance Manager (DPM) 都可以为您提供集中的数据视图，包括总记录数。

cloudera-quickstart-vm - 什么是 StreamSets 架构？

1 回答 1

Related

Reference