我的应用程序配置为从已配置的 Kafka 中读取主题,然后将转换后的结果写入 Hadoop HDFS。为此,它需要在 Yarn 集群节点上启动。
为此,我们想使用 Spring DataFlow。但是由于这个应用程序不需要来自另一个流的任何输入(它已经知道从哪里拉它的源),并且什么也不输出,我如何从中创建一个有效的 DataFlow 流?换句话说,这将是一个仅由一个应用程序组成的流,它应该在 Yarn 节点上无限期地运行。
我的应用程序配置为从已配置的 Kafka 中读取主题,然后将转换后的结果写入 Hadoop HDFS。为此,它需要在 Yarn 集群节点上启动。
为此,我们想使用 Spring DataFlow。但是由于这个应用程序不需要来自另一个流的任何输入(它已经知道从哪里拉它的源),并且什么也不输出,我如何从中创建一个有效的 DataFlow 流?换句话说,这将是一个仅由一个应用程序组成的流,它应该在 Yarn 节点上无限期地运行。
在这种情况下,您需要一个流定义来连接到 Kafka 中的指定目标并写入 HDFS。
例如,流看起来像这样:
stream create a1 --definition ":myKafkaTopic > hdfs"
您可以在此处阅读以获取更多信息。