0

是否可以从 spark 中的单个 DStream 中获取多个 DStream。我的用例如下:我从 HDFS 文件中获取日志数据流。日志行包含一个 id (id=xyz)。我需要根据 id 以不同的方式处理日志行。所以我试图为输入 Dstream 中的每个 id 设置不同的 Dstream。我在文档中找不到任何相关内容。有谁知道如何在 Spark 中实现这一点或指向任何链接。

谢谢

4

1 回答 1

0

您不能从单个 DStream 中拆分多个 DStream。您能做的最好的事情是:-

  1. 修改你的源系统,为不同的 ID 提供不同的流,然后你可以有不同的作业来处理不同的流
  2. 如果您的源无法更改并为您提供混合 ID 的流,那么您需要编写自定义逻辑来识别 ID,然后执行适当的操作。

我总是更喜欢#1,因为它是更清洁的解决方案,但也有需要实施#2 的例外情况。

于 2016-01-20T10:45:12.003 回答