1

在 Apache Samza 中寻找从本地系统或 HDFS 读取文件的方法,然后应用过滤器、聚合、where 条件、order by、group by 成批数据。请提供一些帮助。

4

2 回答 2

0

您应该为要使用的每个数据源创建一个系统。例如,要从文件中读取,您应该使用 FileReaderSystemFactory 创建一个系统——对于 HDFS,使用 HdfsSystemFactory 创建一个系统。然后,您可以使用常规流程回调或窗口化来处理您的数据。

于 2017-02-15T18:27:58.663 回答
0

您可以使用标准 Kafka 生产者来提供您的 Samza 作业。为了让您轻松。您可以使用 Logstash,您需要在您指定的位置创建 Logstash 脚本:

  • 输入为本地文件或 hdfs
  • 过滤器(可选)在这里您可以进行基本过滤、聚合等。
  • 带有您要提供的特定主题的kafka输出

输入

我正在使用这种方法从本地文件中提供我的 samza 作业

另一种方法可能是使用 Kafka Connect http://docs.confluent.io/2.0.0/connect/

于 2017-03-08T10:17:53.617 回答