在 Apache Samza 中寻找从本地系统或 HDFS 读取文件的方法,然后应用过滤器、聚合、where 条件、order by、group by 成批数据。请提供一些帮助。
问问题
155 次
2 回答
0
您应该为要使用的每个数据源创建一个系统。例如,要从文件中读取,您应该使用 FileReaderSystemFactory 创建一个系统——对于 HDFS,使用 HdfsSystemFactory 创建一个系统。然后,您可以使用常规流程回调或窗口化来处理您的数据。
于 2017-02-15T18:27:58.663 回答
0
您可以使用标准 Kafka 生产者来提供您的 Samza 作业。为了让您轻松。您可以使用 Logstash,您需要在您指定的位置创建 Logstash 脚本:
- 输入为本地文件或 hdfs
- 过滤器(可选)在这里您可以进行基本过滤、聚合等。
- 带有您要提供的特定主题的kafka输出
输入
我正在使用这种方法从本地文件中提供我的 samza 作业
另一种方法可能是使用 Kafka Connect http://docs.confluent.io/2.0.0/connect/
于 2017-03-08T10:17:53.617 回答