hdfs - 如何从本地文件系统和 hdfs 系统读取 Apache Samza 中的文件

Question

在 Apache Samza 中寻找从本地系统或 HDFS 读取文件的方法，然后应用过滤器、聚合、where 条件、order by、group by 成批数据。请提供一些帮助。

score 0 · Accepted Answer

您应该为要使用的每个数据源创建一个系统。例如，要从文件中读取，您应该使用 FileReaderSystemFactory 创建一个系统——对于 HDFS，使用 HdfsSystemFactory 创建一个系统。然后，您可以使用常规流程回调或窗口化来处理您的数据。

score 0 · Accepted Answer

您可以使用标准 Kafka 生产者来提供您的 Samza 作业。为了让您轻松。您可以使用 Logstash，您需要在您指定的位置创建 Logstash 脚本：

输入

我正在使用这种方法从本地文件中提供我的 samza 作业

另一种方法可能是使用 Kafka Connect http://docs.confluent.io/2.0.0/connect/

2 回答 2