0

我正在使用水槽来处理多个源数据并存储在 HDFS 中,但我不明白如何在存储到 HDFS 之前过滤数据。

4

1 回答 1

0

你有两个选择:

  • 使用 Flume 拦截器,在此处查看答案。
  • 使用基于流的解决方案(Apache spark、Apache Heron/Storm)过滤记录,然后将其存储在 HDFS 中,

第二个选项使您可以更灵活地编写不同类型的流模式。如果您有更多疑问,请添加评论。

于 2017-08-18T15:16:31.270 回答