我正在使用水槽来处理多个源数据并存储在 HDFS 中,但我不明白如何在存储到 HDFS 之前过滤数据。
问问题
183 次
1 回答
0
你有两个选择:
- 使用 Flume 拦截器,在此处查看答案。
- 使用基于流的解决方案(Apache spark、Apache Heron/Storm)过滤记录,然后将其存储在 HDFS 中,
第二个选项使您可以更灵活地编写不同类型的流模式。如果您有更多疑问,请添加评论。
于 2017-08-18T15:16:31.270 回答