0

我有一个 hadoop 集群和 apache flume 用于从 twitter 到 HDFS 的数据集成,它默认按时间顺序获取数据,就像最近的推文将首先获取一样,现在我有用例从 twitter 获取特定时期的特定数据,比如说 2013 年 2 月。请让我知道是否需要设置水槽或 Twitter 句柄中的任何配置或属性。

提前致谢。

4

1 回答 1

1

您可能希望使用自定义的水槽源。

http://blog.cloudera.com/blog/2012/10/analyzing-twitter-data-with-hadoop-part-2-gathering-data-with-flume/

上面链接中提到的 TwitterSource 将帮助您根据关键字获取 Twitter 数据。

于 2013-09-04T15:33:51.337 回答