twitter - 如何配置 Apache Flume 从 Twitter 获取特定时间段的数据？

Question

我有一个 hadoop 集群和 apache flume 用于从 twitter 到 HDFS 的数据集成，它默认按时间顺序获取数据，就像最近的推文将首先获取一样，现在我有用例从 twitter 获取特定时期的特定数据，比如说 2013 年 2 月。请让我知道是否需要设置水槽或 Twitter 句柄中的任何配置或属性。

提前致谢。

score 1 · Accepted Answer

您可能希望使用自定义的水槽源。

http://blog.cloudera.com/blog/2012/10/analyzing-twitter-data-with-hadoop-part-2-gathering-data-with-flume/

上面链接中提到的 TwitterSource 将帮助您根据关键字获取 Twitter 数据。

twitter - 如何配置 Apache Flume 从 Twitter 获取特定时间段的数据？

1 回答 1

Related

Reference