Find centralized, trusted content and collaborate around the technologies you use most.
Teams
Q&A for work
Connect and share knowledge within a single location that is structured and easy to search.
我有一个 hadoop 集群和 apache flume 用于从 twitter 到 HDFS 的数据集成,它默认按时间顺序获取数据,就像最近的推文将首先获取一样,现在我有用例从 twitter 获取特定时期的特定数据,比如说 2013 年 2 月。请让我知道是否需要设置水槽或 Twitter 句柄中的任何配置或属性。
提前致谢。
您可能希望使用自定义的水槽源。
http://blog.cloudera.com/blog/2012/10/analyzing-twitter-data-with-hadoop-part-2-gathering-data-with-flume/
上面链接中提到的 TwitterSource 将帮助您根据关键字获取 Twitter 数据。