“flume-twitter”的相关标签问题

0 投票

2 回答

1272 浏览

hadoop - Apache Flume 1.5 在 Hadoop 2/自动故障转移集群配置中没有给出预期的结果

我已经在 CentOS 6.5//64 位的 HA/自动故障转移配置中配置了 Apache Hadoop 2 集群。我已经安装了 Flume 1.5 (apache-flume-1.5.0-bin.tar.gz)。我想使用 Flume/Hive 和一些关键词过滤来分析 twitter 数据。见下图：这里是 hadoop2 配置文件内容。（仅重要属性）。

核心站点.xml

hdfs-site.xml

以下是flume配置文件内容：

水槽-env.sh

推特.conf

我正在执行以下命令。

我有以下问题/问题。

a)-它接缝关键字过滤不起作用。我在配置文件中设置了错误的属性吗？
b)-此过程不会在 hdfs 上复制 /user/flume/tweets/20140814/1_55 上的任何文件。
c)-Twitter/API 访问令牌的访问级别是只读的。我需要读写权限吗？
d)-使用 hdfs.path 样式是否正确，就像我使用 twitter.conf 一样？
e)-进程正在执行而不是停止，不确定它将根据什么标准停止。

它继续显示以下输出。

任何人都可以帮助我，我错过了什么？

在用于此任务之前，我是否应该使用 Maven 重新构建 Flume？

2014-08-13T18:15:00.947

0 投票

0 回答

932 浏览

hadoop - 使用 Flume 将 twitter 数据流式传输到 hadoop 到 HDFS 接收器

我安装了 Flume，运行 cloudera 的 twitter 情绪分析

当我通过这个命令运行twitter.conf

我尝试更改命令，尝试将 JARS 从 hadoop 导入到水槽，但没有任何效果。

这是出现问题的具体地方

在此之后，以下行不断重复，直到被用户打断

我正在发布输出日志（没有加载的罐子）

HDFS 没有变化。

hadoop twitter flume flume-ng flume-twitter

2014-10-12T21:52:28.900

0 投票

2 回答

268 浏览

hadoop - Twitter 搜索 API 和 Hadoop

我需要使用 Twitter 搜索 API 并将 Twitter 数据放入我的 HDFS。搜索 API 使用 REST 调用，我试图了解如何将它与 Apache Flume 一起使用。我需要授权密钥才能使用 Twitter 的 API，但我只是不明白如何使用 Flume 实现搜索 API。需要帮忙！谢谢！

hadoop flume flume-twitter

2014-11-03T19:39:31.507

0 投票

2 回答

1036 浏览

hadoop - Flume - Twitter源语言过滤器

在以下情况下，我想请求您的帮助。

我目前正在使用 Cloudera CDH 5.1.2，并尝试使用 Flume 收集 Twitter 数据，如下面的 porsts (Cloudera) 中所述：

http://blog.cloudera.com/blog/2012/10/analyzing-twitter-data-with-hadoop-part-2-gathering-data-with-flume/
github.com/cloudera/cdh-twitter-example

在更新 pom.xml 中的版本后，我下载了源并重建了水槽源：

它工作得很好。

之后我想添加一个“语言”过滤器，只捕获特定语言的推文。为此，我修改了 TwitterSource.java 以调用 FilterQuery.language 方法，如下所示：

FilterQuery 查询 = 新的 FilterQuery();
...
if (languages.length != 0) {
query.language(languages);
}

我正在尝试使用 twitter4j-stream 版本 3.0.6。我在 pom.xml 中更新了它：

通过这些设置，我重建了 jar（mvn 包）。

当我启动代理时，出现以下异常 (NoSuchMethodError)：

无法启动 EventDrivenSourceRunner：{ source:com.cloudera.flume.source.TwitterSource{name:Twitter,state:IDLE} } - 出现异常。java.lang.NoSuchMethodError: twitter4j.FilterQuery.language([Ljava/lang/String;)Ltwitter4j/FilterQuery; 在 com.cloudera.flume.source.TwitterSource.start(TwitterSource.java:165) 在 org.apache.flume.source.EventDrivenSourceRunner.start(EventDrivenSourceRunner.java:44) 在 org.apache.flume.lifecycle.LifecycleSupervisor$MonitorRunnable .run(LifecycleSupervisor.java:251) 在 java.util.concurrent.Executors$RunnableAdapter.call(Executors.java:471) 在 java.util.concurrent.FutureTask.runAndReset(FutureTask.java:304) 在 java.util。 concurrent.ScheduledThreadPoolExecutor$ScheduledFutureTask.access$301(ScheduledThreadPoolExecutor.java:178) 在 java.util.concurrent.ScheduledThreadPoolExecutor$ScheduledFutureTask。

我查了一下，这个版本的 twitter4j-stream 包含语言方法：