问题标签 [flume-twitter]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
1272 浏览

hadoop - Apache Flume 1.5 在 Hadoop 2/自动故障转移集群配置中没有给出预期的结果

我已经在 CentOS 6.5//64 位的 HA/自动故障转移配置中配置了 Apache Hadoop 2 集群。我已经安装了 Flume 1.5 (apache-flume-1.5.0-bin.tar.gz)。我想使用 Flume/Hive 和一些关键词过滤来分析 twitter 数据。见下图: 这里是 hadoop2 配置文件内容。(仅重要属性)。

核心站点.xml

hdfs-site.xml

以下是flume配置文件内容:

水槽-env.sh

推特.conf

我正在执行以下命令。

我有以下问题/问题。

  • a)-它接缝关键字过滤不起作用。我在配置文件中设置了错误的属性吗?
  • b)-此过程不会在 hdfs 上复制 /user/flume/tweets/20140814/1_55 上的任何文件。
  • c)-Twitter/API 访问令牌的访问级别是只读的。我需要读写权限吗?
  • d)-使用 hdfs.path 样式是否正确,就像我使用 twitter.conf 一样?
  • e)-进程正在执行而不是停止,不确定它将根据什么标准停止。

它继续显示以下输出。

任何人都可以帮助我,我错过了什么?

在用于此任务之前,我是否应该使用 Maven 重新构建 Flume?

0 投票
0 回答
932 浏览

hadoop - 使用 Flume 将 twitter 数据流式传输到 hadoop 到 HDFS 接收器

我安装了 Flume,运行 cloudera 的 twitter 情绪分析

当我通过这个命令运行twitter.conf

我尝试更改命令,尝试将 JARS 从 hadoop 导入到水槽,但没有任何效果。

这是出现问题的具体地方

在此之后,以下行不断重复,直到被用户打断

我正在发布输出日志(没有加载的罐子)

HDFS 没有变化。

0 投票
2 回答
268 浏览

hadoop - Twitter 搜索 API 和 Hadoop

我需要使用 Twitter 搜索 API 并将 Twitter 数据放入我的 HDFS。搜索 API 使用 REST 调用,我试图了解如何将它与 Apache Flume 一起使用。我需要授权密钥才能使用 Twitter 的 API,但我只是不明白如何使用 Flume 实现搜索 API。需要帮忙!谢谢!

0 投票
2 回答
1036 浏览

hadoop - Flume - Twitter源语言过滤器

在以下情况下,我想请求您的帮助。

我目前正在使用 Cloudera CDH 5.1.2,并尝试使用 Flume 收集 Twitter 数据,如下面的 porsts (Cloudera) 中所述:

在更新 pom.xml 中的版本后,我下载了源并重建了水槽源:

它工作得很好。

之后我想添加一个“语言”过滤器,只捕获特定语言的推文。为此,我修改了 TwitterSource.java 以调用 FilterQuery.language 方法,如下所示:

FilterQuery 查询 = 新的 FilterQuery();
...
if (languages.length != 0) {
query.language(languages);
}

我正在尝试使用 twitter4j-stream 版本 3.0.6。我在 pom.xml 中更新了它:

通过这些设置,我重建了 jar(mvn 包)。

当我启动代理时,出现以下异常 (NoSuchMethodError):

无法启动 EventDrivenSourceRunner:{ source:com.cloudera.flume.source.TwitterSource{name:Twitter,state:IDLE} } - 出现异常。java.lang.NoSuchMethodError: twitter4j.FilterQuery.language([Ljava/lang/String;)Ltwitter4j/FilterQuery; 在 com.cloudera.flume.source.TwitterSource.start(TwitterSource.java:165) 在 org.apache.flume.source.EventDrivenSourceRunner.start(EventDrivenSourceRunner.java:44) 在 org.apache.flume.lifecycle.LifecycleSupervisor$MonitorRunnable .run(LifecycleSupervisor.java:251) 在 java.util.concurrent.Executors$RunnableAdapter.call(Executors.java:471) 在 java.util.concurrent.FutureTask.runAndReset(FutureTask.java:304) 在 java.util。 concurrent.ScheduledThreadPoolExecutor$ScheduledFutureTask.access$301(ScheduledThreadPoolExecutor.java:178) 在 java.util.concurrent.ScheduledThreadPoolExecutor$ScheduledFutureTask。

我查了一下,这个版本的 twitter4j-stream 包含语言方法:

  • github.com/yusuke/twitter4j/blob/3.0.6/twitter4j-stream/src/main/java/twitter4j/FilterQuery.java

我究竟做错了什么?

提前致谢,

彼得

0 投票
1 回答
778 浏览

flume-ng - 如何在flume中传递参数

我在水槽配置文件中有一个这样定义的推特水槽源

“keywords”属性被硬编码为“Avengers”。我想让这个属性值成为一个变量,并在我启动我的水槽代理时将它传递给它。我尝试了位置参数,但似乎不起作用。

关于如何完成这项工作的任何想法?

0 投票
2 回答
986 浏览

flume - Flume 推特配置错误

我正在尝试使用水槽提取 twitter 数据。但我收到以下错误

我使用了 cloudera 的 flume-sources-1.0-SNAPSHOT.jar。TwitterAgent 运行时出现上述错误。有什么解决办法吗?

提前致谢。

0 投票
1 回答
1244 浏览

hadoop-streaming - Flume-twitter 流 API

我是水槽的新手,我使用水槽通过搜索 API 从 twitter 流式传输数据。但是 twitter json 的“geo”键设置为空。那么有没有办法在 Flume 中使用 Streaming API 获取 twitter 数据。?

0 投票
0 回答
630 浏览

hadoop - 如何使用 Flume 将 CSV(逗号分隔)文件加载到 HBase 表中?

我想将一个 CSV(只是逗号分隔)文件加载到我的 Hbase 表中。我已经在一些谷歌文章的帮助下尝试过,现在我可以将整行(或行)作为值加载到 Hbase 中,即单行中的所有值都存储为单列,但我想拆分基于行在分隔符逗号 (,) 上,并将这些值存储到 Hbase 表的列族中的不同列中。

请帮助解决我的问题。任何建议表示赞赏。

以下是我目前使用的输入文件、代理配置文件和 hbase 输出文件。

0 投票
1 回答
459 浏览

cloudera - Flume-ng hdfs sink .tmp 文件刷新率控制属性

我正在尝试每 5 分钟使用其他事件刷新 .tmp 文件,我的源速度很慢,需要 30 分钟才能在我的 hdfs 接收器中获取 128MB 文件。

在将文件滚动到 HDFS 之前,flume hdfs sink 中是否有任何属性可以控制 .tmp 文件的刷新率。

我需要这个来使用 .tmp 文件中的配置单元表查看 HDFS 中的数据。

目前我正在使用 hive 表查看 .tmp 文件中的数据,但 .tmp 文件很长时间没有刷新,因为卷大小为 128MB。

0 投票
3 回答
5803 浏览

flume - Flume 事件标头中的预期时间戳,但它为空

我正在使用以下配置详细信息使用 Flume 将 Twitter 提要推送到 HDFS,但在 Flume 事件标头中获得了预期的时间戳,但它为空

推特.conf

使用命令运行

twitter.conf我的配置文件名在哪里

但得到错误为:

寻求进一步的帮助??