问题标签 [flume-twitter]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
hadoop - Apache Flume 1.5 在 Hadoop 2/自动故障转移集群配置中没有给出预期的结果
我已经在 CentOS 6.5//64 位的 HA/自动故障转移配置中配置了 Apache Hadoop 2 集群。我已经安装了 Flume 1.5 (apache-flume-1.5.0-bin.tar.gz)。我想使用 Flume/Hive 和一些关键词过滤来分析 twitter 数据。见下图: 这里是 hadoop2 配置文件内容。(仅重要属性)。
核心站点.xml
hdfs-site.xml
以下是flume配置文件内容:
水槽-env.sh
推特.conf
我正在执行以下命令。
我有以下问题/问题。
- a)-它接缝关键字过滤不起作用。我在配置文件中设置了错误的属性吗?
- b)-此过程不会在 hdfs 上复制 /user/flume/tweets/20140814/1_55 上的任何文件。
- c)-Twitter/API 访问令牌的访问级别是只读的。我需要读写权限吗?
- d)-使用 hdfs.path 样式是否正确,就像我使用 twitter.conf 一样?
- e)-进程正在执行而不是停止,不确定它将根据什么标准停止。
它继续显示以下输出。
任何人都可以帮助我,我错过了什么?
在用于此任务之前,我是否应该使用 Maven 重新构建 Flume?
hadoop - 使用 Flume 将 twitter 数据流式传输到 hadoop 到 HDFS 接收器
我安装了 Flume,运行 cloudera 的 twitter 情绪分析
当我通过这个命令运行twitter.conf
我尝试更改命令,尝试将 JARS 从 hadoop 导入到水槽,但没有任何效果。
这是出现问题的具体地方
在此之后,以下行不断重复,直到被用户打断
我正在发布输出日志(没有加载的罐子)
HDFS 没有变化。
hadoop - Twitter 搜索 API 和 Hadoop
我需要使用 Twitter 搜索 API 并将 Twitter 数据放入我的 HDFS。搜索 API 使用 REST 调用,我试图了解如何将它与 Apache Flume 一起使用。我需要授权密钥才能使用 Twitter 的 API,但我只是不明白如何使用 Flume 实现搜索 API。需要帮忙!谢谢!
hadoop - Flume - Twitter源语言过滤器
在以下情况下,我想请求您的帮助。
我目前正在使用 Cloudera CDH 5.1.2,并尝试使用 Flume 收集 Twitter 数据,如下面的 porsts (Cloudera) 中所述:
- http://blog.cloudera.com/blog/2012/10/analyzing-twitter-data-with-hadoop-part-2-gathering-data-with-flume/
- github.com/cloudera/cdh-twitter-example
在更新 pom.xml 中的版本后,我下载了源并重建了水槽源:
它工作得很好。
之后我想添加一个“语言”过滤器,只捕获特定语言的推文。为此,我修改了 TwitterSource.java 以调用 FilterQuery.language 方法,如下所示:
FilterQuery 查询 = 新的 FilterQuery();
...
if (languages.length != 0) {
query.language(languages);
}
我正在尝试使用 twitter4j-stream 版本 3.0.6。我在 pom.xml 中更新了它:
通过这些设置,我重建了 jar(mvn 包)。
当我启动代理时,出现以下异常 (NoSuchMethodError):
无法启动 EventDrivenSourceRunner:{ source:com.cloudera.flume.source.TwitterSource{name:Twitter,state:IDLE} } - 出现异常。java.lang.NoSuchMethodError: twitter4j.FilterQuery.language([Ljava/lang/String;)Ltwitter4j/FilterQuery; 在 com.cloudera.flume.source.TwitterSource.start(TwitterSource.java:165) 在 org.apache.flume.source.EventDrivenSourceRunner.start(EventDrivenSourceRunner.java:44) 在 org.apache.flume.lifecycle.LifecycleSupervisor$MonitorRunnable .run(LifecycleSupervisor.java:251) 在 java.util.concurrent.Executors$RunnableAdapter.call(Executors.java:471) 在 java.util.concurrent.FutureTask.runAndReset(FutureTask.java:304) 在 java.util。 concurrent.ScheduledThreadPoolExecutor$ScheduledFutureTask.access$301(ScheduledThreadPoolExecutor.java:178) 在 java.util.concurrent.ScheduledThreadPoolExecutor$ScheduledFutureTask。
我查了一下,这个版本的 twitter4j-stream 包含语言方法:
- github.com/yusuke/twitter4j/blob/3.0.6/twitter4j-stream/src/main/java/twitter4j/FilterQuery.java
我究竟做错了什么?
提前致谢,
彼得
flume-ng - 如何在flume中传递参数
我在水槽配置文件中有一个这样定义的推特水槽源
“keywords”属性被硬编码为“Avengers”。我想让这个属性值成为一个变量,并在我启动我的水槽代理时将它传递给它。我尝试了位置参数,但似乎不起作用。
关于如何完成这项工作的任何想法?
flume - Flume 推特配置错误
我正在尝试使用水槽提取 twitter 数据。但我收到以下错误
我使用了 cloudera 的 flume-sources-1.0-SNAPSHOT.jar。TwitterAgent 运行时出现上述错误。有什么解决办法吗?
提前致谢。
hadoop-streaming - Flume-twitter 流 API
我是水槽的新手,我使用水槽通过搜索 API 从 twitter 流式传输数据。但是 twitter json 的“geo”键设置为空。那么有没有办法在 Flume 中使用 Streaming API 获取 twitter 数据。?
hadoop - 如何使用 Flume 将 CSV(逗号分隔)文件加载到 HBase 表中?
我想将一个 CSV(只是逗号分隔)文件加载到我的 Hbase 表中。我已经在一些谷歌文章的帮助下尝试过,现在我可以将整行(或行)作为值加载到 Hbase 中,即单行中的所有值都存储为单列,但我想拆分基于行在分隔符逗号 (,) 上,并将这些值存储到 Hbase 表的列族中的不同列中。
请帮助解决我的问题。任何建议表示赞赏。
以下是我目前使用的输入文件、代理配置文件和 hbase 输出文件。
cloudera - Flume-ng hdfs sink .tmp 文件刷新率控制属性
我正在尝试每 5 分钟使用其他事件刷新 .tmp 文件,我的源速度很慢,需要 30 分钟才能在我的 hdfs 接收器中获取 128MB 文件。
在将文件滚动到 HDFS 之前,flume hdfs sink 中是否有任何属性可以控制 .tmp 文件的刷新率。
我需要这个来使用 .tmp 文件中的配置单元表查看 HDFS 中的数据。
目前我正在使用 hive 表查看 .tmp 文件中的数据,但 .tmp 文件很长时间没有刷新,因为卷大小为 128MB。
flume - Flume 事件标头中的预期时间戳,但它为空
我正在使用以下配置详细信息使用 Flume 将 Twitter 提要推送到 HDFS,但在 Flume 事件标头中获得了预期的时间戳,但它为空
推特.conf
使用命令运行
twitter.conf
我的配置文件名在哪里
但得到错误为:
寻求进一步的帮助??