问题标签 [flume-twitter]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
4035 浏览

hadoop - 无法将 twitter avro 数据正确加载到 hive 表中

需要你的帮助!

我正在尝试一个简单的练习,即从 twitter 获取数据,然后将其加载到 Hive 中进行分析。虽然我能够使用水槽(使用 Twitter 1% firehose 源)将数据导入 HDFS,并且还能够将数据加载到 Hive 表中。

但无法在 Twitter 数据中看到我期望的所有列,例如 user_location、user_description、user_friends_count、user_description、user_statuses_count。从 Avro 派生的架构仅包含标题和正文两列。

以下是我已完成的步骤:

1)使用以下配置创建一个水槽代理:

2)从avro数据文件派生架构,我不知道为什么从avro数据文件派生的架构只有两列标题和正文:

3) 运行上述代理并获取HDFS中的数据,找出avro数据的模式并创建一个Hive表:

4) 描述 Hive 表:

5)查询表:当我查询表时,我在“body”列中看到二进制数据,在“header”列中看到实际的架构信息。

如何创建一个包含实际架构中所有列的配置单元表,如“标题”列中所示。我的意思是所有列,如 user_location、user_description、user_friends_count、user_description、user_statuses_count?

从 avro 数据文件派生的架构不应该包含更多列吗?

我在水槽代理 (org.apache.flume.source.twitter.TwitterSource) 中使用的水槽-avro 源是否有任何问题?

感谢您通读..

谢谢Farrukh,我已经知道错误是配置'a1.sinks.k1.serializer = avro_event',我将其更改为'a1.sinks.k1.serializer = text',我能够将数据加载到Hive . 但现在问题是从 Hive 检索数据,这样做时我收到以下错误:

0 投票
1 回答
461 浏览

java - 远程调试 Flume 的自定义源和日志记录

我的 Flume(1.5.0 版)代理有一个自定义源,我想调试它。它实际上是自定义 Twitter 源,来自 Cloudera 的示例。我有几个问题:

(1) 运行 Flume 代理时,是否可以远程调试 Flume 源代码(用 Java 编写)?

另外,当我运行代理时,我有这个选项

-Dflume.root.logger=DEBUG,console

但似乎logger.debug我在 Java 源代码中的 s 没有出现在终端中。(2) 如何让我的日志出现?我的 Flume 或日志记录配置中缺少什么?

(3) 如果我能够使日志出现,我如何将我的 Flume sourcelogger.debug的控制台输出仅打印到文件中,不包括 Flume 代理自己的日志?

谢谢。

0 投票
4 回答
6064 浏览

linux - 例外如下。org.apache.flume.FlumeException:无法在flume twitter分析中加载源类型

我正在尝试使用 Flume 和 Hive 进行 twitter 分析。为了从 twitter 获取推文,我在 flume.conf 文件中设置了所有必需的参数(consumerKey、consumerSecret、accessToken 和 accessTokenSecret)。

我已经使用 bash rc 设置了水槽 tar 球和水槽源快照 jar 文件的类路径。

当我运行水槽代理时

我可以看到下面的日志跟踪,没有任何反应

我可以知道为什么当我已经设置了水槽 source.jar 时会抛出这个错误。请帮我解决这个问题。

0 投票
2 回答
1667 浏览

apache - 如何在flume中设置日志文件名

我正在使用 Apache Flume 进行日志收集。这是我的配置文件

我的应用程序运行良好。我的问题是,在 log_dir 中,文件默认使用一些随机数(我猜它的时间戳)时间戳。

如何为日志文件提供正确的文件名后缀?

0 投票
1 回答
1735 浏览

java - 使用自定义源运行水槽代理

我正在尝试从这里使用自定义源配置一个水槽代理,我尝试使用命令运行水槽代理

flume-ng 代理 --conf conf --conf-file conf/twitter1.conf --name TwitterAgent

但是我无法启动我的 Flume-agent,它显示这样的错误消息,

命令提示符回复是

配置文件是

0 投票
0 回答
420 浏览

hbase - Flume 因生命周期而停止。LifecycleSupervisor

我正在尝试通过 Flume 将 twitter 数据下沉到 hbase 中。Flume 进程因以下信息而停止

这是我的flume.conf

flume.conf 有任何配置问题吗?还是hbase序列化程序有问题?

那么我该如何调试呢?

0 投票
2 回答
303 浏览

apache - 推特情绪分析

先生,我想使用 Apache hive、flume 对 twitter 数据进行情感分析现在我有一个 twitter 帐户,并且我已经设置了 conf 文件。但是问题在于数据格式。它没有加载到蜂巢中。请帮助我,我在里面工作了一个月。

0 投票
1 回答
3753 浏览

flume-ng - Flume 不使用带有 Hadoop 2.5 cdh5.3 的 Flume-ng 处理来自 Twitter 源的关键字

我正在尝试使用MemChanneland处理一些 twitter 关键字HDFS。但是在控制台上的状态flume-ng后没有显示进一步的进展。HDFS started

以下是/etc/flume-ns/conf/flume-env.sh文件内容。

这是 twitter 配置文件的内容。

我在 centOs 控制台上的命令下运行。

当我在这里运行命令时是输出。

这是我的计算机环境的详细信息。

JDK

操作系统

Flume-ng

Hadoop

这是 hdfs 报告命令的输出。

0 投票
0 回答
141 浏览

hadoop - Flume 获取 Twitter 数据

通过 Flume 获取 Twitter 数据时,当我启动代理时,出现以下错误:

我的失败可能是什么?我是 Flume 的绝对初学者!

0 投票
0 回答
657 浏览

hadoop-streaming - Flume 通道容量已满给出异常

我已经开始使用 Flume Twitteragent 将 twitter 数据提取到 hdfs 几分钟后,数据无法写入 hdfs,它在终端中弹出一条消息,如下所述。

错误

160)] 无法传递事件。例外如下。org.apache.flume.EventDeliveryException: org.apache.flume.ChannelException: Take list for MemoryTransaction, capacity 100 full, 考虑更频繁地提交,增加容量,或增加线程数

我想我们需要增加频道容量,但不确定是否需要帮助。