问题标签 [flume-twitter]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
hadoop - 无法将 twitter avro 数据正确加载到 hive 表中
需要你的帮助!
我正在尝试一个简单的练习,即从 twitter 获取数据,然后将其加载到 Hive 中进行分析。虽然我能够使用水槽(使用 Twitter 1% firehose 源)将数据导入 HDFS,并且还能够将数据加载到 Hive 表中。
但无法在 Twitter 数据中看到我期望的所有列,例如 user_location、user_description、user_friends_count、user_description、user_statuses_count。从 Avro 派生的架构仅包含标题和正文两列。
以下是我已完成的步骤:
1)使用以下配置创建一个水槽代理:
2)从avro数据文件派生架构,我不知道为什么从avro数据文件派生的架构只有两列标题和正文:
3) 运行上述代理并获取HDFS中的数据,找出avro数据的模式并创建一个Hive表:
4) 描述 Hive 表:
5)查询表:当我查询表时,我在“body”列中看到二进制数据,在“header”列中看到实际的架构信息。
如何创建一个包含实际架构中所有列的配置单元表,如“标题”列中所示。我的意思是所有列,如 user_location、user_description、user_friends_count、user_description、user_statuses_count?
从 avro 数据文件派生的架构不应该包含更多列吗?
我在水槽代理 (org.apache.flume.source.twitter.TwitterSource) 中使用的水槽-avro 源是否有任何问题?
感谢您通读..
谢谢Farrukh,我已经知道错误是配置'a1.sinks.k1.serializer = avro_event',我将其更改为'a1.sinks.k1.serializer = text',我能够将数据加载到Hive . 但现在问题是从 Hive 检索数据,这样做时我收到以下错误:
java - 远程调试 Flume 的自定义源和日志记录
我的 Flume(1.5.0 版)代理有一个自定义源,我想调试它。它实际上是自定义 Twitter 源,来自 Cloudera 的示例。我有几个问题:
(1) 运行 Flume 代理时,是否可以远程调试 Flume 源代码(用 Java 编写)?
另外,当我运行代理时,我有这个选项
-Dflume.root.logger=DEBUG,console
但似乎logger.debug
我在 Java 源代码中的 s 没有出现在终端中。(2) 如何让我的日志出现?我的 Flume 或日志记录配置中缺少什么?
(3) 如果我能够使日志出现,我如何将我的 Flume sourcelogger.debug
的控制台输出仅打印到文件中,不包括 Flume 代理自己的日志?
谢谢。
linux - 例外如下。org.apache.flume.FlumeException:无法在flume twitter分析中加载源类型
我正在尝试使用 Flume 和 Hive 进行 twitter 分析。为了从 twitter 获取推文,我在 flume.conf 文件中设置了所有必需的参数(consumerKey、consumerSecret、accessToken 和 accessTokenSecret)。
我已经使用 bash rc 设置了水槽 tar 球和水槽源快照 jar 文件的类路径。
当我运行水槽代理时
我可以看到下面的日志跟踪,没有任何反应
我可以知道为什么当我已经设置了水槽 source.jar 时会抛出这个错误。请帮我解决这个问题。
apache - 如何在flume中设置日志文件名
我正在使用 Apache Flume 进行日志收集。这是我的配置文件
我的应用程序运行良好。我的问题是,在 log_dir 中,文件默认使用一些随机数(我猜它的时间戳)时间戳。
如何为日志文件提供正确的文件名后缀?
java - 使用自定义源运行水槽代理
我正在尝试从这里使用自定义源配置一个水槽代理,我尝试使用命令运行水槽代理
flume-ng 代理 --conf conf --conf-file conf/twitter1.conf --name TwitterAgent
但是我无法启动我的 Flume-agent,它显示这样的错误消息,
命令提示符回复是
配置文件是
hbase - Flume 因生命周期而停止。LifecycleSupervisor
我正在尝试通过 Flume 将 twitter 数据下沉到 hbase 中。Flume 进程因以下信息而停止
这是我的flume.conf
flume.conf 有任何配置问题吗?还是hbase序列化程序有问题?
那么我该如何调试呢?
apache - 推特情绪分析
先生,我想使用 Apache hive、flume 对 twitter 数据进行情感分析现在我有一个 twitter 帐户,并且我已经设置了 conf 文件。但是问题在于数据格式。它没有加载到蜂巢中。请帮助我,我在里面工作了一个月。
flume-ng - Flume 不使用带有 Hadoop 2.5 cdh5.3 的 Flume-ng 处理来自 Twitter 源的关键字
我正在尝试使用MemChannel
and处理一些 twitter 关键字HDFS
。但是在控制台上的状态flume-ng
后没有显示进一步的进展。HDFS started
以下是/etc/flume-ns/conf/flume-env.sh
文件内容。
这是 twitter 配置文件的内容。
我在 centOs 控制台上的命令下运行。
当我在这里运行命令时是输出。
这是我的计算机环境的详细信息。
JDK
操作系统
Flume-ng
Hadoop
这是 hdfs 报告命令的输出。
hadoop - Flume 获取 Twitter 数据
通过 Flume 获取 Twitter 数据时,当我启动代理时,出现以下错误:
我的失败可能是什么?我是 Flume 的绝对初学者!
hadoop-streaming - Flume 通道容量已满给出异常
我已经开始使用 Flume Twitteragent 将 twitter 数据提取到 hdfs 几分钟后,数据无法写入 hdfs,它在终端中弹出一条消息,如下所述。
错误
160)] 无法传递事件。例外如下。org.apache.flume.EventDeliveryException: org.apache.flume.ChannelException: Take list for MemoryTransaction, capacity 100 full, 考虑更频繁地提交,增加容量,或增加线程数
我想我们需要增加频道容量,但不确定是否需要帮助。