问题标签 [flume-twitter]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
34 浏览

apache - SLF4j 多重绑定异常

错误截图在这里

我正在尝试使用 Apache Flume 将实时 Twitter 数据流式传输到 HDFS。当我运行命令 ./flume-ng agent -c /usr/local/apache-flume-1.4.0-bin/conf/ -f /usr/local/apache-flume-1.4.0-bin/conf/ flume.conf -n TwitterAgent 它给了我一个 SLF4j 异常。它不允许程序进一步运行。任何解决这个问题的建议都会有很大的帮助

0 投票
1 回答
569 浏览

hadoop - Twitter Flume 数据格式不可读

我的推特数据不是可读格式。我使用水槽获取 twitter 数据,我正在尝试使用 hive 表读取这些数据。但我在 hdfs 中看不到正确的数据。以下是详细信息:

水槽-env.sh -

twitter.conf -

当我少做一个文件时:

在此处输入图像描述

有人可以告诉我哪里出错了吗?我需要这些数据以可读格式用于配置单元表。

0 投票
1 回答
67 浏览

java - 如何管理flume agent之间的并发。

我正在从事大数据项目。我们正在使用 Flume 将文件从 sftp 下载到 HDFS。然后,我们配置了 3 个代理。他们从同一来源阅读。结果,我们将 3 个重复文件放入 HDFS,这并不好。然而,我们必须只有一个文件。但是,我们需要对已处理的文件保持可追溯性,并管理代理之间的并发性。例如,我们有 3 个主要代理 A1、A2 和 A3。如果代理 A2 正在处理或正在处理文件 xxx.csv。其他人不会处理它,并且会寻找未处理的文件。因此,每个文件只能由一个代理处理。

有没有人研究过类似的问题?

0 投票
1 回答
183 浏览

hadoop - 如何使用 Apache Flume 过滤多个源数据?

我正在使用水槽来处理多个源数据并存储在 HDFS 中,但我不明白如何在存储到 HDFS 之前过滤数据。

0 投票
1 回答
313 浏览

hive - 无法加载 Avro 格式的推文数据

我正在研究 HDP (Hortonworks) 并尝试通过水槽收集推文并从 Hive 加载存储的数据。

问题是select * from tweetsavro limit 1;有效但select * from tweetsavro limit 2;不起作用,因为

我所做的写在这个答案中。即

推特.conf

twitter.avsc 由以下命令创建。

我创建了一个表

评论:

  • 我尝试了一个外部表(而不是托管表)。但情况并没有改变。
  • 因为我使用 Hortonworks,所以我不使用 Cloudera 的 TwitterSource。
0 投票
0 回答
367 浏览

hadoop - Flume 类路径包含多个 SLF4J 绑定,获取 twitter 数据

使用命令获取 twitter 数据时:

终端中的警告弹出窗口说:

我正在使用快速入门 cloudera 5.10 和水槽 1.7.0。

0 投票
1 回答
806 浏览

hadoop - Flume 不接受 Twitter 流的关键字

这里是 Hadoop 新手,使用本教程:https ://acadgild.com/blog/streaming-twitter-data-using-flume/捕获推文。这是我的 flume.conf 文件:

它可以很好地流式传输推文,它可以正确保存到我想要的目录中,但它似乎在流式传输所有内容而没有过滤我的关键字。我收到来自世界各地的推文,除了那个标签。

可能是什么问题?

0 投票
1 回答
558 浏览

hdfs - 使用 FLUME 在 Hadoop 中存储数据

我已按照教程中的 hadoop 安装和 Flume 的所有步骤进行操作。我对大数据工具很幼稚。我收到以下错误。我不明白,问题出在哪里?

我也阅读了很多关于安装的帖子,但我仍然面临这个问题。我的最终目标是使用 R 执行 Twitter 情绪分析。

有没有完整的解决方案。我可以从头再来一次。

0 投票
0 回答
203 浏览

hive - 使用 Oozie 在 Hive 上插入语句永远不会结束

我是 cloudera 的新手....,我已经在使用 oozie、flume、hive 和 impala....,我有一个可以根据需要手动工作的过程。我想使用 oozie 来改进功能以优化流程。Flume,是不是因为 Flume 不需要调度,只需将 oozie 用于 hive 和 impala。当数据进入 Hive 时......,想法是将信息复制到另一个支持 parquet 格式的表并在 Impala 上读取它......我试图将信息从一个表覆盖到另一个表,手动它工作得很好,但是当我做

oozie 永远不会结束工作流程并始终保持在 50% ......我将 hive-site.xml 复制到 HDFS 路径并添加到 xml。

0 投票
0 回答
616 浏览

hadoop - 流式传输推文时出现异常收到致命警报:Flume 中的 access_denied

我目前在 Flume 中有这个配置

twitter 应用程序授权密钥是正确的。而且我在水槽日志文件中不断收到此错误:

我在这个路径/home/cloudera/flumeprac创建了 twitter.conf 文件

我在终端上运行以下命令

我通过以下链接 https://community.hortonworks.com/questions/58817/flume-twitter-agent-behind-proxy-error.html

https://stackoverflow.com/questions/25699558/issues-with-flume-hdfs-sink-from-twitter