问题标签 [flume-twitter]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

73 问题

0 投票

0 回答

34 浏览

apache - SLF4j 多重绑定异常

错误截图在这里

我正在尝试使用 Apache Flume 将实时 Twitter 数据流式传输到 HDFS。当我运行命令 ./flume-ng agent -c /usr/local/apache-flume-1.4.0-bin/conf/ -f /usr/local/apache-flume-1.4.0-bin/conf/ flume.conf -n TwitterAgent 它给了我一个 SLF4j 异常。它不允许程序进一步运行。任何解决这个问题的建议都会有很大的帮助

2017-03-06T04:54:54.080

0 投票

1 回答

569 浏览

hadoop - Twitter Flume 数据格式不可读

我的推特数据不是可读格式。我使用水槽获取 twitter 数据，我正在尝试使用 hive 表读取这些数据。但我在 hdfs 中看不到正确的数据。以下是详细信息：

水槽-env.sh -

twitter.conf -

当我少做一个文件时：

有人可以告诉我哪里出错了吗？我需要这些数据以可读格式用于配置单元表。

hadoop twitter flume flume-ng flume-twitter

2017-03-17T09:58:18.237

0 投票

1 回答

67 浏览

java - 如何管理flume agent之间的并发。

我正在从事大数据项目。我们正在使用 Flume 将文件从 sftp 下载到 HDFS。然后，我们配置了 3 个代理。他们从同一来源阅读。结果，我们将 3 个重复文件放入 HDFS，这并不好。然而，我们必须只有一个文件。但是，我们需要对已处理的文件保持可追溯性，并管理代理之间的并发性。例如，我们有 3 个主要代理 A1、A2 和 A3。如果代理 A2 正在处理或正在处理文件 xxx.csv。其他人不会处理它，并且会寻找未处理的文件。因此，每个文件只能由一个代理处理。

有没有人研究过类似的问题？

java hadoop flume flume-ng flume-twitter

2017-06-15T09:05:40.050

0 投票

1 回答

183 浏览

hadoop - 如何使用 Apache Flume 过滤多个源数据？

我正在使用水槽来处理多个源数据并存储在 HDFS 中，但我不明白如何在存储到 HDFS 之前过滤数据。

hadoop flume flume-ng flume-twitter

2017-08-18T15:02:04.923

0 投票

1 回答

313 浏览

hive - 无法加载 Avro 格式的推文数据

我正在研究 HDP (Hortonworks) 并尝试通过水槽收集推文并从 Hive 加载存储的数据。

问题是select * from tweetsavro limit 1;有效但select * from tweetsavro limit 2;不起作用，因为

我所做的写在这个答案中。即

推特.conf

twitter.avsc 由以下命令创建。

我创建了一个表

评论：

我尝试了一个外部表（而不是托管表）。但情况并没有改变。
因为我使用 Hortonworks，所以我不使用 Cloudera 的 TwitterSource。

hive avro flume hortonworks-data-platform flume-twitter

2017-08-23T10:01:12.100

0 投票

0 回答

367 浏览

hadoop - Flume 类路径包含多个 SLF4J 绑定，获取 twitter 数据

使用命令获取 twitter 数据时：

终端中的警告弹出窗口说：

我正在使用快速入门 cloudera 5.10 和水槽 1.7.0。

hadoop flume flume-ng flume-twitter

2017-09-10T19:26:07.047

0 投票

1 回答

806 浏览

hadoop - Flume 不接受 Twitter 流的关键字

这里是 Hadoop 新手，使用本教程：https ://acadgild.com/blog/streaming-twitter-data-using-flume/捕获推文。这是我的 flume.conf 文件：

它可以很好地流式传输推文，它可以正确保存到我想要的目录中，但它似乎在流式传输所有内容而没有过滤我的关键字。我收到来自世界各地的推文，除了那个标签。

可能是什么问题？

hadoop flume flume-twitter

2017-09-26T20:39:56.743

0 投票

1 回答

558 浏览

hdfs - 使用 FLUME 在 Hadoop 中存储数据

我已按照教程中的 hadoop 安装和 Flume 的所有步骤进行操作。我对大数据工具很幼稚。我收到以下错误。我不明白，问题出在哪里？

我也阅读了很多关于安装的帖子，但我仍然面临这个问题。我的最终目标是使用 R 执行 Twitter 情绪分析。

有没有完整的解决方案。我可以从头再来一次。

hdfs flume hadoop-streaming flume-ng flume-twitter

2017-09-28T21:16:37.353

0 投票

0 回答

203 浏览

hive - 使用 Oozie 在 Hive 上插入语句永远不会结束

我是 cloudera 的新手....，我已经在使用 oozie、flume、hive 和 impala....，我有一个可以根据需要手动工作的过程。我想使用 oozie 来改进功能以优化流程。Flume，是不是因为 Flume 不需要调度，只需将 oozie 用于 hive 和 impala。当数据进入 Hive 时......，想法是将信息复制到另一个支持 parquet 格式的表并在 Impala 上读取它......我试图将信息从一个表覆盖到另一个表，手动它工作得很好，但是当我做

oozie 永远不会结束工作流程并始终保持在 50% ......我将 hive-site.xml 复制到 HDFS 路径并添加到 xml。

hive oozie impala flume-twitter oozie-workflow

2017-11-24T06:19:50.490

0 投票

0 回答

616 浏览

hadoop - 流式传输推文时出现异常收到致命警报：Flume 中的 access_denied

我目前在 Flume 中有这个配置

twitter 应用程序授权密钥是正确的。而且我在水槽日志文件中不断收到此错误：

我在这个路径/home/cloudera/flumeprac创建了 twitter.conf 文件

我在终端上运行以下命令

我通过以下链接 https://community.hortonworks.com/questions/58817/flume-twitter-agent-behind-proxy-error.html

https://stackoverflow.com/questions/25699558/issues-with-flume-hdfs-sink-from-twitter

hadoop flume flume-ng flume-twitter

2018-01-25T16:40:07.500

1 2 3 4 5 6 7 8 9 10

问题标签 [flume-twitter]

Reference