问题标签 [flume-twitter]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
apache - SLF4j 多重绑定异常
我正在尝试使用 Apache Flume 将实时 Twitter 数据流式传输到 HDFS。当我运行命令 ./flume-ng agent -c /usr/local/apache-flume-1.4.0-bin/conf/ -f /usr/local/apache-flume-1.4.0-bin/conf/ flume.conf -n TwitterAgent 它给了我一个 SLF4j 异常。它不允许程序进一步运行。任何解决这个问题的建议都会有很大的帮助
java - 如何管理flume agent之间的并发。
我正在从事大数据项目。我们正在使用 Flume 将文件从 sftp 下载到 HDFS。然后,我们配置了 3 个代理。他们从同一来源阅读。结果,我们将 3 个重复文件放入 HDFS,这并不好。然而,我们必须只有一个文件。但是,我们需要对已处理的文件保持可追溯性,并管理代理之间的并发性。例如,我们有 3 个主要代理 A1、A2 和 A3。如果代理 A2 正在处理或正在处理文件 xxx.csv。其他人不会处理它,并且会寻找未处理的文件。因此,每个文件只能由一个代理处理。
有没有人研究过类似的问题?
hadoop - 如何使用 Apache Flume 过滤多个源数据?
我正在使用水槽来处理多个源数据并存储在 HDFS 中,但我不明白如何在存储到 HDFS 之前过滤数据。
hive - 无法加载 Avro 格式的推文数据
我正在研究 HDP (Hortonworks) 并尝试通过水槽收集推文并从 Hive 加载存储的数据。
问题是select * from tweetsavro limit 1;
有效但select * from tweetsavro limit 2;
不起作用,因为
我所做的写在这个答案中。即
推特.conf
twitter.avsc 由以下命令创建。
我创建了一个表
评论:
- 我尝试了一个外部表(而不是托管表)。但情况并没有改变。
- 因为我使用 Hortonworks,所以我不使用 Cloudera 的 TwitterSource。
hadoop - Flume 类路径包含多个 SLF4J 绑定,获取 twitter 数据
使用命令获取 twitter 数据时:
终端中的警告弹出窗口说:
我正在使用快速入门 cloudera 5.10 和水槽 1.7.0。
hadoop - Flume 不接受 Twitter 流的关键字
这里是 Hadoop 新手,使用本教程:https ://acadgild.com/blog/streaming-twitter-data-using-flume/捕获推文。这是我的 flume.conf 文件:
它可以很好地流式传输推文,它可以正确保存到我想要的目录中,但它似乎在流式传输所有内容而没有过滤我的关键字。我收到来自世界各地的推文,除了那个标签。
可能是什么问题?
hdfs - 使用 FLUME 在 Hadoop 中存储数据
我已按照教程中的 hadoop 安装和 Flume 的所有步骤进行操作。我对大数据工具很幼稚。我收到以下错误。我不明白,问题出在哪里?
我也阅读了很多关于安装的帖子,但我仍然面临这个问题。我的最终目标是使用 R 执行 Twitter 情绪分析。
有没有完整的解决方案。我可以从头再来一次。
hive - 使用 Oozie 在 Hive 上插入语句永远不会结束
我是 cloudera 的新手....,我已经在使用 oozie、flume、hive 和 impala....,我有一个可以根据需要手动工作的过程。我想使用 oozie 来改进功能以优化流程。Flume,是不是因为 Flume 不需要调度,只需将 oozie 用于 hive 和 impala。当数据进入 Hive 时......,想法是将信息复制到另一个支持 parquet 格式的表并在 Impala 上读取它......我试图将信息从一个表覆盖到另一个表,手动它工作得很好,但是当我做
oozie 永远不会结束工作流程并始终保持在 50% ......我将 hive-site.xml 复制到 HDFS 路径并添加到 xml。
hadoop - 流式传输推文时出现异常收到致命警报:Flume 中的 access_denied
我目前在 Flume 中有这个配置
twitter 应用程序授权密钥是正确的。而且我在水槽日志文件中不断收到此错误:
我在这个路径/home/cloudera/flumeprac创建了 twitter.conf 文件
我在终端上运行以下命令
我通过以下链接 https://community.hortonworks.com/questions/58817/flume-twitter-agent-behind-proxy-error.html
https://stackoverflow.com/questions/25699558/issues-with-flume-hdfs-sink-from-twitter