问题标签 [flume-twitter]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
19 浏览

hadoop - 面临水槽和 hadoop 连接的问题

我已经在我的系统中安装并安装了 Flume 1.9.0,我正在尝试使用 Flume 研究 Twitter 帐户的数据摄取。但我面临以下问题:

谁能指导我做错了什么。为此,我遵循了以下链接,但仍然遇到同样的问题。

https://www.guru99.com/create-your-first-flume-program.html

请指导那里有什么错误以及我可以解决它的任何链接,我完全是初学者。

0 投票
0 回答
21 浏览

hadoop - 使用 apache flume 的 Twitter 流数据出错

我正在从事一项与 Hadoop 和水槽相关的小任务。我正在尝试使用水槽获取 Twitter 数据,但出现以下错误

错误 node.AbstractConfigurationProvider:由于配置过程中的错误,已删除 Sink HDFS java.lang.InstantiationException:定义了不兼容的接收器和通道设置。sink 的批量大小大于通道事务容量。Sink:HDFS,批量大小 = 1000,通道 MemChannel,事务容量 = 100

flume_twitter.conf

水槽-env.sh

下面的命令用于运行文件

flume-ng 代理 –conf ./conf/ -f ../conf/flume_twitter.conf -Dflume.root.logger=DEBUG,console -n TwitterAgent

我也尝试过以下命令

flume-ng 代理 TwitterAgent -f ../conf/flume_twitter.conf

我已经尝试了很多方法,几乎​​所有堆栈溢出的引用都
可以帮助我解决这个错误
提前谢谢!

0 投票
1 回答
47 浏览

hadoop - 仅地图作业未运行。卡在正在运行的工作中

我已经通过 Apache Flume 流式传输数据,并且数据已存储在我的 hdfs 文件夹中的临时文件中:user/*****/tweets/FlumeData.1643626732852.tmp

现在我正在尝试运行一个仅映射器的作业,它将通过 url 删除、#标签删除、@删除、停用词删除等方式对作业进行预处理。

但是,仅映射器作业在运行作业时停止。

映射器工作代码:

执行输出:

我需要做什么来解决这个问题?请帮忙。此外,对于任何需要的附加信息,请通知我。我会尽快提供给他们。

添加 YARN UI 的屏幕截图: 纱线用户界面