问题标签 [flume-ng]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
1123 浏览

apache - 并行读取 Flume spoolDir

由于我不允许在 prod 服务器上设置 Flume,我必须下载日志,将它们放在 Flume spoolDir 中,并有一个接收器从通道消耗并写入 Cassandra。一切正常。

但是,由于我在 spoolDir 中有很多日志文件,并且当前设置一次只处理 1 个文件,因此需要一段时间。我希望能够同时处理许多文件。我想到的一种方法是使用 spoolDir 但将文件分发到 5-10 个不同的目录中,并定义多个源/通道/接收器,但这有点笨拙。有没有更好的方法来实现这一目标?

谢谢

0 投票
1 回答
3772 浏览

java - 如何修复错误处理元素 Flume:CLASS_NOT_FOUND?

我们无法使用 log4j2 让 flumeappender 工作。但是,使用 log4j.properties 配置文件,而不是通过 log4j2.xml。我们得到的错误是:Error processing element Flume: CLASS_NOT_FOUND

以下是我的 Maven 依赖项:

以下是我的 log4j2.xml:

启动时的日志:

0 投票
0 回答
599 浏览

java - 如何避免来自 Flume Log4jAppender 的 NullPointerException?

上下文:我们正在尝试使用 Flume NG 1.5.0.1 和 Log4j 2.0.2 中的 Log4jAppender 从应用程序流式传输日志事件以删除 FLume 代理。在远程 Flume 代理关闭之前,实际应用程序运行良好。我们遇到了显然没有在 Logger 的 info 方法中处理的 NPE。

我们希望以下两件事能够正常工作:

  1. 应用程序应处理远程水槽代理不可用并重新连接。
  2. 应用程序代码应该与 Log4j appender 内部隔离。

例外:

资源:

log4j.properties:

0 投票
3 回答
5713 浏览

hdfs - Flume HDFS Sink 在 HDFS 上生成大量小文件

我有一个玩具设置,使用 Flume 将 log4j 消息发送到 hdfs。我无法配置 hdfs 接收器以避免许多小文件。我想我可以配置 hdfs sink 以在每次文件大小达到 10mb 时创建一个新文件,但它仍在创建大约 1.5KB 的文件。

这是我当前的水槽配置:

0 投票
1 回答
2299 浏览

hadoop - sink.hdfs writer 在我的文本文件中添加了垃圾

我已成功配置水槽以将文本文件从本地文件夹传输到 hdfs。我的问题是当这个文件被传输到 hdfs 时,一些不需要的文本“hdfs.write.Longwriter + 二进制字符”会在我的文本文件中添加前缀。这是我的flume.conf

我的源文本文件非常简单,包含文本:嗨,我的名字是 Hadoop,这是文件一。

我在 hdfs 中获得的接收器文件如下所示: SEQ !org.apache.hadoop.io.LongWritable org.apache.hadoop.io.Text������5����>I <4 H�ǥ� +嗨,我的名字是 Hadoop,这是文件一。

请让我知道我做错了什么?

0 投票
3 回答
2985 浏览

hadoop - MissingArgumentException while configuring Flume

I installed Flume

and tried to run this command

and I get this exception

0 投票
0 回答
932 浏览

hadoop - 使用 Flume 将 twitter 数据流式传输到 hadoop 到 HDFS 接收器

我安装了 Flume,运行 cloudera 的 twitter 情绪分析

当我通过这个命令运行twitter.conf

我尝试更改命令,尝试将 JARS 从 hadoop 导入到水槽,但没有任何效果。

这是出现问题的具体地方

在此之后,以下行不断重复,直到被用户打断

我正在发布输出日志(没有加载的罐子)

HDFS 没有变化。

0 投票
1 回答
186 浏览

hadoop - 如何减慢 Flume 序列生成器的速度

Flume 有一个称为序列生成器的源,可用于测试;它只是生成随机数据(递增数字)。

我将它用于测试/调试,但它会非常快速地生成大量数据。我怎样才能使它每秒产生更少的数据量?

0 投票
1 回答
2619 浏览

java - 使用 Flume 反序列化 Json 文件并沉入 HDFS

我有一个假脱机目录,其中存在所有 json 文件,传入的文件将每秒添加到此目录,我必须反序列化传入的 json 文件并获取所需字段并将其附加到 HDFS 目录中。

我所做的是创建了一个水槽 conf 文件,其中将 spooling 目录中的文件作为源,并使用 1 Sink 将 json 文件直接放入 HDFS。

我必须在 Sink 之前将此 json 转换为结构格式并将其放入 HDFS。最重要的是,它不是推特数据。而且我必须实现纯粹的 Flume。

我使用以下水槽配置来完成工作:

但我不知道如何使用反序列化器。

有人可以帮助我了解如何反序列化传入的 Json 文件吗?如果我需要用java编写任何代码,请帮助我,我需要使用什么接口?如果可能的话,给一些提示。

0 投票
1 回答
1044 浏览

hadoop - 如何通过水槽将 Twitterdata 通过代理提供给 hdfs?

我已经安装了水槽并试图将 Twitter 数据输入 hdfs 文件夹。

我的 flume.conf 文件如下所示:

我遇到以下错误:

我的大学网络配备了代理服务器。我认为问题是由于代理服务器。

如何使用带有水槽的代理?