问题标签 [flume-ng]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

392 问题

0 投票

1 回答

1123 浏览

apache - 并行读取 Flume spoolDir

由于我不允许在 prod 服务器上设置 Flume，我必须下载日志，将它们放在 Flume spoolDir 中，并有一个接收器从通道消耗并写入 Cassandra。一切正常。

但是，由于我在 spoolDir 中有很多日志文件，并且当前设置一次只处理 1 个文件，因此需要一段时间。我希望能够同时处理许多文件。我想到的一种方法是使用 spoolDir 但将文件分发到 5-10 个不同的目录中，并定义多个源/通道/接收器，但这有点笨拙。有没有更好的方法来实现这一目标？

谢谢

apache flume flume-ng

2014-09-16T18:01:45.200

0 投票

1 回答

3772 浏览

java - 如何修复错误处理元素 Flume：CLASS_NOT_FOUND？

我们无法使用 log4j2 让 flumeappender 工作。但是，使用 log4j.properties 配置文件，而不是通过 log4j2.xml。我们得到的错误是：Error processing element Flume: CLASS_NOT_FOUND

以下是我的 Maven 依赖项：

以下是我的 log4j2.xml：

启动时的日志：

java logging configuration log4j2 flume-ng

2014-09-17T14:52:57.970

0 投票

0 回答

599 浏览

java - 如何避免来自 Flume Log4jAppender 的 NullPointerException？

上下文：我们正在尝试使用 Flume NG 1.5.0.1 和 Log4j 2.0.2 中的 Log4jAppender 从应用程序流式传输日志事件以删除 FLume 代理。在远程 Flume 代理关闭之前，实际应用程序运行良好。我们遇到了显然没有在 Logger 的 info 方法中处理的 NPE。

我们希望以下两件事能够正常工作：

应用程序应处理远程水槽代理不可用并重新连接。
应用程序代码应该与 Log4j appender 内部隔离。

例外：

资源：

log4j.properties：

java nullpointerexception log4j2 flume-ng

2014-09-17T15:06:17.673

0 投票

3 回答

5713 浏览

hdfs - Flume HDFS Sink 在 HDFS 上生成大量小文件

我有一个玩具设置，使用 Flume 将 log4j 消息发送到 hdfs。我无法配置 hdfs 接收器以避免许多小文件。我想我可以配置 hdfs sink 以在每次文件大小达到 10mb 时创建一个新文件，但它仍在创建大约 1.5KB 的文件。

这是我当前的水槽配置：

hdfs flume flume-ng

2014-10-02T21:27:42.853

0 投票

1 回答

2299 浏览

hadoop - sink.hdfs writer 在我的文本文件中添加了垃圾

我已成功配置水槽以将文本文件从本地文件夹传输到 hdfs。我的问题是当这个文件被传输到 hdfs 时，一些不需要的文本“hdfs.write.Longwriter + 二进制字符”会在我的文本文件中添加前缀。这是我的flume.conf

我的源文本文件非常简单，包含文本：嗨，我的名字是 Hadoop，这是文件一。

我在 hdfs 中获得的接收器文件如下所示： SEQ !org.apache.hadoop.io.LongWritable org.apache.hadoop.io.Text��5��>I <4 H�ǥ� +嗨，我的名字是 Hadoop，这是文件一。

请让我知道我做错了什么？

hadoop flume flume-ng

2014-10-05T05:42:55.477

0 投票

3 回答

2985 浏览

hadoop - MissingArgumentException while configuring Flume

I installed Flume

and tried to run this command

and I get this exception

hadoop flume flume-ng

2014-10-12T18:23:44.277

0 投票

0 回答

932 浏览

hadoop - 使用 Flume 将 twitter 数据流式传输到 hadoop 到 HDFS 接收器

我安装了 Flume，运行 cloudera 的 twitter 情绪分析

当我通过这个命令运行twitter.conf

我尝试更改命令，尝试将 JARS 从 hadoop 导入到水槽，但没有任何效果。

这是出现问题的具体地方

在此之后，以下行不断重复，直到被用户打断

我正在发布输出日志（没有加载的罐子）

HDFS 没有变化。

hadoop twitter flume flume-ng flume-twitter

2014-10-12T21:52:28.900

0 投票

1 回答

186 浏览

hadoop - 如何减慢 Flume 序列生成器的速度

Flume 有一个称为序列生成器的源，可用于测试；它只是生成随机数据（递增数字）。

我将它用于测试/调试，但它会非常快速地生成大量数据。我怎样才能使它每秒产生更少的数据量？

hadoop flume flume-ng

2014-10-27T20:47:43.887

0 投票

1 回答

2619 浏览

java - 使用 Flume 反序列化 Json 文件并沉入 HDFS

我有一个假脱机目录，其中存在所有 json 文件，传入的文件将每秒添加到此目录，我必须反序列化传入的 json 文件并获取所需字段并将其附加到 HDFS 目录中。

我所做的是创建了一个水槽 conf 文件，其中将 spooling 目录中的文件作为源，并使用 1 Sink 将 json 文件直接放入 HDFS。

我必须在 Sink 之前将此 json 转换为结构格式并将其放入 HDFS。最重要的是，它不是推特数据。而且我必须实现纯粹的 Flume。

我使用以下水槽配置来完成工作：

但我不知道如何使用反序列化器。

有人可以帮助我了解如何反序列化传入的 Json 文件吗？如果我需要用java编写任何代码，请帮助我，我需要使用什么接口？如果可能的话，给一些提示。

java json hadoop flume flume-ng

2014-11-01T14:18:28.807

0 投票

1 回答

1044 浏览

hadoop - 如何通过水槽将 Twitterdata 通过代理提供给 hdfs？

我已经安装了水槽并试图将 Twitter 数据输入 hdfs 文件夹。

我的 flume.conf 文件如下所示：

我遇到以下错误：

我的大学网络配备了代理服务器。我认为问题是由于代理服务器。

如何使用带有水槽的代理？

hadoop twitter proxy flume-ng

2014-11-02T20:46:45.693

1 2 3 4 5 6 7 8 9 10