问题标签 [flume-ng]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
apache - 并行读取 Flume spoolDir
由于我不允许在 prod 服务器上设置 Flume,我必须下载日志,将它们放在 Flume spoolDir 中,并有一个接收器从通道消耗并写入 Cassandra。一切正常。
但是,由于我在 spoolDir 中有很多日志文件,并且当前设置一次只处理 1 个文件,因此需要一段时间。我希望能够同时处理许多文件。我想到的一种方法是使用 spoolDir 但将文件分发到 5-10 个不同的目录中,并定义多个源/通道/接收器,但这有点笨拙。有没有更好的方法来实现这一目标?
谢谢
java - 如何修复错误处理元素 Flume:CLASS_NOT_FOUND?
我们无法使用 log4j2 让 flumeappender 工作。但是,使用 log4j.properties 配置文件,而不是通过 log4j2.xml。我们得到的错误是:Error processing element Flume: CLASS_NOT_FOUND
以下是我的 Maven 依赖项:
以下是我的 log4j2.xml:
启动时的日志:
java - 如何避免来自 Flume Log4jAppender 的 NullPointerException?
上下文:我们正在尝试使用 Flume NG 1.5.0.1 和 Log4j 2.0.2 中的 Log4jAppender 从应用程序流式传输日志事件以删除 FLume 代理。在远程 Flume 代理关闭之前,实际应用程序运行良好。我们遇到了显然没有在 Logger 的 info 方法中处理的 NPE。
我们希望以下两件事能够正常工作:
- 应用程序应处理远程水槽代理不可用并重新连接。
- 应用程序代码应该与 Log4j appender 内部隔离。
例外:
资源:
log4j.properties:
hdfs - Flume HDFS Sink 在 HDFS 上生成大量小文件
我有一个玩具设置,使用 Flume 将 log4j 消息发送到 hdfs。我无法配置 hdfs 接收器以避免许多小文件。我想我可以配置 hdfs sink 以在每次文件大小达到 10mb 时创建一个新文件,但它仍在创建大约 1.5KB 的文件。
这是我当前的水槽配置:
hadoop - sink.hdfs writer 在我的文本文件中添加了垃圾
我已成功配置水槽以将文本文件从本地文件夹传输到 hdfs。我的问题是当这个文件被传输到 hdfs 时,一些不需要的文本“hdfs.write.Longwriter + 二进制字符”会在我的文本文件中添加前缀。这是我的flume.conf
我的源文本文件非常简单,包含文本:嗨,我的名字是 Hadoop,这是文件一。
我在 hdfs 中获得的接收器文件如下所示: SEQ !org.apache.hadoop.io.LongWritable org.apache.hadoop.io.Text������5����>I <4 H�ǥ� +嗨,我的名字是 Hadoop,这是文件一。
请让我知道我做错了什么?
hadoop - MissingArgumentException while configuring Flume
I installed Flume
and tried to run this command
and I get this exception
hadoop - 使用 Flume 将 twitter 数据流式传输到 hadoop 到 HDFS 接收器
我安装了 Flume,运行 cloudera 的 twitter 情绪分析
当我通过这个命令运行twitter.conf
我尝试更改命令,尝试将 JARS 从 hadoop 导入到水槽,但没有任何效果。
这是出现问题的具体地方
在此之后,以下行不断重复,直到被用户打断
我正在发布输出日志(没有加载的罐子)
HDFS 没有变化。
hadoop - 如何减慢 Flume 序列生成器的速度
Flume 有一个称为序列生成器的源,可用于测试;它只是生成随机数据(递增数字)。
我将它用于测试/调试,但它会非常快速地生成大量数据。我怎样才能使它每秒产生更少的数据量?
java - 使用 Flume 反序列化 Json 文件并沉入 HDFS
我有一个假脱机目录,其中存在所有 json 文件,传入的文件将每秒添加到此目录,我必须反序列化传入的 json 文件并获取所需字段并将其附加到 HDFS 目录中。
我所做的是创建了一个水槽 conf 文件,其中将 spooling 目录中的文件作为源,并使用 1 Sink 将 json 文件直接放入 HDFS。
我必须在 Sink 之前将此 json 转换为结构格式并将其放入 HDFS。最重要的是,它不是推特数据。而且我必须实现纯粹的 Flume。
我使用以下水槽配置来完成工作:
但我不知道如何使用反序列化器。
有人可以帮助我了解如何反序列化传入的 Json 文件吗?如果我需要用java编写任何代码,请帮助我,我需要使用什么接口?如果可能的话,给一些提示。
hadoop - 如何通过水槽将 Twitterdata 通过代理提供给 hdfs?
我已经安装了水槽并试图将 Twitter 数据输入 hdfs 文件夹。
我的 flume.conf 文件如下所示:
我遇到以下错误:
我的大学网络配备了代理服务器。我认为问题是由于代理服务器。
如何使用带有水槽的代理?