问题标签 [flume-ng]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
1737 浏览

apache - 格式化 Apache Flume HDFS 序列化器

我刚开始使用水槽,需要在 hdfs 接收器中插入一些标题。

虽然格式错误并且我无法控制列,但我有这个工作。

使用此配置:

写入HDFS的日志除了序列化的方面主要是ok的:

如何格式化日志,使它们看起来像这样:

时间戳首先是主机名,然后是系统日志消息正文。

0 投票
1 回答
70 浏览

flume-ng - 以下水槽水槽配置之间的区别

我对 flume 中的以下三个水槽配置非常困惑。请澄清我

会议1

会议2

会议3

每个接收器的具体用例是什么?

0 投票
1 回答
1737 浏览

google-app-engine - 使用 Flume 在 Google Cloud Storage 上写入 HDFS/GS 所需的最小设置是什么?

我想将数据从 flume-ng 写入 Google Cloud Storage。这有点复杂,因为我观察到一个非常奇怪的行为。让我解释:

介绍

我已经在谷歌云上启动了一个 hadoop 集群(单击),设置为使用存储桶。

当我在 master 上 ssh 并使用命令添加文件时hdfs,我可以立即在我的存储桶中看到它

但是当我尝试添加然后从我的计算机中读取时,它似乎使用了其他一些 HDFS。在这里我添加了一个名为 的文件jp.txt,它没有显示我以前的文件test.txt

这也是我在探索 HDFS 时看到的唯一文件http://ip.to.my.cluster:50070/explorer.html#/

当我使用 Web 控制台 ( https://console.developers.google.com/project/my-project-id/storage/my-bucket/ ) 列出存储桶中的文件时,我只能看到test.txt而不是jp.txt.

我读到Hadoop 无法连接到 Google Cloud Storage并且我相应地配置了我的 hadoop 客户端(相当困难的东西),现在我可以看到我的存储桶中的项目。但为此,我需要使用gs://URI

观察/中间结论

因此,在同一个集群中似乎有 2 个不同的存储引擎:“传统 HDFS”(以 开头hdfs://)和 Google 存储桶(以 开头gs://)。

用户和权限不同,具体取决于您列出文件的位置。

问题)

主要问题是:使用 flume 在 Google Cloud Storage 上写入 HDFS/GS 所需的最小设置是什么?

相关问题

  • 我是否需要在 Google Cloud 上启动 Hadoop 集群才能实现我的目标?
  • 是否可以直接写入 Google Cloud Storage Bucket ?如果是,我该如何配置水槽?(添加罐子,重新定义类路径......)
  • 同一个集群怎么会有2个存储引擎(经典HDFS/GS bucket)

我的水槽配置

a1.sinks.hdfs_sink.hdfs.path 行是否接受gs://路径?

在这种情况下需要什么设置(额外的罐子,类路径)?

谢谢

0 投票
4 回答
7832 浏览

flume - flume - flume.root.logger=DEBUG,console 只记录 INFO 级别的日志语句

我在 CentOS (cloudera VM) 中安装了 Flume 1.4.0-cdh4.7.0

我运行以下命令来启动水槽

flume-ng 代理 -n 代理名称 -c conf -f conf/flume.conf -Dflume.root.looger=DEBUG,console

但它只是将默认(INFO)级别写入控制台。想不通为什么?

0 投票
1 回答
31 浏览

apache - Dir 搬到 Flume

我想将包含子目录和使用flume API或java API的文件列表的DIR加载到/flume/events下的HDFS中。我正在使用 cloudera cdh5.1

请你在这方面帮助我。我想对如何摄取/加载包含子目录和文件的目录进行编码。我对使用flume api/java api将文件加载到hdfs有一个想法

提前致谢

0 投票
1 回答
1147 浏览

docker - What causes flume with GCS sink to throw a OutOfMemoryException

I am using flume to write to Google Cloud Storage. Flume listens on HTTP:9000. It took me some time to make it work (add gcs libaries, use a credentials file...) but now it seems to communicate over the network.

I am sending very small HTTP request for my tests, and I have plenty of RAM available:

I encounter this memory exception on first request (then of course, it stops working):

(see complete stack trace as a gist for full details)

The strange part is that folders and files are created the way I want, but files are empty.

Is it something wrong with the way I configured flume + GCS or is it a bug in GCS.jar ?

Where should I check to gather more data ?

ps : I am running flume-ng inside docker.


My flume.conf file:


related question in my flume/gcs journey: What is the minimal setup needed to write to HDFS/GS on Google Cloud Storage with flume?

0 投票
1 回答
156 浏览

tcp - 监听自定义端口 Google Compute Engine 的托管进程

这个问题可能适用于在 Google Compute Engine 上的 VM 实例上侦听端口的任何 Java 进程。

我正在尝试在端口 9090 上建立 TCP 连接,其中 Apache Flume-ng 进程正在 VM 上运行。我在默认网络上为 0.0.0.0/0 TCP:9090 添加了防火墙规则,我可以看到进程正在侦听该端口。

我在尝试连接时尝试了临时主机 IP 和静态主机 IP。我正在尝试通过本地 Web 应用程序上的 Flume-ng 客户端进行连接,该客户端在配置为本地路由时有效。它是这样配置的

我从水槽客户端看到 TCP SocketExceptions,尝试连接到 GCE 上的端口 9090 的应用程序是否需要建立自己的 OAuth 凭据?或者还有什么我可能会丢失的东西?

0 投票
5 回答
9404 浏览

java - 运行 fatjar 时无法加载 log4j2

我正在开发一个使用 log4j2 日志记录的项目。在 intellij 中开发时,一切正常,并且日志记录按预期完成。log4j2.xml 通过在启动时通过 intellij 设置传递给 jvm 的 java 属性链接。但是一旦我尝试运行一个独立的 gradle 构建的 fat-jar,我就会遇到以下问题:

例外:

我什至不明白那些 [thread] 来自哪里,因为即使在我的 log4j2 中使用基本最简单的配置时,我也会遇到同样的错误:

欢迎任何想法。谢谢。

0 投票
2 回答
1879 浏览

hadoop - Flume 未将日志写入 Hdfs

所以我配置了flume将我的apache2访问日志写入hdfs ...正如我从flume的日志中发现的那样,所有配置都是正确的,但我不知道为什么它仍然没有写入hdfs。所以这是我的水槽配置文件

这是我的水槽日志

这是命令,我用来启动水槽

我在hdfs中有一条路径

但我不知道为什么它没有写入 hdfs ..我可以看到 apache2 的访问日志 ..但是水槽没有将它们发送到 hdfs /flumelogs 目录....请帮助!!

0 投票
1 回答
1055 浏览

java - 在创建 FlumeDStream java.net.BindException 时出现 Yarn 错误上的 Spark 流:无法分配请求的地址

我正在尝试从基于水槽推送的方法创建火花流。我在我的 Yarn 集群上运行火花。在启动流时它无法绑定请求的地址。我正在使用 scala-shell 来执行程序,下面是我正在使用的代码

Flume Agent 无法写入此端口,因为此代码无法绑定 5858 端口。

水槽堆栈跟踪:


来自火花流的堆栈跟踪如下。