问题标签 [flume-ng]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

392 问题

0 投票

1 回答

1737 浏览

apache - 格式化 Apache Flume HDFS 序列化器

我刚开始使用水槽，需要在 hdfs 接收器中插入一些标题。

虽然格式错误并且我无法控制列，但我有这个工作。

使用此配置：

写入HDFS的日志除了序列化的方面主要是ok的：

如何格式化日志，使它们看起来像这样：

时间戳首先是主机名，然后是系统日志消息正文。

2014-11-09T23:29:45.377

0 投票

1 回答

70 浏览

flume-ng - 以下水槽水槽配置之间的区别

我对 flume 中的以下三个水槽配置非常困惑。请澄清我

会议1

会议2

会议3

每个接收器的具体用例是什么？

flume-ng

user3532803

2014-11-18T06:18:51.597

0 投票

1 回答

1737 浏览

google-app-engine - 使用 Flume 在 Google Cloud Storage 上写入 HDFS/GS 所需的最小设置是什么？

我想将数据从 flume-ng 写入 Google Cloud Storage。这有点复杂，因为我观察到一个非常奇怪的行为。让我解释：

介绍

我已经在谷歌云上启动了一个 hadoop 集群（单击），设置为使用存储桶。

当我在 master 上 ssh 并使用命令添加文件时hdfs，我可以立即在我的存储桶中看到它

但是当我尝试添加然后从我的计算机中读取时，它似乎使用了其他一些 HDFS。在这里我添加了一个名为的文件jp.txt，它没有显示我以前的文件test.txt

这也是我在探索 HDFS 时看到的唯一文件http://ip.to.my.cluster:50070/explorer.html#/

当我使用 Web 控制台 ( https://console.developers.google.com/project/my-project-id/storage/my-bucket/ ) 列出存储桶中的文件时，我只能看到test.txt而不是jp.txt.

我读到Hadoop 无法连接到 Google Cloud Storage并且我相应地配置了我的 hadoop 客户端（相当困难的东西），现在我可以看到我的存储桶中的项目。但为此，我需要使用gs://URI

观察/中间结论

因此，在同一个集群中似乎有 2 个不同的存储引擎：“传统 HDFS”（以开头hdfs://）和 Google 存储桶（以开头gs://）。

用户和权限不同，具体取决于您列出文件的位置。

问题）

主要问题是：使用 flume 在 Google Cloud Storage 上写入 HDFS/GS 所需的最小设置是什么？

我的水槽配置

a1.sinks.hdfs_sink.hdfs.path 行是否接受gs://路径？

在这种情况下需要什么设置（额外的罐子，类路径）？

谢谢

google-app-engine google-cloud-storage flume-ng google-hadoop

2014-11-27T15:24:05.143

0 投票

4 回答

7832 浏览

flume - flume - flume.root.logger=DEBUG,console 只记录 INFO 级别的日志语句

我在 CentOS (cloudera VM) 中安装了 Flume 1.4.0-cdh4.7.0

我运行以下命令来启动水槽

flume-ng 代理 -n 代理名称 -c conf -f conf/flume.conf -Dflume.root.looger=DEBUG,console

但它只是将默认（INFO）级别写入控制台。想不通为什么？

flume flume-ng

2014-11-30T02:59:39.037

0 投票

1 回答

31 浏览

apache - Dir 搬到 Flume

我想将包含子目录和使用flume API或java API的文件列表的DIR加载到/flume/events下的HDFS中。我正在使用 cloudera cdh5.1

请你在这方面帮助我。我想对如何摄取/加载包含子目录和文件的目录进行编码。我对使用flume api/java api将文件加载到hdfs有一个想法

提前致谢

apache hadoop flume flume-ng

2014-12-01T09:53:59.560

0 投票

1 回答

1147 浏览

docker - What causes flume with GCS sink to throw a OutOfMemoryException

I am using flume to write to Google Cloud Storage. Flume listens on HTTP:9000. It took me some time to make it work (add gcs libaries, use a credentials file...) but now it seems to communicate over the network.

I am sending very small HTTP request for my tests, and I have plenty of RAM available:

I encounter this memory exception on first request (then of course, it stops working):

(see complete stack trace as a gist for full details)

The strange part is that folders and files are created the way I want, but files are empty.

Is it something wrong with the way I configured flume + GCS or is it a bug in GCS.jar ?

Where should I check to gather more data ?

ps : I am running flume-ng inside docker.

My flume.conf file:

related question in my flume/gcs journey: What is the minimal setup needed to write to HDFS/GS on Google Cloud Storage with flume?

docker google-cloud-storage flume-ng google-hadoop

2014-12-01T16:39:02.393

0 投票

1 回答

156 浏览

tcp - 监听自定义端口 Google Compute Engine 的托管进程

这个问题可能适用于在 Google Compute Engine 上的 VM 实例上侦听端口的任何 Java 进程。

我正在尝试在端口 9090 上建立 TCP 连接，其中 Apache Flume-ng 进程正在 VM 上运行。我在默认网络上为 0.0.0.0/0 TCP:9090 添加了防火墙规则，我可以看到进程正在侦听该端口。

我在尝试连接时尝试了临时主机 IP 和静态主机 IP。我正在尝试通过本地 Web 应用程序上的 Flume-ng 客户端进行连接，该客户端在配置为本地路由时有效。它是这样配置的

我从水槽客户端看到 TCP SocketExceptions，尝试连接到 GCE 上的端口 9090 的应用程序是否需要建立自己的 OAuth 凭据？或者还有什么我可能会丢失的东西？

tcp google-compute-engine flume-ng

2014-12-02T19:06:54.203

0 投票

5 回答

9404 浏览

java - 运行 fatjar 时无法加载 log4j2

我正在开发一个使用 log4j2 日志记录的项目。在 intellij 中开发时，一切正常，并且日志记录按预期完成。log4j2.xml 通过在启动时通过 intellij 设置传递给 jvm 的 java 属性链接。但是一旦我尝试运行一个独立的 gradle 构建的 fat-jar，我就会遇到以下问题：

例外：

我什至不明白那些 [thread] 来自哪里，因为即使在我的 log4j2 中使用基本最简单的配置时，我也会遇到同样的错误：

欢迎任何想法。谢谢。

java logging log4j2 flume flume-ng

2014-12-08T15:17:06.903

0 投票

2 回答

1879 浏览

hadoop - Flume 未将日志写入 Hdfs

所以我配置了flume将我的apache2访问日志写入hdfs ...正如我从flume的日志中发现的那样，所有配置都是正确的，但我不知道为什么它仍然没有写入hdfs。所以这是我的水槽配置文件

这是我的水槽日志

这是命令，我用来启动水槽

我在hdfs中有一条路径

但我不知道为什么它没有写入 hdfs ..我可以看到 apache2 的访问日志 ..但是水槽没有将它们发送到 hdfs /flumelogs 目录....请帮助！！

hadoop hdfs flume flume-ng

2014-12-18T12:27:39.417

0 投票

1 回答

1055 浏览

java - 在创建 FlumeDStream java.net.BindException 时出现 Yarn 错误上的 Spark 流：无法分配请求的地址

我正在尝试从基于水槽推送的方法创建火花流。我在我的 Yarn 集群上运行火花。在启动流时它无法绑定请求的地址。我正在使用 scala-shell 来执行程序，下面是我正在使用的代码

Flume Agent 无法写入此端口，因为此代码无法绑定 5858 端口。

水槽堆栈跟踪：

来自火花流的堆栈跟踪如下。

java scala hadoop spark-streaming flume-ng

2014-12-18T14:41:30.690

1 2 3 4 5 6 7 8 9 10

问题标签 [flume-ng]

介绍

观察/中间结论

问题）

相关问题

我的水槽配置

Reference