问题标签 [flume-ng]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
apache - 格式化 Apache Flume HDFS 序列化器
我刚开始使用水槽,需要在 hdfs 接收器中插入一些标题。
虽然格式错误并且我无法控制列,但我有这个工作。
使用此配置:
写入HDFS的日志除了序列化的方面主要是ok的:
如何格式化日志,使它们看起来像这样:
时间戳首先是主机名,然后是系统日志消息正文。
flume-ng - 以下水槽水槽配置之间的区别
我对 flume 中的以下三个水槽配置非常困惑。请澄清我
会议1
会议2
会议3
每个接收器的具体用例是什么?
google-app-engine - 使用 Flume 在 Google Cloud Storage 上写入 HDFS/GS 所需的最小设置是什么?
我想将数据从 flume-ng 写入 Google Cloud Storage。这有点复杂,因为我观察到一个非常奇怪的行为。让我解释:
介绍
我已经在谷歌云上启动了一个 hadoop 集群(单击),设置为使用存储桶。
当我在 master 上 ssh 并使用命令添加文件时hdfs
,我可以立即在我的存储桶中看到它
但是当我尝试添加然后从我的计算机中读取时,它似乎使用了其他一些 HDFS。在这里我添加了一个名为 的文件jp.txt
,它没有显示我以前的文件test.txt
这也是我在探索 HDFS 时看到的唯一文件http://ip.to.my.cluster:50070/explorer.html#/
当我使用 Web 控制台 ( https://console.developers.google.com/project/my-project-id/storage/my-bucket/ ) 列出存储桶中的文件时,我只能看到test.txt
而不是jp.txt
.
我读到Hadoop 无法连接到 Google Cloud Storage并且我相应地配置了我的 hadoop 客户端(相当困难的东西),现在我可以看到我的存储桶中的项目。但为此,我需要使用gs://
URI
观察/中间结论
因此,在同一个集群中似乎有 2 个不同的存储引擎:“传统 HDFS”(以 开头hdfs://
)和 Google 存储桶(以 开头gs://
)。
用户和权限不同,具体取决于您列出文件的位置。
问题)
主要问题是:使用 flume 在 Google Cloud Storage 上写入 HDFS/GS 所需的最小设置是什么?
相关问题
- 我是否需要在 Google Cloud 上启动 Hadoop 集群才能实现我的目标?
- 是否可以直接写入 Google Cloud Storage Bucket ?如果是,我该如何配置水槽?(添加罐子,重新定义类路径......)
- 同一个集群怎么会有2个存储引擎(经典HDFS/GS bucket)
我的水槽配置
a1.sinks.hdfs_sink.hdfs.path 行是否接受gs://
路径?
在这种情况下需要什么设置(额外的罐子,类路径)?
谢谢
flume - flume - flume.root.logger=DEBUG,console 只记录 INFO 级别的日志语句
我在 CentOS (cloudera VM) 中安装了 Flume 1.4.0-cdh4.7.0
我运行以下命令来启动水槽
flume-ng 代理 -n 代理名称 -c conf -f conf/flume.conf -Dflume.root.looger=DEBUG,console
但它只是将默认(INFO)级别写入控制台。想不通为什么?
apache - Dir 搬到 Flume
我想将包含子目录和使用flume API或java API的文件列表的DIR加载到/flume/events下的HDFS中。我正在使用 cloudera cdh5.1
请你在这方面帮助我。我想对如何摄取/加载包含子目录和文件的目录进行编码。我对使用flume api/java api将文件加载到hdfs有一个想法
提前致谢
docker - What causes flume with GCS sink to throw a OutOfMemoryException
I am using flume to write to Google Cloud Storage. Flume listens on HTTP:9000
. It took me some time to make it work (add gcs libaries, use a credentials file...) but now it seems to communicate over the network.
I am sending very small HTTP request for my tests, and I have plenty of RAM available:
I encounter this memory exception on first request (then of course, it stops working):
(see complete stack trace as a gist for full details)
The strange part is that folders and files are created the way I want, but files are empty.
Is it something wrong with the way I configured flume + GCS or is it a bug in GCS.jar ?
Where should I check to gather more data ?
ps : I am running flume-ng inside docker.
My flume.conf
file:
related question in my flume/gcs journey: What is the minimal setup needed to write to HDFS/GS on Google Cloud Storage with flume?
tcp - 监听自定义端口 Google Compute Engine 的托管进程
这个问题可能适用于在 Google Compute Engine 上的 VM 实例上侦听端口的任何 Java 进程。
我正在尝试在端口 9090 上建立 TCP 连接,其中 Apache Flume-ng 进程正在 VM 上运行。我在默认网络上为 0.0.0.0/0 TCP:9090 添加了防火墙规则,我可以看到进程正在侦听该端口。
我在尝试连接时尝试了临时主机 IP 和静态主机 IP。我正在尝试通过本地 Web 应用程序上的 Flume-ng 客户端进行连接,该客户端在配置为本地路由时有效。它是这样配置的
我从水槽客户端看到 TCP SocketExceptions,尝试连接到 GCE 上的端口 9090 的应用程序是否需要建立自己的 OAuth 凭据?或者还有什么我可能会丢失的东西?
java - 运行 fatjar 时无法加载 log4j2
我正在开发一个使用 log4j2 日志记录的项目。在 intellij 中开发时,一切正常,并且日志记录按预期完成。log4j2.xml 通过在启动时通过 intellij 设置传递给 jvm 的 java 属性链接。但是一旦我尝试运行一个独立的 gradle 构建的 fat-jar,我就会遇到以下问题:
例外:
我什至不明白那些 [thread] 来自哪里,因为即使在我的 log4j2 中使用基本最简单的配置时,我也会遇到同样的错误:
欢迎任何想法。谢谢。
hadoop - Flume 未将日志写入 Hdfs
所以我配置了flume将我的apache2访问日志写入hdfs ...正如我从flume的日志中发现的那样,所有配置都是正确的,但我不知道为什么它仍然没有写入hdfs。所以这是我的水槽配置文件
这是我的水槽日志
这是命令,我用来启动水槽
我在hdfs中有一条路径
但我不知道为什么它没有写入 hdfs ..我可以看到 apache2 的访问日志 ..但是水槽没有将它们发送到 hdfs /flumelogs 目录....请帮助!!
java - 在创建 FlumeDStream java.net.BindException 时出现 Yarn 错误上的 Spark 流:无法分配请求的地址
我正在尝试从基于水槽推送的方法创建火花流。我在我的 Yarn 集群上运行火花。在启动流时它无法绑定请求的地址。我正在使用 scala-shell 来执行程序,下面是我正在使用的代码
Flume Agent 无法写入此端口,因为此代码无法绑定 5858 端口。
水槽堆栈跟踪:
来自火花流的堆栈跟踪如下。