问题标签 [flume]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
467 浏览

flume - 如何备份水槽主节点配置?

我在一个项目中使用水槽,并正在寻找一种方法来备份主节点的配置。我该怎么做呢?我似乎在用户指南上找不到任何有关备份的信息。

此外,我希望运行主节点的多个副本,以便如果一个失败,一个副本可以接管。我也不知道如何做到这一点 - 有人有什么建议吗?

0 投票
1 回答
498 浏览

java - 如何构建 Cloudera 的 Flume(在 OS X 上)?Maven构建上的空错误

我从以下位置下载了 Flume 源:https ://github.com/cloudera/flume/tarball/release-0.9.4

我得到一个 NullPointerException,如下所示。如果有人有任何提示,将不胜感激。

我运行 mvn 编译:

0 投票
1 回答
3399 浏览

logging - Cloudera 的 Flume 与 Facebook 的 Scribe

有没有人有机会在这两个方面工作?我需要建立一个框架来移动数据。基本上,我们将点击流数据作为文本文件传入。这些数据需要从应用服务器转移到 HDFS,然后在归档后转移到 S3。

在 Flume 和 Scribe 之间进行选择时,我需要帮助。哪个在可管理性、设置方面更好,哪个更容易定制?

0 投票
2 回答
1304 浏览

log4j - 如何为包级日志配置 log4j?

我想登录多个日志文件(水槽和控制台)。如何将 log4j 设置为包级别?即 com.mypackage.myclass 进入 flume 和其他包进入控制台..

0 投票
0 回答
358 浏览

flume - Flume agentSink“无法加载输出格式插件类”

我收到以下错误,我不知道为什么。如果我将接收器更改为“控制台”,它工作正常。我只是想从水槽文档中重新创建一个示例,除了两个不同的节点。这是使用CDH3。

我正在尝试这样运行水槽:

提前致谢。

0 投票
1 回答
147 浏览

flume - 虽然我在命令历史表中获得“成功”状态,但数据没有移动

谁能告诉我如何验证我的数据是否到达指定位置?我能够成功发出命令但无法看到数据...我正在尝试将我的数据从本地磁盘移动到本地磁盘本身。我使用以下配置 - 主机:文本(“/home/hadoop/file1.txt”)| agentSink("本地主机",35853); 节点2:收集器来源(35853)| collectorSink("file:///home/hadoop/","file2.txt");

0 投票
1 回答
385 浏览

chef-infra - 如何将 Cloudera Flume 安装到 linux Gentoo (EngineYard)

询问是否有人知道通过 portage (emerge) 在 linux Gentoo EngineYard 实例上安装 Cloudera Flume 的一些选项

或厨师食谱来编译水槽。

谢谢!

0 投票
4 回答
14926 浏览

java - 从 hbase 行中检索时间戳

使用 Hbase API (Get/Put) 或 HBQL API,是否可以检索特定列的时间戳?

0 投票
1 回答
2459 浏览

flume - Flume 自动扩展和故障转移

我的公司正在考虑使用 Flume 进行一些相当大容量的日志处理。我们认为日志处理需要分布式处理,无论是出于容量(可扩展性)还是故障转移(可靠性)的原因,Flume 似乎是显而易见的选择。

但是,我们认为我们肯定遗漏了一些明显的东西,因为我们没有看到 Flume 如何提供自动可伸缩性和故障转移。

我想为每个日志行定义一个流程,执行 A,然后将其传递并执行 B,然后将其传递并执行 C,依此类推,这似乎与 Flume 很匹配。但是,我希望能够用纯粹的逻辑术语来定义这个流程,然后基本上说,“嘿,Flume,这里是服务器,这里是流程定义,开始工作吧!”。服务器会死掉,(并且操作会重新启动它们),我们会将服务器添加到集群中,并让其他服务器退役,而 Flume 只会将工作定向到任何具有可用容量的节点。

这个描述是 Hadoop map-reduce 如何实现可伸缩性和故障转移,我假设 Flume 也是一样。但是,文档似乎暗示我需要手动配置每个逻辑节点在哪些物理服务器上运行,并为每个节点配置特定的故障转移方案。

我是对的,Flume 没有达到我们的目的,还是我错过了什么?

谢谢你的帮助。

0 投票
2 回答
2546 浏览

cloud - Flume collector example from Cloudera's UserGuide does not work as expected

The bit in the UserGuide that shows you how to setup a collector and write to it http://archive.cloudera.com/cdh/3/flume/UserGuide/index.html#_tiering_flume_nodes_agents_and_collectors has this configuration:

I changed this to:

I spawned the nodes as:

I have tried this on two systems:

  1. Cloudera's own demo VM running inside VirtualBox with 2GB RAM. It comes with Flume 0.9.4-cdh3u2

  2. Ubuntu LTS (Lucid) with the debian package and openJDK (minus any hadoop packages installed) as a VM running inside VirtualBox with 2GB RAM Followed the steps here https://ccp.cloudera.com/display/CDHDOC/Flume+Installation#FlumeInstallation-InstallingtheFlumeRPMorDebianPackages

Here is what I did:

flume dump 'collectorSource()' leads to

My assumption is that:

is same as running the config:

and starting the node with

dataSource : console | agentSink("localhost") leads to

The observed behaviour is exactly the same in both the VirtualBox VMs:

Un-ending flow of this at dataSource

Un-ending flow of this at dataCollector:

How do I get the console <-> console communication via collectors working again correctly?