问题标签 [flume-ng]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
1901 浏览

flume - Flume 1.5.0 + 从远程 Linux 服务器读取日志数据

我是新手Flume。我已经安装在一台服务器上,Flume并且Hadoop日志在另一台服务器上可用。

通过Flume,我正在尝试阅读日志。这是我的配置文件。

我不确定在这种情况下使用什么确切的源类型。我Flume agent在另一台服务器上开始如下:

这是上述命令的日志

在这里,进程被卡住了,根本没有继续前进。我不知道哪里出了问题

有人可以帮助我吗

我没有在我有日志文件的服务器中安装水槽。我也应该在那里安装水槽吗?

Flume 版本使用 - 1.5.0 安装的 Hadoop 版本 - 1.0.4

提前致谢

0 投票
1 回答
1472 浏览

flume - Apache Flume 为每一行写入创建新文件

我正在做一些实验来感受水槽。下面是我的配置文件。

对于在查看水槽日志时使用 vi 命令添加到 test.txt 文件的每一行,它正在 HDFS /tflume 目录中创建新文件。为什么这样 ?

我期待将水槽附加到我现有的文件中,同时,通过查看日志,写入 hdfs 的数据也花费了太长时间。

感谢您提前回复。

0 投票
2 回答
2405 浏览

csv - 如何使用 Flume 将一组 csv 文件从本地目录复制到 HDFS

如何使用 Flume 将一组 csv 文件从本地目录复制到 HDFS?我尝试使用假脱机目录作为我的源,但未能复制。然后我使用以下水槽配置来获得我的结果:

我将文件复制到 hdfs,但它们包含特殊字符,对我没有用。我的本地目录是 /home/cloudera/runs,我的 HDFS 目标目录是 /user/cloudera/runs。

0 投票
1 回答
1158 浏览

hadoop - 配置flume以写入文件〜100mb(接近120mb hdfs文件大小)

我试图配置 Flume,所以它至少使用接近 HDFS 的块大小,在我的例子中是 128mb。这是我的配置,每个文件写入大约 10mb:

所以问题是我不能让它写大约 100mb 的文件。如果我像这样更改配置,我希望至少写大约 100mb:

但是随后文件变得更小,并且他正在编写大约 3-8mb 的文件......因为它实际上不可能聚合​​它们在 hdfs 中的文件,所以我真的想让这些文件更大。关于 rollSize 参数有什么我没有得到的吗?还是有一些默认值,所以地狱永远不会写那个大文件?

0 投票
1 回答
631 浏览

flume - 我在 aws 实例上运行水槽代理,但无法从 aws 实例上的 avro sink 接收事件到本地机器上的 avro source?

这是我的 aws 实例的控制台上出现的错误。

2014-08-09 12:22:41,803 (lifecycleSupervisor-1-2) [INFO -org.apache.flume.source.AvroSource.start(AvroSource.java:142)] 从本地启动 Avro 源:{ bindAddress:ec2-54 -221-143-114.compute-1.amazonaws.com,端口:44444 }... 2014-08-09 12:22:42,072(lifecycleSupervisor-1-1)[警告 - org.apache.flume.sink。 AvroSink.start(AvroSink.java:244)] 无法使用主机名创建 avro 客户端:ec2-54-221-143-114.compute-1.amazonaws.com,端口:41414 org.apache.flume.FlumeException:NettyAvroRpcClient {主机:ec2-54-221-143-114.compute-1.amazonaws.com,端口:41414 }:org.apache.flume.api.NettyAvroRpcClient.connect(NettyAvroRpcClient.java:117) 的 RPC 连接错误。 org.apache.flume.api.NettyAvroRpcClient 上的 apache.flume.api.NettyAvroRpcClient.connect(NettyAvroRpcClient.java:93)。在 org.apache.flume.sink.AvroSink.createConnection(AvroSink.java:182) 在 org.apache.flume.api.RpcClientFactory.getInstance(RpcClientFactory.java:88) 在 org.apache 配置(NettyAvroRpcClient.java:514) .flume.sink.AvroSink.start(AvroSink.java:242) 在 org.apache.flume.sink.DefaultSinkProcessor.start(DefaultSinkProcessor.java:46) 在 org.apache.flume.SinkRunner.start(SinkRunner.java:79 ) 在 org.apache.flume.lifecycle.LifecycleSupervisor$MonitorRunnable.run(LifecycleSupervisor.java:236) 在 java.util.concurrent.Executors$RunnableAdapter.call(Executors.java:471) 在 java.util.concurrent.FutureTask。在 java.util.concurrent.ScheduledThreadPoolExecutor$ScheduledFutureTask.access$301(ScheduledThreadPoolExecutor.java:178) 在 java.util.concurrent.ScheduledThreadPoolExecutor$ScheduledFutureTask.run(ScheduledThreadPoolExecutor.java:293) 在 java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1145) 在 java.util.concurrent.ThreadPoolExecutor$Worker.run (ThreadPoolExecutor.java:615) at java.lang.Thread.run(Thread.java:744) 原因:java.io.IOException:连接到 ec2-54-221-143-114.compute-1.amazonaws 时出错。 com/10.80.54.114:41414 at org.apache.avro.ipc.NettyTransceiver.getChannel(NettyTransceiver.java:261) at org.apache.avro.ipc.NettyTransceiver.(NettyTransceiver.java:203) at org.apache.avro .ipc.NettyTransceiver.(NettyTransceiver.java:152) 在 org.apache.flume.api.NettyAvroRpcClient.connect(NettyAvroRpcClient.java:106) ...还有 15 个原因:java.net.ConnectException: Connection denied at sun.nio.ch.SocketChannelImpl.finishConnect(SocketChannelImpl.java:739) at sun.nio.ch.SocketChannelImpl.finishConnect(SocketChannelImpl.java:739) at org.jboss.netty .channel.socket.nio.NioClientSocketPipelineSink$Boss.connect(NioClientSocketPipelineSink.java:401) at org.jboss.netty.channel.socket.nio.NioClientSocketPipelineSink$Boss.processSelectedKeys(NioClientSocketPipelineSink.java:370) at org.jboss.netty .channel.socket.nio.NioClientSocketPipelineSink$Boss.run(NioClientSocketPipelineSink.java:292)739)在 org.jboss.netty.channel.socket.nio.NioClientSocketPipelineSink$Boss.processSelectedKeys 的 org.jboss.netty.channel.socket.nio.NioClientSocketPipelineSink$Boss.connect(NioClientSocketPipelineSink.java:401) 370)在 org.jboss.netty.channel.socket.nio.NioClientSocketPipelineSink$Boss.run(NioClientSocketPipelineSink.java:292)739)在 org.jboss.netty.channel.socket.nio.NioClientSocketPipelineSink$Boss.processSelectedKeys 的 org.jboss.netty.channel.socket.nio.NioClientSocketPipelineSink$Boss.connect(NioClientSocketPipelineSink.java:401) 370)在 org.jboss.netty.channel.socket.nio.NioClientSocketPipelineSink$Boss.run(NioClientSocketPipelineSink.java:292)

0 投票
1 回答
3371 浏览

hadoop - Flume Avro Sink Source 使用 cloudera 快速入门

是否可以在 Cloudera-Quickstart-CDH-VM 中使用 Avro Sink/Source 设置 Flume Client-Collector-Structure?我知道没有实际用途,但是我想了解 Flume 如何与 Avro 文件一起使用,以及我以后如何将它们与 PIG 等一起使用。

它尝试了几种配置,但都没有奏效。对我来说,我似乎需要几个代理,但是虚拟机中只能有一个。

我最后尝试的:

感谢您的任何建议!

0 投票
2 回答
1272 浏览

hadoop - Apache Flume 1.5 在 Hadoop 2/自动故障转移集群配置中没有给出预期的结果

我已经在 CentOS 6.5//64 位的 HA/自动故障转移配置中配置了 Apache Hadoop 2 集群。我已经安装了 Flume 1.5 (apache-flume-1.5.0-bin.tar.gz)。我想使用 Flume/Hive 和一些关键词过滤来分析 twitter 数据。见下图: 这里是 hadoop2 配置文件内容。(仅重要属性)。

核心站点.xml

hdfs-site.xml

以下是flume配置文件内容:

水槽-env.sh

推特.conf

我正在执行以下命令。

我有以下问题/问题。

  • a)-它接缝关键字过滤不起作用。我在配置文件中设置了错误的属性吗?
  • b)-此过程不会在 hdfs 上复制 /user/flume/tweets/20140814/1_55 上的任何文件。
  • c)-Twitter/API 访问令牌的访问级别是只读的。我需要读写权限吗?
  • d)-使用 hdfs.path 样式是否正确,就像我使用 twitter.conf 一样?
  • e)-进程正在执行而不是停止,不确定它将根据什么标准停止。

它继续显示以下输出。

任何人都可以帮助我,我错过了什么?

在用于此任务之前,我是否应该使用 Maven 重新构建 Flume?

0 投票
3 回答
1573 浏览

scala - 如何反序列化进入 Spark 的 Flume 的 Avro 事件?

我有读取水槽的 Flume Avro 水槽和 SparkStreaming 程序。CDH 5.1、Flume 1.5.0、Spark 1.0,使用 Scala 作为 Spark 上的程序语言

我能够制作 Spark 示例并计算 Flume Avro 事件。

但是我无法将 Flume Avro 事件序列化为字符串\文本,然后解析结构行。

有没有人有一个如何使用 Scala 的例子?

0 投票
1 回答
513 浏览

hadoop - Flume + HDFS-200 附加

该页面https://cwiki.apache.org/confluence/display/FLUME/Getting+Started说 HDFS 接收器支持附加,但我无法找到有关如何启用它的任何信息,每个示例都在滚动文件上。因此,如果可能的话,我将不胜感激有关如何使水槽附加到现有文件的任何信息)

更新

可以将所有滚动属性设置为 0,这将使水槽写入单个文件,但它不会关闭文件并且新记录对其他进程不可见。有一个类似于我的话题:Flume NG and HDFS,Dmitry 说 Flume 不支持追加,但答案是一年前,文档说相反,所以我认为可能是水槽得到了改进,或者我误解了一些东西,任何线索将不胜感激。

更新

我意识到这个问题还不清楚,所以让我来描述一下我想要实现的目标:我希望将日志写入一个文件,并且我希望能够在它们被摄取到 hdfs 后立即读取它们。目前我正在使用 Cloudera Impala 执行搜索查询,即使 Flume 配置为立即将它们刷新到磁盘上,它也看不到新事件,至少我是这样认为的。我的调查表明,通常人们将 HBase 用于这些目的,但据我了解,除非使用像 Solr 这样的外部索引,否则它对临时搜索查询无效。问题是我需要尽快找到解决方案,所以我希望它可以更容易完成,例如 Fluentd 可以附加到现有文件,但它只适用于纯文本文件,我更喜欢一些二进制格式。

0 投票
2 回答
1881 浏览

cloudera - Cloudera 中的 flume.conf 位置

我在一个节点上安装了 Cloudera Manager (4.5.0)。

我想动态更改flume代理,但找不到文件和相关flume.conf的位置。

在 /opt/cloudera/parcels/CDH-4.5.0-1.cdh4.5.0.p0.30/etc/flume-ng/conf.empty 有这个文件,但它是空的,即使我改变它也不会被阅读。