“flume-ng”的相关标签问题_Stack Overflow中文网

0 投票

2 回答

1901 浏览

flume - Flume 1.5.0 + 从远程 Linux 服务器读取日志数据

我是新手Flume。我已经安装在一台服务器上，Flume并且Hadoop日志在另一台服务器上可用。

通过Flume，我正在尝试阅读日志。这是我的配置文件。

我不确定在这种情况下使用什么确切的源类型。我Flume agent在另一台服务器上开始如下：

这是上述命令的日志

在这里，进程被卡住了，根本没有继续前进。我不知道哪里出了问题

有人可以帮助我吗

我没有在我有日志文件的服务器中安装水槽。我也应该在那里安装水槽吗？

Flume 版本使用 - 1.5.0 安装的 Hadoop 版本 - 1.0.4

提前致谢

flume flume-ng

2014-06-25T04:39:51.647

0 投票

1 回答

1472 浏览

flume - Apache Flume 为每一行写入创建新文件

我正在做一些实验来感受水槽。下面是我的配置文件。

对于在查看水槽日志时使用 vi 命令添加到 test.txt 文件的每一行，它正在 HDFS /tflume 目录中创建新文件。为什么这样？

我期待将水槽附加到我现有的文件中，同时，通过查看日志，写入 hdfs 的数据也花费了太长时间。

感谢您提前回复。

flume flume-ng

2014-07-11T12:04:40.423

0 投票

2 回答

2405 浏览

csv - 如何使用 Flume 将一组 csv 文件从本地目录复制到 HDFS

如何使用 Flume 将一组 csv 文件从本地目录复制到 HDFS？我尝试使用假脱机目录作为我的源，但未能复制。然后我使用以下水槽配置来获得我的结果：

我将文件复制到 hdfs，但它们包含特殊字符，对我没有用。我的本地目录是 /home/cloudera/runs，我的 HDFS 目标目录是 /user/cloudera/runs。

csv hadoop flume flume-ng

2014-07-20T04:42:38.433

0 投票

1 回答

1158 浏览

hadoop - 配置flume以写入文件〜100mb（接近120mb hdfs文件大小）

我试图配置 Flume，所以它至少使用接近 HDFS 的块大小，在我的例子中是 128mb。这是我的配置，每个文件写入大约 10mb：

所以问题是我不能让它写大约 100mb 的文件。如果我像这样更改配置，我希望至少写大约 100mb：

但是随后文件变得更小，并且他正在编写大约 3-8mb 的文件......因为它实际上不可能聚合它们在 hdfs 中的文件，所以我真的想让这些文件更大。关于 rollSize 参数有什么我没有得到的吗？还是有一些默认值，所以地狱永远不会写那个大文件？

hadoop flume-ng

2014-07-24T07:28:53.843

0 投票

1 回答

631 浏览

flume - 我在 aws 实例上运行水槽代理，但无法从 aws 实例上的 avro sink 接收事件到本地机器上的 avro source？

这是我的 aws 实例的控制台上出现的错误。

2014-08-09 12:22:41,803 (lifecycleSupervisor-1-2) [INFO -org.apache.flume.source.AvroSource.start(AvroSource.java:142)] 从本地启动 Avro 源：{ bindAddress：ec2-54 -221-143-114.compute-1.amazonaws.com，端口：44444 }... 2014-08-09 12:22:42,072（lifecycleSupervisor-1-1）[警告 - org.apache.flume.sink。 AvroSink.start(AvroSink.java:244)] 无法使用主机名创建 avro 客户端：ec2-54-221-143-114.compute-1.amazonaws.com，端口：41414 org.apache.flume.FlumeException：NettyAvroRpcClient {主机：ec2-54-221-143-114.compute-1.amazonaws.com，端口：41414 }：org.apache.flume.api.NettyAvroRpcClient.connect(NettyAvroRpcClient.java:117) 的 RPC 连接错误。 org.apache.flume.api.NettyAvroRpcClient 上的 apache.flume.api.NettyAvroRpcClient.connect(NettyAvroRpcClient.java:93)。在 org.apache.flume.sink.AvroSink.createConnection(AvroSink.java:182) 在 org.apache.flume.api.RpcClientFactory.getInstance(RpcClientFactory.java:88) 在 org.apache 配置(NettyAvroRpcClient.java:514) .flume.sink.AvroSink.start(AvroSink.java:242) 在 org.apache.flume.sink.DefaultSinkProcessor.start(DefaultSinkProcessor.java:46) 在 org.apache.flume.SinkRunner.start(SinkRunner.java:79 ) 在 org.apache.flume.lifecycle.LifecycleSupervisor$MonitorRunnable.run(LifecycleSupervisor.java:236) 在 java.util.concurrent.Executors$RunnableAdapter.call(Executors.java:471) 在 java.util.concurrent.FutureTask。在 java.util.concurrent.ScheduledThreadPoolExecutor$ScheduledFutureTask.access$301（ScheduledThreadPoolExecutor.java：178) 在 java.util.concurrent.ScheduledThreadPoolExecutor$ScheduledFutureTask.run(ScheduledThreadPoolExecutor.java:293) 在 java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1145) 在 java.util.concurrent.ThreadPoolExecutor$Worker.run (ThreadPoolExecutor.java:615) at java.lang.Thread.run(Thread.java:744) 原因：java.io.IOException：连接到 ec2-54-221-143-114.compute-1.amazonaws 时出错。 com/10.80.54.114:41414 at org.apache.avro.ipc.NettyTransceiver.getChannel(NettyTransceiver.java:261) at org.apache.avro.ipc.NettyTransceiver.(NettyTransceiver.java:203) at org.apache.avro .ipc.NettyTransceiver.(NettyTransceiver.java:152) 在 org.apache.flume.api.NettyAvroRpcClient.connect(NettyAvroRpcClient.java:106) ...还有 15 个原因：java.net.ConnectException: Connection denied at sun.nio.ch.SocketChannelImpl.finishConnect(SocketChannelImpl.java:739) at sun.nio.ch.SocketChannelImpl.finishConnect(SocketChannelImpl.java:739) at org.jboss.netty .channel.socket.nio.NioClientSocketPipelineSink$Boss.connect(NioClientSocketPipelineSink.java:401) at org.jboss.netty.channel.socket.nio.NioClientSocketPipelineSink$Boss.processSelectedKeys(NioClientSocketPipelineSink.java:370) at org.jboss.netty .channel.socket.nio.NioClientSocketPipelineSink$Boss.run(NioClientSocketPipelineSink.java:292)739）在 org.jboss.netty.channel.socket.nio.NioClientSocketPipelineSink$Boss.processSelectedKeys 的 org.jboss.netty.channel.socket.nio.NioClientSocketPipelineSink$Boss.connect(NioClientSocketPipelineSink.java:401) 370）在 org.jboss.netty.channel.socket.nio.NioClientSocketPipelineSink$Boss.run（NioClientSocketPipelineSink.java:292）739）在 org.jboss.netty.channel.socket.nio.NioClientSocketPipelineSink$Boss.processSelectedKeys 的 org.jboss.netty.channel.socket.nio.NioClientSocketPipelineSink$Boss.connect(NioClientSocketPipelineSink.java:401) 370）在 org.jboss.netty.channel.socket.nio.NioClientSocketPipelineSink$Boss.run（NioClientSocketPipelineSink.java:292）

flume flume-ng

2014-08-09T12:25:25.377

0 投票

1 回答

3371 浏览

hadoop - Flume Avro Sink Source 使用 cloudera 快速入门

是否可以在 Cloudera-Quickstart-CDH-VM 中使用 Avro Sink/Source 设置 Flume Client-Collector-Structure？我知道没有实际用途，但是我想了解 Flume 如何与 Avro 文件一起使用，以及我以后如何将它们与 PIG 等一起使用。

它尝试了几种配置，但都没有奏效。对我来说，我似乎需要几个代理，但是虚拟机中只能有一个。

我最后尝试的：

感谢您的任何建议！

hadoop flume avro cloudera-cdh flume-ng

2014-08-12T13:39:12.143

0 投票

2 回答

1272 浏览

hadoop - Apache Flume 1.5 在 Hadoop 2/自动故障转移集群配置中没有给出预期的结果

我已经在 CentOS 6.5//64 位的 HA/自动故障转移配置中配置了 Apache Hadoop 2 集群。我已经安装了 Flume 1.5 (apache-flume-1.5.0-bin.tar.gz)。我想使用 Flume/Hive 和一些关键词过滤来分析 twitter 数据。见下图：这里是 hadoop2 配置文件内容。（仅重要属性）。

核心站点.xml

hdfs-site.xml

以下是flume配置文件内容：

水槽-env.sh

推特.conf

我正在执行以下命令。

我有以下问题/问题。

a)-它接缝关键字过滤不起作用。我在配置文件中设置了错误的属性吗？
b)-此过程不会在 hdfs 上复制 /user/flume/tweets/20140814/1_55 上的任何文件。
c)-Twitter/API 访问令牌的访问级别是只读的。我需要读写权限吗？
d)-使用 hdfs.path 样式是否正确，就像我使用 twitter.conf 一样？
e)-进程正在执行而不是停止，不确定它将根据什么标准停止。

它继续显示以下输出。

任何人都可以帮助我，我错过了什么？

在用于此任务之前，我是否应该使用 Maven 重新构建 Flume？

hadoop twitter flume flume-ng flume-twitter

2014-08-13T18:15:00.947

0 投票

3 回答

1573 浏览

scala - 如何反序列化进入 Spark 的 Flume 的 Avro 事件？

我有读取水槽的 Flume Avro 水槽和 SparkStreaming 程序。CDH 5.1、Flume 1.5.0、Spark 1.0，使用 Scala 作为 Spark 上的程序语言

我能够制作 Spark 示例并计算 Flume Avro 事件。

但是我无法将 Flume Avro 事件序列化为字符串\文本，然后解析结构行。

有没有人有一个如何使用 Scala 的例子？

scala apache-spark flume flume-ng spark-streaming

2014-08-25T08:30:32.853

0 投票

1 回答

513 浏览

hadoop - Flume + HDFS-200 附加

该页面https://cwiki.apache.org/confluence/display/FLUME/Getting+Started说 HDFS 接收器支持附加，但我无法找到有关如何启用它的任何信息，每个示例都在滚动文件上。因此，如果可能的话，我将不胜感激有关如何使水槽附加到现有文件的任何信息）

更新

可以将所有滚动属性设置为 0，这将使水槽写入单个文件，但它不会关闭文件并且新记录对其他进程不可见。有一个类似于我的话题：Flume NG and HDFS，Dmitry 说 Flume 不支持追加，但答案是一年前，文档说相反，所以我认为可能是水槽得到了改进，或者我误解了一些东西，任何线索将不胜感激。

更新

我意识到这个问题还不清楚，所以让我来描述一下我想要实现的目标：我希望将日志写入一个文件，并且我希望能够在它们被摄取到 hdfs 后立即读取它们。目前我正在使用 Cloudera Impala 执行搜索查询，即使 Flume 配置为立即将它们刷新到磁盘上，它也看不到新事件，至少我是这样认为的。我的调查表明，通常人们将 HBase 用于这些目的，但据我了解，除非使用像 Solr 这样的外部索引，否则它对临时搜索查询无效。问题是我需要尽快找到解决方案，所以我希望它可以更容易完成，例如 Fluentd 可以附加到现有文件，但它只适用于纯文本文件，我更喜欢一些二进制格式。

hadoop hdfs flume flume-ng

2014-09-03T18:17:07.443

0 投票

2 回答

1881 浏览

cloudera - Cloudera 中的 flume.conf 位置

我在一个节点上安装了 Cloudera Manager (4.5.0)。

我想动态更改flume代理，但找不到文件和相关flume.conf的位置。

在 /opt/cloudera/parcels/CDH-4.5.0-1.cdh4.5.0.p0.30/etc/flume-ng/conf.empty 有这个文件，但它是空的，即使我改变它也不会被阅读。

cloudera flume-ng

2014-09-11T07:51:50.507

问题标签 [flume-ng]

Reference