问题标签 [flume-ng]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
194 浏览

json - Flume - Solr 集成

这是我的场景。

输入 JSON 数据流向 Flume,需要对其进行索引并近乎实时地存储到 Solr。我正在使用最新的 CDH 版本。

我没有找到完整的文档。它在某些地方断开连接。

你能在这里指出我正确的方向吗?

  • 我应该使用 Morphilines 水槽并说不要进行任何转换吗?或者,如果我不想对 json 进行任何转换,我可以使用其他接收器直接写入 Solr 吗?
  • 指向具有明确步骤的文档的指针
  • 或者请以逐步的形式列出您将做什么(当然,非常高水平)。
0 投票
1 回答
392 浏览

java - 启动水槽时出错

我正在尝试使用 dynatrace 作为水槽的源,而 hadoop 作为接收器,其中 dynatrace 和水槽在同一台服务器上,而 hadoop 在另一台服务器上。

但是,当启动水槽时,我收到以下错误:


错误 [conf-file-poller-0] (org.apache.flume.conf.file.AbstractFileConfigurationProvider$FileWatcherRunnable.run:211) - 未处理的错误 java.lang.NoSuchMethodError: org.slf4j.spi.LocationAwareLogger.log(Lorg/ slf4j/Marker;Ljava/lang/String;ILjava/lang/String;Ljava/lang/Throwable;)V 在 org.apache.commons.logging.impl.SLF4JLocationAwareLog.debug(SLF4JLocationAwareLog.java:120) 在 org.apache。 hadoop.metrics2.impl.MetricsSystemImpl.register(MetricsSystemImpl.java:220) at org.apache.hadoop.metrics2.MetricsSystem.register(MetricsSystem.java:54) at org.apache.hadoop.security.UserGroupInformation$UgiMetrics.create( UserGroupInformation.java:106) 在 org.apache.hadoop.security.UserGroupInformation.(UserGroupInformation.java:208) 在 org.apache.flume.sink.hdfs.HDFSEventSink.authenticate(HDFSEventSink.java:529) 在 org.apache.flume.sink.hdfs.HDFSEventSink.configure(HDFSEventSink.java:247) 在 org.apache.flume.conf.Configurables.configure(Configurables.java:41) 在 org.apache.flume.conf.properties.PropertiesFileConfigurationProvider。 loadSinks(PropertiesFileConfigurationProvider.java:373) at org.apache.flume.conf.properties.PropertiesFileConfigurationProvider.load(PropertiesFileConfigurationProvider.java:223) at org.apache.flume.conf.file.AbstractFileConfigurationProvider.doLoad(AbstractFileConfigurationProvider.java:123)在 org.apache.flume.conf.file.AbstractFileConfigurationProvider.access$300(AbstractFileConfigurationProvider.java:38) 在 org.apache.flume.conf.file.AbstractFileConfigurationProvider$FileWatcherRunnable.run(AbstractFileConfigurationProvider.java:202) 在 java.util。 concurrent.Executors$RunnableAdapter。在 java.util.concurrent.ScheduledThreadPoolExecutor$ScheduledFutureTask.access$301(ScheduledThreadPoolExecutor.java:178) 在 java.util.concurrent.FutureTask.runAndReset(FutureTask.java:304) 调用 (Executors.java:471)。 concurrent.ScheduledThreadPoolExecutor$ScheduledFutureTask.run(ScheduledThreadPoolExecutor.java:293) 在 java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1145) 在 java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:615)在 java.lang.Thread.run(Thread.java:745)在 java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:615) 在 java.lang.Thread 的 java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1145) 运行 (ScheduledThreadPoolExecutor.java:293) .run(Thread.java:745)在 java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:615) 在 java.lang.Thread 的 java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1145) 运行 (ScheduledThreadPoolExecutor.java:293) .run(Thread.java:745)


这是我的水槽配置文件:


请帮忙。

谢谢, 普兰尼尔

0 投票
1 回答
724 浏览

hadoop - S3 Flume HDFS SINK 压缩

我正在尝试在 Amaozn S3 中编写水槽事件。在 S3 中编写的事件是压缩格式的。我的 Flume 配置如下。我正面临数据丢失。根据下面给出的配置,如果我发布 20000 个事件,我只会收到 1000 个事件,并且所有其他数据都会丢失。但是当我禁用 rollcount、rollSize 和 rollInterval 配置时,所有的事件都被接收到了,但是创建了 2000 个小文件。我的配置设置有什么问题吗?我应该添加任何其他配置吗?

0 投票
1 回答
459 浏览

cloudera - Flume-ng hdfs sink .tmp 文件刷新率控制属性

我正在尝试每 5 分钟使用其他事件刷新 .tmp 文件,我的源速度很慢,需要 30 分钟才能在我的 hdfs 接收器中获取 128MB 文件。

在将文件滚动到 HDFS 之前,flume hdfs sink 中是否有任何属性可以控制 .tmp 文件的刷新率。

我需要这个来使用 .tmp 文件中的配置单元表查看 HDFS 中的数据。

目前我正在使用 hive 表查看 .tmp 文件中的数据,但 .tmp 文件很长时间没有刷新,因为卷大小为 128MB。

0 投票
3 回答
1861 浏览

hadoop - 启动 Flume 代理时找不到文件异常

我是第一次安装 Flume。我正在使用 hadoop-1.2.1 和水槽 1.6.0

我尝试按照本指南设置水槽代理。

我执行了这个命令:$ bin/flume-ng agent -n $agent_name -c conf -f conf/flume-conf.properties.template

它说log4j:ERROR setFile(null,true) call failed. java.io.FileNotFoundException: ./logs/flume.log (No such file or directory)

文件不是flume.log自动生成的吗?如果没有,我该如何纠正这个错误?

0 投票
0 回答
505 浏览

hadoop - hadoop + Flume + HDFS IO 错误 + ConnectException

我正在使用 Cloudera Manager CDH 5.4.2,还安装了 Flume,我无法保存从 Twitter 获得的信息

当我运行水槽代理时,它开始正常,但在尝试将新事件数据写入 hdfs 时出错。我收到以下错误:

我所做的配置是:

水槽-conf.property:

我使用以下插件:

(我将 twitter4j- -3.0.3.jar 的版本替换为 twitter4j- -2.2.6.jar)

也是使用 hdfs 用户的目录

core-site.xml ( 在 /hadoop/conf ) 我添加了:

我还在以 HDFS 用户身份离开 Flume Agent 的主机上运行 hadoop dfsadmin -safemode leave

在这个问题上,我非常感谢您的帮助。

0 投票
3 回答
5803 浏览

flume - Flume 事件标头中的预期时间戳,但它为空

我正在使用以下配置详细信息使用 Flume 将 Twitter 提要推送到 HDFS,但在 Flume 事件标头中获得了预期的时间戳,但它为空

推特.conf

使用命令运行

twitter.conf我的配置文件名在哪里

但得到错误为:

寻求进一步的帮助??

0 投票
1 回答
4035 浏览

hadoop - 无法将 twitter avro 数据正确加载到 hive 表中

需要你的帮助!

我正在尝试一个简单的练习,即从 twitter 获取数据,然后将其加载到 Hive 中进行分析。虽然我能够使用水槽(使用 Twitter 1% firehose 源)将数据导入 HDFS,并且还能够将数据加载到 Hive 表中。

但无法在 Twitter 数据中看到我期望的所有列,例如 user_location、user_description、user_friends_count、user_description、user_statuses_count。从 Avro 派生的架构仅包含标题和正文两列。

以下是我已完成的步骤:

1)使用以下配置创建一个水槽代理:

2)从avro数据文件派生架构,我不知道为什么从avro数据文件派生的架构只有两列标题和正文:

3) 运行上述代理并获取HDFS中的数据,找出avro数据的模式并创建一个Hive表:

4) 描述 Hive 表:

5)查询表:当我查询表时,我在“body”列中看到二进制数据,在“header”列中看到实际的架构信息。

如何创建一个包含实际架构中所有列的配置单元表,如“标题”列中所示。我的意思是所有列,如 user_location、user_description、user_friends_count、user_description、user_statuses_count?

从 avro 数据文件派生的架构不应该包含更多列吗?

我在水槽代理 (org.apache.flume.source.twitter.TwitterSource) 中使用的水槽-avro 源是否有任何问题?

感谢您通读..

谢谢Farrukh,我已经知道错误是配置'a1.sinks.k1.serializer = avro_event',我将其更改为'a1.sinks.k1.serializer = text',我能够将数据加载到Hive . 但现在问题是从 Hive 检索数据,这样做时我收到以下错误:

0 投票
3 回答
933 浏览

hadoop - Spark 流无法读取从 hdfs 中的水槽创建的文件

我创建了一个实时应用程序,在该应用程序中,我使用 Flume 从博客将数据流写入 hdfs,然后使用 spark 流处理该数据。但是,当水槽在 hdfs 中写入和创建新文件时,火花流无法处理这些文件。如果我使用 put 命令将文件放入 hdfs 目录,则火花流能够读取和处理文件。任何有关相同的帮助都会很棒。

0 投票
1 回答
817 浏览

twitter - 使用 PIG 查询 Avro 数据时出错,Utf8 无法转换为 java.lang.String

我已经使用 Flume 将 Twitter 数据下载到 HDFS 中,但是当我尝试使用 PIG 查询它时,我得到了一个类转换异常,无法从 utf-8 转换为 String。

错误 2997:遇到 IOException。例外