问题标签 [flume-ng]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
json - Flume - Solr 集成
这是我的场景。
输入 JSON 数据流向 Flume,需要对其进行索引并近乎实时地存储到 Solr。我正在使用最新的 CDH 版本。
我没有找到完整的文档。它在某些地方断开连接。
你能在这里指出我正确的方向吗?
- 我应该使用 Morphilines 水槽并说不要进行任何转换吗?或者,如果我不想对 json 进行任何转换,我可以使用其他接收器直接写入 Solr 吗?
- 指向具有明确步骤的文档的指针
- 或者请以逐步的形式列出您将做什么(当然,非常高水平)。
java - 启动水槽时出错
我正在尝试使用 dynatrace 作为水槽的源,而 hadoop 作为接收器,其中 dynatrace 和水槽在同一台服务器上,而 hadoop 在另一台服务器上。
但是,当启动水槽时,我收到以下错误:
错误 [conf-file-poller-0] (org.apache.flume.conf.file.AbstractFileConfigurationProvider$FileWatcherRunnable.run:211) - 未处理的错误 java.lang.NoSuchMethodError: org.slf4j.spi.LocationAwareLogger.log(Lorg/ slf4j/Marker;Ljava/lang/String;ILjava/lang/String;Ljava/lang/Throwable;)V 在 org.apache.commons.logging.impl.SLF4JLocationAwareLog.debug(SLF4JLocationAwareLog.java:120) 在 org.apache。 hadoop.metrics2.impl.MetricsSystemImpl.register(MetricsSystemImpl.java:220) at org.apache.hadoop.metrics2.MetricsSystem.register(MetricsSystem.java:54) at org.apache.hadoop.security.UserGroupInformation$UgiMetrics.create( UserGroupInformation.java:106) 在 org.apache.hadoop.security.UserGroupInformation.(UserGroupInformation.java:208) 在 org.apache.flume.sink.hdfs.HDFSEventSink.authenticate(HDFSEventSink.java:529) 在 org.apache.flume.sink.hdfs.HDFSEventSink.configure(HDFSEventSink.java:247) 在 org.apache.flume.conf.Configurables.configure(Configurables.java:41) 在 org.apache.flume.conf.properties.PropertiesFileConfigurationProvider。 loadSinks(PropertiesFileConfigurationProvider.java:373) at org.apache.flume.conf.properties.PropertiesFileConfigurationProvider.load(PropertiesFileConfigurationProvider.java:223) at org.apache.flume.conf.file.AbstractFileConfigurationProvider.doLoad(AbstractFileConfigurationProvider.java:123)在 org.apache.flume.conf.file.AbstractFileConfigurationProvider.access$300(AbstractFileConfigurationProvider.java:38) 在 org.apache.flume.conf.file.AbstractFileConfigurationProvider$FileWatcherRunnable.run(AbstractFileConfigurationProvider.java:202) 在 java.util。 concurrent.Executors$RunnableAdapter。在 java.util.concurrent.ScheduledThreadPoolExecutor$ScheduledFutureTask.access$301(ScheduledThreadPoolExecutor.java:178) 在 java.util.concurrent.FutureTask.runAndReset(FutureTask.java:304) 调用 (Executors.java:471)。 concurrent.ScheduledThreadPoolExecutor$ScheduledFutureTask.run(ScheduledThreadPoolExecutor.java:293) 在 java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1145) 在 java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:615)在 java.lang.Thread.run(Thread.java:745)在 java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:615) 在 java.lang.Thread 的 java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1145) 运行 (ScheduledThreadPoolExecutor.java:293) .run(Thread.java:745)在 java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:615) 在 java.lang.Thread 的 java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1145) 运行 (ScheduledThreadPoolExecutor.java:293) .run(Thread.java:745)
这是我的水槽配置文件:
请帮忙。
谢谢, 普兰尼尔
hadoop - S3 Flume HDFS SINK 压缩
我正在尝试在 Amaozn S3 中编写水槽事件。在 S3 中编写的事件是压缩格式的。我的 Flume 配置如下。我正面临数据丢失。根据下面给出的配置,如果我发布 20000 个事件,我只会收到 1000 个事件,并且所有其他数据都会丢失。但是当我禁用 rollcount、rollSize 和 rollInterval 配置时,所有的事件都被接收到了,但是创建了 2000 个小文件。我的配置设置有什么问题吗?我应该添加任何其他配置吗?
cloudera - Flume-ng hdfs sink .tmp 文件刷新率控制属性
我正在尝试每 5 分钟使用其他事件刷新 .tmp 文件,我的源速度很慢,需要 30 分钟才能在我的 hdfs 接收器中获取 128MB 文件。
在将文件滚动到 HDFS 之前,flume hdfs sink 中是否有任何属性可以控制 .tmp 文件的刷新率。
我需要这个来使用 .tmp 文件中的配置单元表查看 HDFS 中的数据。
目前我正在使用 hive 表查看 .tmp 文件中的数据,但 .tmp 文件很长时间没有刷新,因为卷大小为 128MB。
hadoop - 启动 Flume 代理时找不到文件异常
我是第一次安装 Flume。我正在使用 hadoop-1.2.1 和水槽 1.6.0
我尝试按照本指南设置水槽代理。
我执行了这个命令:$ bin/flume-ng agent -n $agent_name -c conf -f conf/flume-conf.properties.template
它说log4j:ERROR setFile(null,true) call failed.
java.io.FileNotFoundException: ./logs/flume.log (No such file or directory)
文件不是flume.log
自动生成的吗?如果没有,我该如何纠正这个错误?
hadoop - hadoop + Flume + HDFS IO 错误 + ConnectException
我正在使用 Cloudera Manager CDH 5.4.2,还安装了 Flume,我无法保存从 Twitter 获得的信息
当我运行水槽代理时,它开始正常,但在尝试将新事件数据写入 hdfs 时出错。我收到以下错误:
我所做的配置是:
水槽-conf.property:
我使用以下插件:
(我将 twitter4j- -3.0.3.jar 的版本替换为 twitter4j- -2.2.6.jar)
也是使用 hdfs 用户的目录
core-site.xml ( 在 /hadoop/conf ) 我添加了:
我还在以 HDFS 用户身份离开 Flume Agent 的主机上运行 hadoop dfsadmin -safemode leave
在这个问题上,我非常感谢您的帮助。
flume - Flume 事件标头中的预期时间戳,但它为空
我正在使用以下配置详细信息使用 Flume 将 Twitter 提要推送到 HDFS,但在 Flume 事件标头中获得了预期的时间戳,但它为空
推特.conf
使用命令运行
twitter.conf
我的配置文件名在哪里
但得到错误为:
寻求进一步的帮助??
hadoop - 无法将 twitter avro 数据正确加载到 hive 表中
需要你的帮助!
我正在尝试一个简单的练习,即从 twitter 获取数据,然后将其加载到 Hive 中进行分析。虽然我能够使用水槽(使用 Twitter 1% firehose 源)将数据导入 HDFS,并且还能够将数据加载到 Hive 表中。
但无法在 Twitter 数据中看到我期望的所有列,例如 user_location、user_description、user_friends_count、user_description、user_statuses_count。从 Avro 派生的架构仅包含标题和正文两列。
以下是我已完成的步骤:
1)使用以下配置创建一个水槽代理:
2)从avro数据文件派生架构,我不知道为什么从avro数据文件派生的架构只有两列标题和正文:
3) 运行上述代理并获取HDFS中的数据,找出avro数据的模式并创建一个Hive表:
4) 描述 Hive 表:
5)查询表:当我查询表时,我在“body”列中看到二进制数据,在“header”列中看到实际的架构信息。
如何创建一个包含实际架构中所有列的配置单元表,如“标题”列中所示。我的意思是所有列,如 user_location、user_description、user_friends_count、user_description、user_statuses_count?
从 avro 数据文件派生的架构不应该包含更多列吗?
我在水槽代理 (org.apache.flume.source.twitter.TwitterSource) 中使用的水槽-avro 源是否有任何问题?
感谢您通读..
谢谢Farrukh,我已经知道错误是配置'a1.sinks.k1.serializer = avro_event',我将其更改为'a1.sinks.k1.serializer = text',我能够将数据加载到Hive . 但现在问题是从 Hive 检索数据,这样做时我收到以下错误:
hadoop - Spark 流无法读取从 hdfs 中的水槽创建的文件
我创建了一个实时应用程序,在该应用程序中,我使用 Flume 从博客将数据流写入 hdfs,然后使用 spark 流处理该数据。但是,当水槽在 hdfs 中写入和创建新文件时,火花流无法处理这些文件。如果我使用 put 命令将文件放入 hdfs 目录,则火花流能够读取和处理文件。任何有关相同的帮助都会很棒。
twitter - 使用 PIG 查询 Avro 数据时出错,Utf8 无法转换为 java.lang.String
我已经使用 Flume 将 Twitter 数据下载到 HDFS 中,但是当我尝试使用 PIG 查询它时,我得到了一个类转换异常,无法从 utf-8 转换为 String。
错误 2997:遇到 IOException。例外