问题标签 [flume-ng]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
flume-ng - 在 Apache Flume 中传输文件时如何保留文件名?
我正在使用 Flume 1.3.1 ng,我正在将文件从 spoolDir 传输到 HDFS Sink,并且我需要与输入文件相同的输出文件名。例如,如果输入文件名为 sample.gz,则输出也需要为 sample.gz
您能否提供如何在 Flume 1.3.1 ng 中实现此功能的过程。
hadoop - 在 Flume Source 实现中使用多线程是一种不好的做法吗?
那么问题是如果我在 Flume Source 实现中使用一些多线程逻辑呢?这不会是一个糟糕的设计吗?
flume - 我可以在水槽配置中使用系统属性吗
我有以下水槽配置用于水槽水槽
我想 make sink.directory
, channels.c1.capacity
, channels.c1.capacity
make 可配置(假设使用系统属性)。可以这样做。
java - Flume java.lang.IllegalStateException:文件自被读取后已更改大小
我有一个 java 应用程序,它从不同来源收集数据并将输出写入特定目录下的文件。
我有一个水槽代理配置为使用 spooldir 源从该目录读取并使用MorphlineSolrSink
.
水槽代理抛出以下异常
这里是flume代理的配置
我从异常中了解到的是,flume 代理开始处理文件,而 java 应用程序没有完成它的编写。
我该如何解决这个问题?
编辑
我不知道这些信息是否有价值。这些配置以前可以正常工作,没有任何问题。我们在运行水槽的机器上遇到了硬桌面故障。从该故障中恢复后,水槽会引发此异常。
flume - 自定义拦截器不适用于 Apache Flume
我有一个 Flume 组件正在监听 Syslog 流。我做了一个自定义拦截器来修改调用,但它不起作用。我做错了什么?谢谢你,安德里亚
Interceptor 是一个编译良好的 JAR 文件,位于@FLUME_HOME/bin目录中
拦截器类:
水槽.config 文件
系统将事件记录在文件中而不修改它们,这是相关的调试日志:
java - 如何首先在水槽中加载自定义库
我写了一个接收器直接写入 cassandra 数据库。我还为水槽代理提供了所有必要的 cassandra 依赖项。但是在执行时,我收到一个错误
现在这是因为 cassandra jar 需要 guava-16.0.1.jar。我已经提供了,但我看到 Flume 选择了默认在 CDH5 中提供的 guava-11.XXjar。
像 job.getConfiguration().set("mapreduce.job.user.classpath.first", "true");
我怎么能告诉水槽先拿起我的罐子
java - 如何设置 Flume 以在简单文件中收集日志
我是 Flume 的新手。我的要求是从 Java 代码启动 Flume 代理,配置如主机、端口等,当外部服务记录他们的数据时,它应该写在一个简单的文本文件中,例如 server.log。
我不想使用 HDFS 接收器。应该是什么配置?
hdfs - 从远程服务器目录列表下载文件并导入 HDFS
我已获得访问服务器的权限,该服务器提供了我将下载并导入 HDFS 的文件的目录列表。我目前正在做的是使用 HTTP GET 访问服务器并下载 HTML 目录列表,然后我使用 jsoup 并解析指向我需要下载的文件的所有链接。一旦我有一个完整的列表,我会一个一个地下载每个文件,然后将每个文件导入 HDFS。我不相信水槽能够读取和解析 html 来下载文件。有没有更简单的方法来做我所描述的事情?
cloudera - Oozie 日期时间开始
我在我的 flume.config 上运行了一个我自己的自定义源,它负责每小时从 Facebook 页面中提取数据。
我想知道是否有任何方法可以设置我的协调员开始时间的提取时间?
就像,我将我的协调器设置为从 2015 年 1 月 1 日上午 12 点开始,然后我的水槽同时开始提取。
这是我的自定义来源:
谢谢您的帮助。
hadoop - 如何使用 Flume 将 CSV(逗号分隔)文件加载到 HBase 表中?
我想将一个 CSV(只是逗号分隔)文件加载到我的 Hbase 表中。我已经在一些谷歌文章的帮助下尝试过,现在我可以将整行(或行)作为值加载到 Hbase 中,即单行中的所有值都存储为单列,但我想拆分基于行在分隔符逗号 (,) 上,并将这些值存储到 Hbase 表的列族中的不同列中。
请帮助解决我的问题。任何建议表示赞赏。
以下是我目前使用的输入文件、代理配置文件和 hbase 输出文件。