问题标签 [flume]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
hadoop - Flume 将数据从 MySQL 迁移到 Hadoop
请分享你的想法。
要求是将 MySQL db 中的数据迁移到 Hadoop/HBase 以进行分析。
数据应实时或接近实时迁移。水槽可以支持这一点。
有什么更好的方法。
bash - 在 shell/bash 脚本中配置水槽 - 避免交互式水槽 shell 控制台
配置 Flume 的常规方式是通过 Flume Master Web 控制台,在这里很容易谈论它。
或者
通过交互式水槽 shell 控制台,按照以下步骤操作:
到目前为止,一切都很好。
然后我正在尝试为我的水槽配置编写一个 bash 脚本。所以我想将 1,2,3,4,5 压缩到一个 bash 中,它每次都会自动运行而无需干预,如下所示:
但是每次我运行这个 bash 脚本时,它总是停在#line1并把我带到交互式水槽 shell 控制台,而不是在非迭代模式下安静地运行它。
有谁知道如何忽略交互模式并安静地运行它?
hadoop - 为什么我需要节俭来建造水槽?
我已经从“ https://github.com/apache/flume/downloads ”下载了flume ..但是我无法构建它..我需要先安装thrift才能构建flume吗?如果是这样,什么是共振..当我运行 mvn compile 时出现以下错误 -
flume - Flume 代理抛出 java.net.ConnectException:连接被拒绝
我已经使用 Flume 有一段时间了,我已经让代理和收集器在同一台机器上运行。
配置
代理节点面临的问题:
然后会连续发送空的ACK
我不明白为什么连接被拒绝。是否需要进行任何系统级别的更改?
注意:收集器正在监听端口,但代理无法通过 35855 端口发送数据。
谁能帮我解决这个问题。
谢谢
hadoop - flume-ng的奇怪行为
我正在尝试使用 flume-ng 将 apache Web 服务器日志聚合到 hdfs 中。但奇怪的是,我只将前几行放入 hdfs 中。更奇怪的是,每次我启动代理时都会创建两个文件,而第二个文件是总是小于第一个。我的代理 conf 文件如下所示:
此外,我在终端上没有收到任何错误消息..这是正常的还是我的一些错误?
amazon-s3 - s3 的典型写入吞吐量是多少(使用水槽 0.9.4)
我在 BE 模式下运行我的水槽(水槽 0.9.4-cdh3u4)流,并且位于不同机器上的代理和收集器都是大型 EC2 实例
收集器写入本地文件系统以及同一区域中的 S3 存储桶。
代理在 E2E 模式下配置时已经过测试,可处理 4MB/s,代理 <-> 收集器速度也是如此。
使用“iftop”,我注意到收集器有两个传出连接到 S3,到 s3 的写入吞吐量徘徊在 40KB/s - 50KB/s 左右
您使用收集器看到的 s3 的典型写入吞吐量是多少?
我想知道是否可以生成更多这些线程(写入 S3)以最大化实例利用率?
我怎么做?
如果我能以另一种方式增加写入吞吐量,我宁愿不产生更多的收集器。
java - 用flume配置slf4j?
我想将 slf4j 与水槽而不是 log4j 一起使用(水槽默认使用)-你能告诉我,我在哪个文件中进行了更改以配置 slf4j?
hadoop - Flume 无法将文件放入 S3 存储桶
我在其仅节点(测试)模式下使用水槽;Flume 从 RabbitMQ 拉取消息并将其放入 Amazon S3 存储桶。
问题:
Flume 实际上是从 RabbitMQ 中提取的,但文件不会出现在 S3 存储桶中。
技术细节:
我以以下方式启动水槽:
水槽日志:
在flume重启后,当通过相关的exchange和queue发送东西时,flume log中会出现以下几行:
java - Flume 将输出格式从 .csv 更改为 .json
我在其仅节点(测试)模式下使用水槽;我的水槽以下列方式启动:
水槽节点 -1 -c $FQDN':amqp("exchangeName=[exchange name]", "bindings=[binding name]", "host=127.0.0.1", "port=5672", "userName=[user] ", "password=[pass]", "exchangeType=direct", "durableExchange=false", "queueName=[queue name]", "durableQueue=true", "exclusiveQueue=false", "autoDeleteQueue=false", " useMessageTimestamp=true")|collectorSink("s3n://[Amazon key]:[Amazon secret]@[path at S3]","server");' -s "$@" > "$log" 2>&1
我有兴趣使用水槽传递 .csv 文件。不幸的是,flume 将 .csv 文件转换为 .json,添加了一些字段。
例子:
原消息:
水槽将消息转换为:
如何配置水槽以按原样传递消息?
linux - Flume 在 Linux 中运行失败
当我将水槽安装到 Linux 中时。我在运行水槽时收到了一些警告,我按照这个过程安装了水槽。
为了运行水槽,我使用了这个命令
但它显示了一些警告