1

我是水槽的新手。我的水槽代理有源作为 http 服务器,它定期从那里获取 zip 文件(压缩的 xml 文件)。这个 zip 文件非常小(小于 10 mb),我想把 zip 文件提取到 hdfs 接收器中。请分享一些想法如何做到这一点。我是否必须使用自定义拦截器。

4

1 回答 1

2

Flume 将尝试逐行读取您的文件,除非您配置了特定的反序列化器。反序列化器可让您控制文件如何解析和拆分为事件。您当然可以遵循专为 PDF 等设计的 blob deserizalizer 的示例,但我知道您实际上想要解压缩它们,然后逐行阅读它们。在这种情况下,您需要编写一个自定义的反序列化器来读取 Zip 并逐行写入事件。

这是文档中的参考:

https://flume.apache.org/FlumeUserGuide.html#event-deserializers

于 2015-02-04T22:59:58.940 回答