1

我想将大量小文件移动到 HDFS 序列文件。我遇到了两种选择:

  1. 使用水槽。Flume 没有内置文件源,这需要自定义源来推送文件。
  2. 使用 apache camel 文件到 hdfs 路由。

尽管上述两种方法可以达到目的,但我想在选择一种之前权衡其他可用的选项。特别是,我对更可配置且导致代码可维护性降低的解决方案感兴趣。

4

2 回答 2

1

使用水槽。Flume 没有内置文件源,这需要自定义源来推送文件。

嗯……不,这不对。Flume 有一个Spooling Directory Source可以做你想要的高级别的。

于 2013-08-15T21:07:01.207 回答
0

看起来像 Camel 的几行代码。即from("file:/..").to("hdfs:..")加上一些初始化和项目设置。

不确定使用任何方法可以轻松多少(更少的代码行)。

如果 Camel 中的HDFS 选项足以满足配置和灵活性,那么我想这种方法是最好的。应该只需要几个小时(甚至几分钟)就可以启动并运行一些测试用例。

于 2013-08-15T16:13:42.227 回答