3

每当有新文件到达特定文件夹时,我都试图将文件从远程计算机获取到我的 hdfs。我在水槽中遇到了假脱机目录的概念,如果假脱机目录与水槽代理运行的同一台机器上,它工作正常。

有什么方法可以在远程机器中配置假脱机目录吗?请帮忙。

4

1 回答 1

6

您可能知道flume 可以产生多个实例,即您可以安装多个在它们之间传递数据的flume 实例。

所以回答你的问题:不,水槽无法访问远程假脱机目录。但是您可以安装两个代理,一个在具有 spool 目录的机器上,一个在 hadoop 节点上。

第一个将从 spool 读取并通过 avro rpc 将其传递给第二个代理,第二个代理会将数据刷新到 HDFS。

这是一个简单的设置,只需要几行配置。

于 2014-09-24T14:51:00.083 回答