Find centralized, trusted content and collaborate around the technologies you use most.
Teams
Q&A for work
Connect and share knowledge within a single location that is structured and easy to search.
每当有新文件到达特定文件夹时,我都试图将文件从远程计算机获取到我的 hdfs。我在水槽中遇到了假脱机目录的概念,如果假脱机目录与水槽代理运行的同一台机器上,它工作正常。
有什么方法可以在远程机器中配置假脱机目录吗?请帮忙。
您可能知道flume 可以产生多个实例,即您可以安装多个在它们之间传递数据的flume 实例。
所以回答你的问题:不,水槽无法访问远程假脱机目录。但是您可以安装两个代理,一个在具有 spool 目录的机器上,一个在 hadoop 节点上。
第一个将从 spool 读取并通过 avro rpc 将其传递给第二个代理,第二个代理会将数据刷新到 HDFS。
这是一个简单的设置,只需要几行配置。