hadoop - 如何在非 Java 客户端中从 HDFS 读取文件

Question

因此，我的 MR Job 生成了一个报告文件，该文件需要能够由最终用户下载，该最终用户需要在正常的 Web 报告界面上单击一个按钮，并让它下载输出。根据这 O'Reilly 的书摘，有一个 HTTP 只读接口。它说它是基于 XML 的，但它似乎只是旨在通过 Web 浏览器查看的普通 Web 界面，而不是可以以编程方式查询、列出和下载的东西。我唯一的办法是编写自己的基于 servlet 的界面吗？还是执行hadoop cli工具？

score 3 · Accepted Answer

从 Java 以外的方式以编程方式访问 HDFS 的方法是使用 Trift。HDFS 源代码树中包含多种语言（Java、Python、PHP 等）的预生成客户端类。

见http://wiki.apache.org/hadoop/HDFS-APIs

score -1 · Accepted Answer

恐怕您可能不得不与 CLI AFAIK 达成和解。

不确定它是否适合您的情况，但我认为让启动 MR 作业的任何脚本hadoop dfs -get ...在作业完成后对已提供服务的已知目录执行操作是合理的。

抱歉，我不知道更简单的解决方案。

hadoop - 如何在非 Java 客户端中从 HDFS 读取文件

2 回答 2

Related

Reference