0

虽然之前已经提出过 Windows 上 hadoop/HDFS 的一般问题,但我还没有看到任何人提出我认为对 Windows 支持最重要的用例:Windows 终端站如何参与 HDFS 环境并使用存储在高清文件系统。

特别是,假设我们有一个很好的基于 Linux 的 HDFS 环境,其中有很多节点和正在运行的分析作业等,一切都很愉快。Windows 桌面如何也使用这些文件?假设我们的分析从数百万几乎不感兴趣的文件中找到有趣的文件。现在我们想将它们带入桌面应用程序以进行可视化等。桌面使用它们的最自然方式是通过 Windows 共享,希望通过 Windows 服务器。

Windows 的 CIFS 实现比 Samba 好几个数量级——我说的是事实,而不是争论的焦点。这并不是说 Samba 不能正常工作,只是有充分的理由强烈倾向于将这个 HDFS 文件系统本质上导出为 CIFS。

可以通过一些工作流程来做到这一点,我们有一个后端流程来获取有趣的文件并复制它们。但这在许多情况下很麻烦,并且无法让受 Windows 束缚的分析师轻松地自行探索文件。

因此,我真正要寻找的是:

  • 视窗服务器
  • HDFS 作为“挂载”文件系统;Windows 被认为是 HDFS “客户端”
  • 将此文件系统从 Windows 导出为 CIFS 服务器
  • 在 Windows 桌面上使用文件
  • 让所有常见的 Windows 组权限正常工作(例如,通过映射到 NFSv4 ACL)。

顺便说一句,如果我们在这个问题中将“HDFS”替换为“GPFS”,那么一切都会奏效。目前,这是我的环境中 HDFS 和 GPFS 之间的关键区别。是的,还有很多比较点,但我现在一般不关注 GPFS 与 HDFS。

有人可以添加#GPFS 标签吗?

4

1 回答 1

0

特别是,假设我们有一个很好的基于 Linux 的 HDFS 环境,其中有很多节点和正在运行的分析作业等,一切都很愉快。Windows 桌面如何也使用这些文件?

HDFS 通过WebHDFSHttpFS为各种操作提供了 REST API 。可以从多种语言务实地访问 REST API。另请注意,这些语言还具有可轻松针对 REST API 进行编程的库。

还没有尝试过,但是根据 Hadoop 文档,应该可以HDFS 安装到 Windows 机器上。

于 2012-10-25T12:42:27.317 回答