虽然之前已经提出过 Windows 上 hadoop/HDFS 的一般问题,但我还没有看到任何人提出我认为对 Windows 支持最重要的用例:Windows 终端站如何参与 HDFS 环境并使用存储在高清文件系统。
特别是,假设我们有一个很好的基于 Linux 的 HDFS 环境,其中有很多节点和正在运行的分析作业等,一切都很愉快。Windows 桌面如何也使用这些文件?假设我们的分析从数百万几乎不感兴趣的文件中找到有趣的文件。现在我们想将它们带入桌面应用程序以进行可视化等。桌面使用它们的最自然方式是通过 Windows 共享,希望通过 Windows 服务器。
Windows 的 CIFS 实现比 Samba 好几个数量级——我说的是事实,而不是争论的焦点。这并不是说 Samba 不能正常工作,只是有充分的理由强烈倾向于将这个 HDFS 文件系统本质上导出为 CIFS。
可以通过一些工作流程来做到这一点,我们有一个后端流程来获取有趣的文件并复制它们。但这在许多情况下很麻烦,并且无法让受 Windows 束缚的分析师轻松地自行探索文件。
因此,我真正要寻找的是:
- 视窗服务器
- HDFS 作为“挂载”文件系统;Windows 被认为是 HDFS “客户端”
- 将此文件系统从 Windows 导出为 CIFS 服务器
- 在 Windows 桌面上使用文件
- 让所有常见的 Windows 组权限正常工作(例如,通过映射到 NFSv4 ACL)。
顺便说一句,如果我们在这个问题中将“HDFS”替换为“GPFS”,那么一切都会奏效。目前,这是我的环境中 HDFS 和 GPFS 之间的关键区别。是的,还有很多比较点,但我现在一般不关注 GPFS 与 HDFS。
有人可以添加#GPFS 标签吗?