从 NFS 挂载实现并行复制到 hadoop 的最佳和快速方法是什么?我们有一个包含大量文件的挂载,我们需要将其复制到 hdfs 中。
一些选项:
- 以多线程方式运行 copyFromLocal
- 以孤立的方式使用 distcp。
- 我可以只写一份地图工作来复制吗?
问候, JD
我认为关键问题是 NFS 链接的源端是什么?如果它是一台 NAS,您可能会更好地处理多台客户端计算机同时运行 copyFromLocal 的情况(每台一台)。当您从同一个客户端同时读取超过 5-10 个磁盘时,即使是高性能 NAS 也会感到不快。我将建模以下内容(全部使用 copyFromLocal):
我肯定会避免 M/R,因为进程启动成本太高,甚至 distcp 也不会做得很好,因为您将无法控制源 NAS 受到的打击程度(这将是您的瓶颈)。