1

从 NFS 挂载实现并行复制到 hadoop 的最佳和快速方法是什么?我们有一个包含大量文件的挂载,我们需要将其复制到 hdfs 中。

一些选项:

  1. 以多线程方式运行 copyFromLocal
  2. 以孤立的方式使用 distcp。
  3. 我可以只写一份地图工作来复制吗?

问候, JD

4

1 回答 1

1

我认为关键问题是 NFS 链接的源端是什么?如果它是一台 NAS,您可能会更好地处理多台客户端计算机同时运行 copyFromLocal 的情况(每台一台)。当您从同一个客户端同时读取超过 5-10 个磁盘时,即使是高性能 NAS 也会感到不快。我将建模以下内容(全部使用 copyFromLocal):

  • NAS -> 1 个客户端 -> 5、10、50、100 个并行进程
  • NAS -> 5 个客户端 -> 每个 5、10、50、100 个并行进程

我肯定会避免 M/R,因为进程启动成本太高,甚至 distcp 也不会做得很好,因为您将无法控制源 NAS 受到的打击程度(这将是您的瓶颈)。

于 2015-01-07T03:43:59.950 回答