“multidplyr”的相关标签问题

0 投票

1 回答

638 浏览

r - R：为什么并行会（很多）慢？将并行用于（左）加入大量大文件的最佳策略是什么？

我已经阅读了一些关于这些主题的问题以及一些教程，但未能解决我的问题，所以决定问自己。

我收集了大量类型为 A、B、C 的大文件；在某些情况下，我需要将 B、C 与 A 分开。我在具有 64 个 CPU 和 240GB 的远程服务器上工作，所以我很自然地想同时使用它的电源和处理。我拥有的一个重要知识是，如果 a_i 文件只能与 b_i 成功连接，b_(i+1) 来自 B，对于 C 也是如此。我最初的尝试是为 'a_i' 文件创建一个 'join_i' 函数，然后运行它并行（我有 448 个文件）。然而，没有显着的时间改进，事实上，当我观察性能时——可悲的是，CPU 的负载百分比非常低。据我所知，我认为瓶颈是 IO，尤其是因为所有文件都很大。这是一个有效的假设吗？无论如何，在第二次尝试时，我决定按顺序浏览每个文件，但在每次迭代中使用并行优势。但是，经过多次尝试，我也没有在这里获得任何运气。我试图在下面做一个最小的例子，其中并行要慢得多（实际上在我的真实数据上它冻结了）。这里有什么问题？是代码错误还是对 R 中的并行工作原理有更深的误解？此外，我尝试了一些 multidplyr 和 mclapply，但在这两种情况下也没有运气。我还想指出，读取文件需要的不仅仅是连接本身：在 1 次迭代中读取大约需要 30 秒（我使用 fread，通过 cmd 在其中解压缩），而连接大约需要 10 秒。鉴于此，这里最好的策略是什么？提前致谢！我试图在下面做一个最小的例子，其中并行要慢得多（实际上在我的真实数据上它冻结了）。这里有什么问题？是代码错误还是对 R 中的并行工作原理有更深的误解？此外，我尝试了一些 multidplyr 和 mclapply，但在这两种情况下也没有运气。我还想指出，读取文件需要的不仅仅是连接本身：在 1 次迭代中读取大约需要 30 秒（我使用 fread，通过 cmd 在其中解压缩），而连接大约需要 10 秒。鉴于此，这里最好的策略是什么？提前致谢！我试图在下面做一个最小的例子，其中并行要慢得多（实际上在我的真实数据上它冻结了）。这里有什么问题？是代码错误还是对 R 中的并行工作原理有更深的误解？此外，我尝试了一些 multidplyr 和 mclapply，但在这两种情况下也没有运气。我还想指出，读取文件需要的不仅仅是连接本身：在 1 次迭代中读取大约需要 30 秒（我使用 fread，通过 cmd 在其中解压缩），而连接大约需要 10 秒。鉴于此，这里最好的策略是什么？提前致谢！在 1 次迭代中读取大约需要 30 秒（我使用 fread，通过 cmd 在其中解压缩），而加入大约需要 10 秒。鉴于此，这里最好的策略是什么？提前致谢！在 1 次迭代中读取大约需要 30 秒（我使用 fread，通过 cmd 在其中解压缩），而加入大约需要 10 秒。鉴于此，这里最好的策略是什么？提前致谢！

在我的服务器上，%do% 大约需要 5s，%dopar% 需要超过 1m。请注意，这是为了加入本身，甚至不考虑制作集群的时间。顺便说一句，有人也可以评论我应该有多少个集群吗？比如说，我在 X 个均匀大小的块上划分数据并有 Y 个 CPU 可用——我应该尽可能多地放置 Y，还是 X，或其他数量的集群？