问题标签 [mclapply]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
102 浏览

r - 函数 tm::tm_map 遇到错误

我有一个VCorpus“oanc”,我想把所有的单词都改成小写,所以我使用下面的函数

但我收到了一个警告:

VCorpusoanc”大小为 586MB,而“oanc1”只有 4MB。另外,除了第一个文本之外的所有内容都被破坏了,当我运行时

我有

有没有人可以帮助我?我的操作系统是 ubuntu 14.04LTS,R 版本是 3.2.0

0 投票
1 回答
1130 浏览

r - 用 lapply 替换 apply 函数

我正在创建一个数据集来使用正则表达式计算不同单词组合的聚合值。每行都有一个唯一的正则表达式值,我想检查另一个数据集并找到它出现在其中的次数。

第一个数据集 (df1) 如下所示:

我要与之匹配的另一个数据集(df2)看起来像

我想要的最终输出应该看起来像 word1 word2 total_occ air 10 1 airport 20 3 car 30 1

我可以通过在 R 中使用 apply 来做到这一点

但是由于我的数据集非常大,因此需要花费一些时间。

我发现“parallel”包的“mclapply”功能可用于在多核上运行此类东西,为此我尝试先运行 lapply。它给了我错误说

x[, "pattern"] 中的错误:维数不正确

请让我知道我应该进行哪些更改才能正确运行 lapply。

0 投票
1 回答
62 浏览

r - Does mclapply wait if there are dependents on output?

I have the following psuedocode situation:

results1 <- mclapply(stuff, myfunc1()) results2 <- mclapply(morestuff, myfunc2()) finalresults <- mclapply(results1, results2)

Is the package smart enough to wait until all the threads spawned by results1 and results2 are completed before trying to calculate finalResults? If not, is there a flag I can put in so that it doesn't move forward until results1 is fully complete? Etc?

0 投票
1 回答
178 浏览

r - 两个列表之间的模糊匹配——提高双循环效率

我正在寻找一些关于以下 MWE 目标的最佳返工实现的建议,该目标必须使用 agrep 有效地检查列表中的每个元素与另一个列表中的每个元素;这个例子是 2x2,但我的实际问题是 2,500x75,000——所以任何关于并行化的技巧也可能有用。

0 投票
1 回答
73 浏览

linux - mclapply 的不当用例?

我一直在安装 linux mint (debian) 的旧笔记本电脑上使用 rstudio 服务器。

我一直在 Windows 上运行,所以我从来没有利用parallelmulticore包,我的目标是学习rstudio server以及R linux多核处理如何加速我的进程。

我每天使用的 lapply 的一个主要用途如下所示:

中位时间为21.8 毫秒

或者:

中位时间是120.9毫秒。

为什么会有这么大的差异?

该机器是2核恐龙。是不是在使用 >= 4 核机器之前您看不到好处?我的用例(data.frame 的按列计算)是否不适合看到好处?

谢谢!

0 投票
1 回答
1464 浏览

r - 同时与 foreach 和 mclapply 并行

我正在实现一个最终将部署在集群上的并行处理系统,但我无法弄清楚各种并行处理方法如何交互。

我需要使用 for 循环来运行一大块代码,其中包含几个大型矩阵操作列表。为了加快速度,我想用 foreach() 并行化 for 循环,并用 mclapply 并行化列表操作。

示例伪代码:

这似乎有效。我的问题是:

1)这是一种合理的方法吗?他们似乎在我的小规模测试中一起工作,但感觉有点笨拙。

2)在任何给定时间它将使用多少个内核/处理器?当我将它升级到集群时,我需要了解我可以推送多少(foreach 只循环 7 次,但 mclapply 列表最多有 70 个左右的大矩阵)。它似乎创建了 6 个“核心”(大概 2 个用于 foreach,2 个用于每个 mclapply。

0 投票
0 回答
244 浏览

r - R 函数 mclapply 的性能开销

mclapply在相当大的数据集上使用 R 函数时,我遇到了性能开销。例如,让我们考虑以下玩具示例(它包括对子矩阵的元素进行并行求和):

在我的四核 Intel Xeon W3550 上,如果子矩阵是逐行的,并行方法显然效率不高(加速 x0.8!):

但如果子矩阵是 colwise 则效率更高(加速 x1.8,仍然不完美):

与此同时,我在 12 核 AMD Opteron 6174 上做了同样的实验,加速分别是 x1.8 和 x3.9(仍然是 mc.cores=4)!

由于这些影响取决于处理器架构,是否有任何缓存问题或内存复制问题可以解释这些糟糕的性能?有什么建议么?

0 投票
2 回答
1227 浏览

r - 在 foreach 循环中使用 mclapply 出现 R 错误

基于这里的这篇文章,我尝试编写一个脚本,在这里看到:

它最初工作,但现在抛出错误代码:

知道发生了什么吗?甚至可以将 mclapply 放在 foreach 循环中吗?

编辑:我还想说这是在单个 8 核机器上,而不是集群上。

0 投票
0 回答
393 浏览

r - R中的mclapply:找不到对象'X'

我正在尝试使用并行包中的 mclapply(在 Mac 上)并且遇到了问题。我将函数 edge.loop 定义为:

当我将此函数称为

它工作得很好,但如果我尝试

或者

我收到错误读数

知道发生了什么吗?提前致谢!

0 投票
2 回答
2701 浏览

r - R(windows)中大栅格的并行处理

我正在使用 doSNOW 包,更具体地说是使用 parLapply 函数对大型栅格数据集(操作系统:Windows x64)列表执行重新分类(以及随后的其他操作)。

代码看起来有点像这个简约的例子:

该代码实际上按预期工作。当我想继续处理结果时会出现问题。我收到此错误消息:

据我了解,由于栅格很大,它们被保存在磁盘上的临时文件中。而当我关闭雪团时,这些文件就无法再访问了。

所以我的问题是,集群关闭后如何访问数据?我可以继续使用这种方法吗?

谢谢!