“snowfall”的相关标签问题_Stack Overflow中文网

0 投票

1 回答

3280 浏览

r - R 连接到 EC2 实例以进行并行处理

我在初始化从 R 到 AWS EC2 实例的连接时遇到问题，因为我似乎不断收到错误消息：Permission denied (publickey)我目前正在使用 Mac OS X 10.6.8 作为我的操作系统

我尝试在终端 ($) 然后 R (>) 中运行的代码如下：

但奇怪的是，当我尝试 ssh 进入实例时，我不需要密码，因为我已经在初始化时将公钥导入到实例中，（我认为）

所以从我的普通终端......运行时

它会自动连接...（所以我不能 100% 确定它是否是无密码问题，例如Using snow (and snowfall) with AWS for parallel processing in R）

我已经尝试过查看大量关于钥匙等的材料，但似乎没有一个有太大的不同。由于某种原因，我~/.ssh/authorized_keys的也是一个文件夹而不是文件，即使在尝试时我也无法访问它sudo cd .ssh/authorized_keys......就它拥有的权限而言drw-------

最终目标是连接到许多 ec2 实例并用于foreach执行一些并行处理......但现在连接到一个会很好......我也想使用我自己的 ami 所以星团不是真的是我在寻找的东西......（除非我能够使用私人 amis 并私下运行所有命令......）

另外，如果 doRedis 比有人可以向我展示如何从本地机器连接到 ec2 实例更好，那也很好......

编辑

我已经设法使用R 和 makePSOCKcluter EC2 socketConnection中所示的parallel包处理 ssh 无密码登录...但现在遇到问题，如链接中的问题所示...makePSOCKclustersocketConnection

任何想法如何连接到它？

还证明一切正常，我想这意味着以下命令/函数可以获取所有不同的 IP 地址

函数cl1的输出在哪里make*cluster

注意，因为赏金实际上是针对链接中的问题....我不介意您发布答案的问题...但是只要在这个问题上写了一些将其链接到正确答案的内容在链接的问题上，然后我将相应地奖励积分...

2012-11-22T22:42:05.197

0 投票

1 回答

137 浏览

r - 如何直接将进程从本地 R 传递到 Amazon EC-2 实例？

我一直在研究在 EC2 上运行 R，但我想知道这个设置与并行/集群计算有什么关系。我环顾四周，但找不到有关此的教程。

基本上我想做的是让 R (Rstudio) 在我的笔记本电脑上运行，并完成大部分工作，但是当我有一个大的操作要运行时，明确地将它传递给一个 AWS 从属实例来完成所有工作繁重的工作。

据我所知，降雪/降雪套餐似乎是答案......但我不太确定如何。

我正在使用http://bioconductor.org/help/bioconductor-cloud-ami/（ssh之一）上的教程来运行 R。本教程确实提到了并行/集群，但它似乎是在不同的 AWS 实例之间。

任何帮助都会很棒。干杯。

r parallel-processing amazon-ec2 snowfall

2012-11-25T10:47:04.260

0 投票

1 回答

1654 浏览

r - 在 R 中运行 sfLapply 时出错

我的一段代码如下所示：

当我运行最后四行时，它给出了一个错误：

当我使用 lapply 切换到顺序处理时，它运行良好。

为什么 sfLapply 会抛出错误？

r snowfall

2012-12-14T09:49:21.693

0 投票

2 回答

889 浏览

r - 使用 -snowfall- （或其他包）并行重复用户定义的函数

这个问题与这个问题有关，我在其中询问如何复制用户定义的函数。现在我想并行化操作以节省时间。我初步做的是：

我定义了一个自定义函数my.fun()，它返回一个包含行和列output的矩阵。100020
我复制 say 5times output，并将结果存储在一个名为finalthrough:的矩阵中final <- do.call(rbind, replicate(5, my.fun(), simplify=FALSE))。因此，在这个例子final中是一个5000-rows 矩阵。

我现在想做的是output在将结果绑定到final矩阵中之前并行化 5 个（甚至更多..）复制。

你会怎么做？到目前为止，我（错误地）所做的是：

但它返回：

任何帮助将不胜感激！请考虑一下我不需要使用-snowfall-：最终目标是以有效的方式并行化计算final（实际上我必须进行大量复制..）。

r parallel-processing snowfall

2013-01-28T18:04:35.130

0 投票

3 回答

1441 浏览

r - 如何计算大型数据集每分钟出现的次数

我有一个数据集，其中有 50 万个约会，持续时间在 5 到 60 分钟之间。

我想计算每个位置和每个房间的并发约会总数（以及原始数据集中的其他几个因素）。

我尝试使用mysql包来执行左连接，它适用于一个小数据集，但对于整个数据集来说需要永远：

它创建一个数据框，其中每分钟列出所有“活动”约会。大型数据集涵盖一整年（约 525600 分钟）。平均预约持续时间为 18 分钟，我希望 sql 连接创建一个包含约 500 万行的数据集，我可以用它来为不同的因素（位置/房间等）创建占用图。

基于如何计算我尝试使用的并发用户数中data.table建议的 sapply 解决方案，snowfall如下所示：

这个解决方案很快，大约需要 18 秒来计算 1 天（全年大约需要 2 小时）。缺点是我无法为某些因素（位置、房间等）创建并发约会数量的子集。我觉得必须有更好的方法来做到这一点..有什么建议吗？

更新：根据 Geoffrey 的回答，最终解决方案看起来像这样。该示例显示了如何确定每个位置的占用率。

r time data.table sqldf snowfall

2013-06-18T12:15:54.227

0 投票

1 回答

3324 浏览

r - 用降雪 R 初始化 MPI 集群

我一直在尝试在我大学的集群上运行Rmpi，snowfall但由于某种原因，无论我分配了多少计算节点，我的snowfall初始化都只在一个节点上运行。

这是我初始化它的方式：

有任何想法吗？我会根据需要提供说明。

r parallel-processing cluster-computing openmpi snowfall

2013-07-27T16:02:36.933

0 投票

1 回答

3936 浏览

r - R：在doParallel /降雪中制作集群挂起

我在 LAN 上有两台服务器，全新安装了 Centos 6.4 minimum 和 R 3.0.1。两台计算机都安装了 doParallel、snow 和 snowfall 软件包。

服务器可以很好地相互连接。

当我尝试在任一方向创建集群时，我会提示输入密码，但在输入密码后，它只是不确定地挂在那里。

我该如何解决这个问题？

编辑：

我还尝试在上述计算机上调用 makePSOCKcluster ，该计算机的主机能够用作从机（来自其他计算机），但它仍然挂起。那么，是否可能存在防火墙问题？我还尝试将 makePSOCKcluster 与端口 22 一起使用：

这是我的 iptables

r parallel-processing cluster-computing snow snowfall

2013-07-29T11:50:16.613

0 投票

1 回答

828 浏览

r - Snowfall 的 sfApply 和 sfClusterApplyLB 比正常循环或 sapply 慢

当我在 R 中应用此代码时，循环和sapply比降雪的函数更快。我究竟做错了什么？（使用 Windows 8）

100 次复制后经过的时间：

r snowfall

2013-07-29T15:00:23.523

0 投票

2 回答

1984 浏览

r - R Snowfall - 难以实现调用其他函数的函数

我正在尝试自学如何使用 Snowfall 包，当我尝试调用第二个函数的函数时遇到了以下问题（这是我最终想要实现的简化用例）。

我目前有：

但我收到错误消息：

但是，如果我然后运行 lapply(1:10, f2) 我会收到以下输出：

我最终想用降雪来实现一个多维最小化问题的并行搜索程序，所以肯定需要能够从主并行函数调用函数。

有人能帮忙吗？

r parallel-processing snowfall

2013-09-09T18:36:24.673

0 投票

1 回答

264 浏览

r - R Snowfall - 在并行函数中调用并行函数？

我最近开始在 R 中使用 Snowfall 包。我让它在相当复杂的实现中成功运行，如下所示（并行处理 y 循环）：

我在 2 或 4 处理器计算机上运行它。理论上，我想我可以并行运行 x、y、z 和 q 循环。所以并行运行 x 计数器，然后对于每个并行 x 进程，并行运行 y 等。

我的问题是使用这么少的处理器时这是否有意义？例如，对于四个处理器，我想象的 y 循环计算将保持进程以最大输出运行（每个处理器在任何时候平均 25 个），因此拆分进程的其他部分不会节省时间。

r parallel-processing snowfall

2013-09-12T18:48:28.713

问题标签 [snowfall]

Reference