6

我正在寻找在我的大学计算机网格上为多台计算机发送作品的方法。

目前它正在运行 Condor,并且还提供 Hadoop。

因此,我的问题是,我应该尝试将 R 连接到 Hadoop 还是连接到 Conder 以用于我的项目?

对于讨论,假设我们正在讨论令人尴尬的并行任务。

ps:我看过CRAN 任务视图中描述的资源。

4

1 回答 1

6

你可以两者都做。

您可以将 HDFS 用于数据集,并使用 Condor 进行作业调度。使用 Condor 将执行程序放置在机器上,并使用 HDFS + Hadoops Map-Reduce 功能来处理您的数据(假设您的问题是 map-reduce 可映射的)。然后,您将使用最合适的工具来完成这项工作:Condor 是一个作业调度程序,因此它比 Hadoop 工作得更好。而 Hadoop 的 HDFS 和 MR 框架是 Condor 所没有的(但对于在 Condor 上运行的作业使用非常有帮助)。

我个人认为 HDFS 可以在作为 Condor 作业离散运行的作业之间共享数据。尤其是在大学环境中,共享计算资源不是 100% 可靠并且可以随意进出,Condor 在这种设置中的弹性将使完成工作变得更加容易。

于 2010-12-03T17:07:06.373 回答