0

我试图用 Rhadoop 计算一些东西(R 和 hadoop 之间的链接)。

当我使用 Hadoop-1.0.4 中的嵌入式示例对集群进行基准测试时,它看起来运行良好。(我的意思是所有从节点的核心都工作了,虽然 CPU 使用率在 50% 到 100% 之间波动)

但是,当我应用 Rhadoop 的示例时,情况并非如此。(每个从节点只有一个核心被激活。)

我必须在 Rhadoop 中设置任何配置吗?(就像我对 hadoop 的配置文件(例如 core-site.xml)所做的那样)

谢谢

4

1 回答 1

0

您可能正在谈论 rmr2,它是 RHadoop 的一部分。rmr2 对此没有特定的配置。help(rmr.options)将显示所有配置选项。map 任务和 map slot 的数量决定了 map 阶段的并行度。听起来你有足够的插槽。所以地图任务的数量可能不足。它可能取决于输入的大小和其他属性。您可以将附加参数传递给 mapreducebackend.parameters = list(hadoop = list(D = 'mapred.map.tasks'))但 hadoop 不会逐字遵守此设置,只是将其作为提示。这backend.parameters参数已被弃用,但当它被删除时,将为这个特定目标提供一些替代机制。如果问题在 reduce 阶段,key 集合的基数也很重要(它设置了并行度的上限)。我同意保罗的观点,如果你提供了一个可重复的例子,我的答案将包含更少的猜测。RHadoop 有一个专门的论坛,开发人员和用户都在此活跃https://groups.google.com/forum/?fromgroups=#!forum/rhadoop

于 2013-03-11T16:07:32.500 回答