“rhadoop”的相关标签问题_Stack Overflow中文网

0 投票

1 回答

2344 浏览

r - 运行简单 rhadoop 作业的问题 - 管道损坏错误

我有一个安装了 rmr2 和 rhdfs 软件包的 hadoop 集群设置。我已经能够通过 CLI 和 rscripts 运行一些示例 MR 作业。例如，这有效：

最终输出：

我现在正试图继续编写我自己的 MR 工作的下一步。我有一个包含一些击球统计数据的文件（`/user/michael/batsmall.csv'）：

（batsmall.csv 是一个大得多的文件的摘录，但实际上我只是想证明我可以从 hdfs 读取和分析文件）

这是我的脚本：

每次都会失败，并且查看 hadoop 日志似乎是一个 Broken Pipe 错误。我无法弄清楚是什么原因造成的。随着其他工作的开展，我认为这是我的脚本的问题，而不是我的配置问题，但我无法弄清楚。诚然，我是 R 新手，对 hadoop 来说相对较新。

这是作业输出：

以及来自工作跟踪器的示例异常：

r hadoop rhadoop

2012-12-19T19:14:49.213

0 投票

1 回答

667 浏览

r - 在 32 位 Ubuntu 上安装 RHadoop

目标：在单个系统上安装RHadoop（不是 VM 版本）

系统规格： 32 位处理器、2GB RAM、Windows 7 和 Ubuntu 12.10

说明：我正在尝试使用RHadoop库与 R 一起运行 Hadoop。由于我的系统 RAM 较少，所以如果我尝试运行Cloudera VM，它会变得非常慢。我已经浏览了一些在线教程，例如 1.安装 RHadoop
2. Amazon EC2 上的 RHadoop

但它们都没有完整的步骤。我能够在 Ubuntu 中安装 R v2.15.2 和 Rstudio。我还为 RHadoop 克隆了 github 存储库。

谁能推荐一些在32 位系统上安装 RHadoop 的好教程

r hadoop rhadoop

2013-01-11T07:09:11.753

0 投票

1 回答

224 浏览

r - 使用 Rhadoop 进行多核计算

我试图用 Rhadoop 计算一些东西（R 和 hadoop 之间的链接）。

当我使用 Hadoop-1.0.4 中的嵌入式示例对集群进行基准测试时，它看起来运行良好。（我的意思是所有从节点的核心都工作了，虽然 CPU 使用率在 50% 到 100% 之间波动）

但是，当我应用 Rhadoop 的示例时，情况并非如此。（每个从节点只有一个核心被激活。）

我必须在 Rhadoop 中设置任何配置吗？（就像我对 hadoop 的配置文件（例如 core-site.xml）所做的那样）

谢谢

r hadoop multicore rhadoop

2013-03-11T08:49:28.990

0 投票

1 回答

1449 浏览

hadoop - 通过R将本地文件夹复制到hdfs

我正在尝试将文件夹从本地文件系统导出到 hdfs 。我正在通过 R 运行代码。我怎么能做到呢？

希望提出建议

hadoop hdfs rhadoop

2013-03-15T10:31:20.213

0 投票

2 回答

611 浏览

r - 如何在 Ubuntu Natty 11.04 机器上安装 RHadoop？

我需要在我的 ubuntu natty 11.04 机器上安装 RHadoop。我尝试执行这些命令“apt-get install r-base”，但我得到了未满足的依赖项

请帮助我完成安装步骤。您的任何帮助将不胜感激！！！

r rhadoop

2013-04-02T03:45:24.463

0 投票

1 回答

1945 浏览

hadoop - 在 Windows 7 和 hortonworks 沙箱上安装/配置 RevolutionAnalytics/RHadoop

我已经为 Hadoop 安装了 VMware Player 和 Hortonworks Sandbox。现在我需要帮助来配置/运行 RHadoop。我需要使用 R 和 Hadoop。请帮助。在此先感谢。

hadoop rhadoop

2013-04-19T21:09:49.563

0 投票

2 回答

514 浏览

hadoop - RHive 不适用于 CDH4

有没有人试图让 RHive 与 cdh4 一起工作？它与cdh4兼容吗？

我试过在他们的谷歌群组上问这个问题，但还没有答案！我已经在 cdh4 上安装了 R、RHadoop 和所有相关软件包，但我被困在 RHive。

对所有环境变量使用 cdh4，rhive.connect() 给我以下错误 -

有什么想法/建议吗？

谢谢，瓦巴夫

hadoop rhadoop

2013-05-28T03:45:53.877

0 投票

1 回答

1187 浏览

r - 哪个更适合在 Hadoop 集群、Apache Mahout 或将 R 与 Hadoop 结合使用（通过 hadoop 流/RHIPE/RHadoop 等）上运行建议？

我是大数据的新手，正在寻找一个好的平台来执行推荐、聚类和分类。我知道 Mahout 有很多算法可以做到这一点。R 本身作为一个非常好的分析工具也有助于实现这一目标。由于我正在研究大数据，如果我决定走这条路，我将使用 R+hadoop（通过流/RHIPE/RHadoop 等）。考虑到所用语言（mahout 和 R 中的 Java）的复杂性差异对我来说不是一个因素，我正在寻求在性能、可扩展性、易用性、成熟度等方面的比较。

r hadoop mahout hadoop-streaming rhadoop

2013-06-18T07:21:26.677

0 投票

1 回答

104 浏览

r - 具有多个组件的 RHadoop 密钥

当密钥具有多个组件时，我在尝试获取 keyval 对时被卡住了。

假设所有键都包含 3 个字符串组件，例如：{"I" "like" "Lucy"} 或 {"You" "hate" "Jimmy"}。

这 3 个字符串的组合将是唯一键。而我想要的 mapreduce 结果是 {"I" "like" "Lucy"} 或 {"You" "hate" "Jimmy"} 的记录数。

问题是我应该为 3 个字符串键使用什么样的结构？

如果我使用列表作为键：

LST1 和 LST2 应该具有相同的键值，但问题是它们是不同的对象，因此列表结构不能用作键。

如果我使用向量作为键：

R 将尝试比较同一位置的每个条目，并返回一个布尔值向量，在本例中为 {TRUE, TRUE, FALSE}。

有什么建议吗？我可以使用什么样的结构？或者有什么棘手的方法来处理这个问题？

我知道我可以用 Java 处理这个问题，但我需要 R 中的解决方案。3 个字符串的情况只是一个例子，组件可以是数字、字符串、字符等所有内容。

r data-structures hadoop rhadoop

2013-07-03T20:35:06.620

0 投票

2 回答

1276 浏览

r - 无法远程执行加载库“rhdfs”的 R 脚本

我正在使用 R-Hadoop 开发一个项目，并遇到了这个问题。

我在 JAVA 中使用 JSch 来 ssh 到远程 hadoop 伪集群，这里是创建连接的部分 Java 代码。

我尝试了几个简单的 R 脚本，我的代码运行良好。但是当涉及到 R-Hadoop 时，R 脚本将停止运行。但如果我Rscript -e 'args1 <- "Dell"; args2 <- 1; source("/usr/local/R/mytest.R")'直接在远程服务器上运行，一切正常。

这是我在接受 Hong Ooi 的建议后得到的：我没有 使用 Rscript，而是使用了以下命令：

在 whathappened.txt 中，我收到以下错误：

好吧，现在问题更清楚了。不幸的是，我对 linux 很陌生，不知道如何解决这个问题。

r remote-access remote-server jsch rhadoop

2013-07-11T01:57:40.577

问题标签 [rhadoop]

Reference