问题标签 [rhadoop]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - 运行简单 rhadoop 作业的问题 - 管道损坏错误
我有一个安装了 rmr2 和 rhdfs 软件包的 hadoop 集群设置。我已经能够通过 CLI 和 rscripts 运行一些示例 MR 作业。例如,这有效:
最终输出:
我现在正试图继续编写我自己的 MR 工作的下一步。我有一个包含一些击球统计数据的文件(`/user/michael/batsmall.csv'):
(batsmall.csv 是一个大得多的文件的摘录,但实际上我只是想证明我可以从 hdfs 读取和分析文件)
这是我的脚本:
每次都会失败,并且查看 hadoop 日志似乎是一个 Broken Pipe 错误。我无法弄清楚是什么原因造成的。随着其他工作的开展,我认为这是我的脚本的问题,而不是我的配置问题,但我无法弄清楚。诚然,我是 R 新手,对 hadoop 来说相对较新。
这是作业输出:
以及来自工作跟踪器的示例异常:
r - 在 32 位 Ubuntu 上安装 RHadoop
目标:在单个系统上安装RHadoop(不是 VM 版本)
系统规格: 32 位处理器、2GB RAM、Windows 7 和 Ubuntu 12.10
说明:我正在尝试使用RHadoop
库与 R 一起运行 Hadoop。由于我的系统 RAM 较少,所以如果我尝试运行Cloudera VM
,它会变得非常慢。我已经浏览了一些在线教程,例如 1.安装 RHadoop
2. Amazon EC2 上的 RHadoop
但它们都没有完整的步骤。我能够在 Ubuntu 中安装 R v2.15.2 和 Rstudio。我还为 RHadoop 克隆了 github 存储库。
谁能推荐一些在32 位系统上安装 RHadoop 的好教程
r - 使用 Rhadoop 进行多核计算
我试图用 Rhadoop 计算一些东西(R 和 hadoop 之间的链接)。
当我使用 Hadoop-1.0.4 中的嵌入式示例对集群进行基准测试时,它看起来运行良好。(我的意思是所有从节点的核心都工作了,虽然 CPU 使用率在 50% 到 100% 之间波动)
但是,当我应用 Rhadoop 的示例时,情况并非如此。(每个从节点只有一个核心被激活。)
我必须在 Rhadoop 中设置任何配置吗?(就像我对 hadoop 的配置文件(例如 core-site.xml)所做的那样)
谢谢
hadoop - 通过R将本地文件夹复制到hdfs
我正在尝试将文件夹从本地文件系统导出到 hdfs 。我正在通过 R 运行代码。我怎么能做到呢?
希望提出建议
r - 如何在 Ubuntu Natty 11.04 机器上安装 RHadoop?
我需要在我的 ubuntu natty 11.04 机器上安装 RHadoop。我尝试执行这些命令“apt-get install r-base”,但我得到了未满足的依赖项
请帮助我完成安装步骤。您的任何帮助将不胜感激!!!
hadoop - 在 Windows 7 和 hortonworks 沙箱上安装/配置 RevolutionAnalytics/RHadoop
我已经为 Hadoop 安装了 VMware Player 和 Hortonworks Sandbox。现在我需要帮助来配置/运行 RHadoop。我需要使用 R 和 Hadoop。请帮助。在此先感谢。
hadoop - RHive 不适用于 CDH4
有没有人试图让 RHive 与 cdh4 一起工作?它与cdh4兼容吗?
我试过在他们的谷歌群组上问这个问题,但还没有答案!我已经在 cdh4 上安装了 R、RHadoop 和所有相关软件包,但我被困在 RHive。
对所有环境变量使用 cdh4,rhive.connect() 给我以下错误 -
有什么想法/建议吗?
谢谢, 瓦巴夫
r - 哪个更适合在 Hadoop 集群、Apache Mahout 或将 R 与 Hadoop 结合使用(通过 hadoop 流/RHIPE/RHadoop 等)上运行建议?
我是大数据的新手,正在寻找一个好的平台来执行推荐、聚类和分类。我知道 Mahout 有很多算法可以做到这一点。R 本身作为一个非常好的分析工具也有助于实现这一目标。由于我正在研究大数据,如果我决定走这条路,我将使用 R+hadoop(通过流/RHIPE/RHadoop 等)。考虑到所用语言(mahout 和 R 中的 Java)的复杂性差异对我来说不是一个因素,我正在寻求在性能、可扩展性、易用性、成熟度等方面的比较。
r - 具有多个组件的 RHadoop 密钥
当密钥具有多个组件时,我在尝试获取 keyval 对时被卡住了。
假设所有键都包含 3 个字符串组件,例如:{"I" "like" "Lucy"} 或 {"You" "hate" "Jimmy"}。
这 3 个字符串的组合将是唯一键。而我想要的 mapreduce 结果是 {"I" "like" "Lucy"} 或 {"You" "hate" "Jimmy"} 的记录数。
问题是我应该为 3 个字符串键使用什么样的结构?
如果我使用列表作为键:
LST1 和 LST2 应该具有相同的键值,但问题是它们是不同的对象,因此列表结构不能用作键。
如果我使用向量作为键:
R 将尝试比较同一位置的每个条目,并返回一个布尔值向量,在本例中为 {TRUE, TRUE, FALSE}。
有什么建议吗?我可以使用什么样的结构?或者有什么棘手的方法来处理这个问题?
我知道我可以用 Java 处理这个问题,但我需要 R 中的解决方案。3 个字符串的情况只是一个例子,组件可以是数字、字符串、字符等所有内容。
r - 无法远程执行加载库“rhdfs”的 R 脚本
我正在使用 R-Hadoop 开发一个项目,并遇到了这个问题。
我在 JAVA 中使用 JSch 来 ssh 到远程 hadoop 伪集群,这里是创建连接的部分 Java 代码。
我尝试了几个简单的 R 脚本,我的代码运行良好。但是当涉及到 R-Hadoop 时,R 脚本将停止运行。但如果我Rscript -e 'args1 <- "Dell"; args2 <- 1; source("/usr/local/R/mytest.R")'
直接在远程服务器上运行,一切正常。
这是我在接受 Hong Ooi 的建议后得到的:我没有 使用 Rscript,而是使用了以下命令:
在 whathappened.txt 中,我收到以下错误:
好吧,现在问题更清楚了。不幸的是,我对 linux 很陌生,不知道如何解决这个问题。