问题标签 [rhadoop]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - R+Hadoop:如何从 HDFS 读取 CSV 文件并执行 mapreduce?
在以下示例中:
mapreduce 函数的数据输入是一个名为 small.ints 的对象,它引用 HDFS 中的块。
现在我有一个 CSV 文件已经存储在 HDFS 中
如何为它获取对象?
据我所知(这可能是错误的),如果我想要 CSV 文件中的数据作为 mapreduce 的输入,我必须首先在 R 中生成一个表,其中包含 CSV 文件中的所有值。我确实有这样的方法:
使用这种方法获取mydata,然后执行object=to.dfs(mydata)似乎可以,但问题是test_short.csv文件很大,大约TB大小,内存无法容纳from的输出.dfs!!
实际上,我想知道我是否直接使用“hdfs://172.16.1.58:8020/tmp/test_short.csv”作为 mapreduce 输入,并且在 map 函数内部执行 from.dfs() 的事情,我是否能够获取数据块?
请给我一些建议,无论如何!
r - 从 R 向 HBase 插入数据时出错
我有一个示例代码,它使用 RHBase(RHadoop 套件)从 R 连接到 HBase。它在一种环境中有效,在另一种环境中无效。
代码:
这是相当简单的代码,我写这个是为了复制这个错误。
环境1:
Ubuntu 12.04 LTS R:3.0 Thrift 0.9.0 Java(如果需要):OpenJDK 1.6
==> 此代码在此环境下运行良好。这是我的本地机器。
环境 2 Ubuntu 12.04 LTS R:2.15.2 Thrift 0.9.0 Java(如果需要):Oracle Java 1.7
==> 这是一台远程机器。它抛出以下错误:
在这两种情况下,我都在远程位置连接到 HBase (0.94.7)。
关于是什么导致这个问题的任何想法?我对 Hbase 和 RHadoop 套件还很陌生,请原谅任何幼稚的问题!另外,请告诉我是否需要任何其他信息。
编辑:我有一个独立的 HBase 实例——不是 cloudera 发行版。我按照 RHbase 的要求从源头构建了 Thrift
r - Hadoop 流在 R 中失败
我正在运行 RHadoop 的示例脚本来测试系统并使用以下命令。
但它给了我一个像下面这样的错误。
关于这里可能有什么问题的任何线索
r - 在 R 中调试 mapreduce() 函数
今天我开始研究 rhdfs 和 rmr2 包。
一维向量上的 mapreduce() 函数按预期运行良好。 一维向量上的一段代码
它返回以下数据框
到现在为止,一切都很好。
但是,在 mtcars 数据集上处理 mapreduce 函数时,我收到了以下错误消息。无法进一步调试它。请提供一些线索以继续前进。
我的一段代码:
带有上述代码的错误消息。
非常感谢快速而详细的回复...
windows - rhdfs 未连接
我已经设置了HADOOP_CMD(hadoop 路径)变量,但它没有走路径,说没有找到
我已经在系统环境变量以及 cygwin 中定义了 HADOOP_CMD
我在哪里错了,在这个方向上的任何帮助,谢谢。
r - R 3.0.1 的 install.packages("methods") 失败
我尝试在 R 3.0.1 上安装 R 包“方法”:
有什么方法可以在 R 3.0.1 上安装“方法”,还是应该切换到 R 3.0.0?
谢谢
r - 如何在普通 R 命令中访问 HDFS 文件路径(安装包:rmr2,rhdfs)?
我在 HDFS 中有 zip 文件。我将在 R 中编写一个 mapreduce 程序。现在 R 具有解压缩 zip 文件的命令。
但这里它不接受我的 HDFS 文件路径?我试过了
它正在抛出错误..
有没有办法为我的 R 命令提供 HDFS 文件路径?
mapreduce - “使用 NULL 键将 to.dfs 参数转换为 keyval”对于使用 RHadoop 失败的映射任务通常是一个致命警告吗?
我编写了几个 RHadoop 程序,即使它们返回警告,它们也能正常工作,例如:
使用 to.dfs 输入数据时。
但是,有些程序会在没有警告的情况下致命地失败,除了
其次是
NULL 键警告通常与失败的 Map 任务相关联吗?
我知道标准的建议是查看标准错误,但失败作业的标准错误是空的!零行,零个字符。
rhadoop - 在 RHadoop 中安装 rmr2
您能帮我解决安装 rmr2 的问题吗?我是 RHadoop 的新手。R 版本 3.0.2 在 root 上下载了 rmr2_2.3.0.tar.gz
请检查 :
install.packages("rmr2_2.3.0.tar.gz") 将软件包安装到 '/usr/lib64/R/library' 中(因为未指定 'lib')从文件名中推断 'repos = NULL' 错误:依赖项 'bitops ' 不适用于包 'rmr2' * 删除 '/usr/lib64/R/library/rmr2' 警告消息:在 install.packages("rmr2_2.3.0.tar.gz") 中:安装包 'rmr2_2.3.0。 tar.gz' 具有非零退出状态
请回复