“rhadoop”的相关标签问题_Stack Overflow中文网

0 投票

1 回答

967 浏览

java - java.lang.UnsupportedClassVersionError 不支持的major.minor 版本51.0 rhdfs

我知道这与编译和运行时 Java 版本之间的差异有关，但是我认为我已经正确设置了所有环境变量，所以我真的不知道这仍然会导致这个问题。

在 RStudio 中，我有

我还将 Hadoop 的 hadoop-env.sh 中的 $JAVA_HOME 设置为 1.7.0

如果有人能指出这里发生了什么，我将不胜感激。

2015-10-12T18:52:04.290

0 投票

1 回答

50 浏览

r - 在 RHadoop MAP 函数中没有得到正确的结果

以下是我的文本文件内容：

我想输出 id 和标签总数。期望的输出如下。

我在下面写了一段代码mapreduce。

我得到的结果如下。

虽然当我尝试以下map功能更改时，

我得到了所有 4 行。请解释为什么我在放strsplit.

r hadoop mapreduce rhadoop

2015-10-13T06:01:12.743

0 投票

1 回答

491 浏览

r - Hadoop集群上的R安装

我正在现有的 Hadoop 集群上设置 R。到目前为止，我已经在集群的一个节点（EDGE 节点）部分上安装了 R rpms 和相关的库包，它按预期工作。R rpm 是否安装在集群的所有服务器上，或者只是库目录（在我的情况下为/usr/lib64/R/library）在所有服务器之间同步？

r rhadoop

2015-10-20T01:13:50.580

0 投票

0 回答

519 浏览

r - 带有 RHadoop rmr2 的 R 外部库

我有这种情况：

Hadoop 客户端节点（安装了 R 和 rmr2）
Hadoop 集群（安装在所有节点中的 R 和 rmr2）
集群中没有用于安装外部库的管理员权限
这个问题类似于临时在 Hadoop 节点上安装 R 包以进行流式作业，但我无法添加评论，因为我是新来的。

我有一个脚本 test.R 用于测试 rmr2。在此脚本中，map 函数使用 R 库，该库仅安装在客户端节点中，而不安装在集群中。

显然，每个地图任务中的作业都会失败，因为它无法加载库。

我的问题是：

¿ 如何在不以管理员权限在所有节点中安装此库的情况下使用此库？
¿ 我如何附加、发送或共享它？我不想每次使用新的时都在每个节点中安装每个库。
可能吗？

我在 hadoop 中找不到任何类似于 --jars 的参数，或者在 python 中的 spark 中找不到类似于 --py-libs 参数的参数。

这是这个使用“tm”库（“stopword”函数）的愚蠢示例字数代码，它安装在客户端但不是在集群的所有节点中。

从客户端节点执行：

编辑：

将此问题与在 Hadoop 节点上临时安装 R 包以进行流式作业进行比较

1）这个问题和另一个问题意思一样，但是我觉得这个更完整，因为有一个具体的例子和场景。所以我认为这更清楚。

2）第一个答案是你的，piccolbo，但它是从 2012 年开始的，而我们是在 2015 年，所以我认为它已经过时了。其余的答案很有帮助，但根本没有。如果通过压缩的外部R库，则必须在每个节点上解压并将路径添加到R的libPaths中。对吗？但我不知道是否有一个参数。

3）我想知道这是否可能并且以一种简单的方式。

谢谢

r hadoop mapreduce hadoop-streaming rhadoop

2015-11-10T12:12:18.283

0 投票

1 回答

692 浏览

r - as(x, class(k)) 中的错误：没有将“NULL”强制为“data.frame”的方法或默认值

我目前面临下面提到的一个错误，该错误与 NULL 值被强制到数据框有关。数据集确实包含空值，但是我尝试了 is.na() 和 is.null() 函数来用其他东西替换空值。数据存储在 hdfs 上，并以 pig.hive 格式存储。我还附上了下面的代码。如果我从键中删除 v[,25]，则代码可以正常工作。

代码：

错误：

更新我已经添加了示例数据并编辑了上面的代码。希望这可以帮助！

样本数据：

r hadoop dataframe rhadoop

2015-12-09T20:12:45.667

0 投票

1 回答

93 浏览

hadoop - 在 Hadoop 集群上安装 RHadoop

我正在尝试在我的 Hadoop 集群上安装 RHadoop。在安装一些必需的软件包时，我遇到以下错误：

我还在集群上安装了 RHive。我能够通过 RHive 执行相对较小的查询，但较大的查询失败：

如果有人有任何想法，请帮我解决这个问题！提前非常感谢！

hadoop hive rhadoop

2015-12-14T14:42:12.967

0 投票

2 回答

1614 浏览

ubuntu - "fatal error: TProcessor.h: No such file or directory" when trying to install Rhbase package

everyone, I'm trying to install Rhbase package, but first I was missing thrift package, what I solved, but now it shows me another error. I added TProcessor.h into ../lib/cpp/src/thrift/processor/ but it didn't help and it shows me the same error:

I am using RStudio Thanks a lot

ubuntu hbase rstudio rhadoop

2016-01-27T11:22:24.750

0 投票

0 回答

84 浏览

r - 无法将 R rhdfs API 与运行在不同 IP 地址上的 Hadoop 集群连接

添加 Hadoop 主页

设置 HADOOP CMD 路径

Sys.setenv("HADOOP_CMD"="ssh://root@192.168.10.70/home/easy/hadoop/bin/hadoop")

加载库 rhdfs

初始化hdfs

r hadoop apache-spark rhadoop bigdata

2016-02-08T08:45:02.157

0 投票

2 回答

45 浏览

rhadoop - 在 r hadoop 中操作数据集列

我有一个数据集，它有一个日期（2015 年 1 月 10 日、2016 年 1 月 10 日、2017 年 1 月 10 日）。我想改变它的格式（2015、2016、2017）。我需要使用 Hadoop 来做到这一点。

rhadoop

2016-03-02T16:24:20.103

0 投票

0 回答

155 浏览

r - 将数据输入和输出 Rhipe [R + Hadoop]

我正在尝试 rhipe 和 RHadoop [rmr rhdfs rhbase etc.] 系列软件包。

现在在两个包 [rhipe 和 rmr] 中，我可以摄取/读取存储到 csv 或文本文件中的数据。它们都支持创建新的文件格式，但我发现 rmr 对它有更多的支持，或者至少有更多的资源可以开始。好吧，当一个人计划对存储在 HDFS 中的原始数据执行少量数据处理并最终希望以 Hadoop 的其他组件（如 Hive Impala 等）可识别的格式将其存储回 HDFS 时，此要求将很有用。这两个包都可以编写只能由包识别的原始格式。包 rmr 支持很少的其他格式。

有关 rmr 的参考，请查看：https ://github.com/RevolutionAnalytics/rmr2/blob/master/docs/getting-data-in-and-out.md

然而，对于成熟我没有得到任何这样的文件，我尝试了各种失败的方法。

rhwatch所以我的问题是，在读取存储在 HDFS 中并在 rhipe 中运行的文件后，我如何才能写回文本 [例如，其他可识别的格式也可以工作] ？

r hadoop hdfs export-to-csv rhadoop

2016-05-10T03:59:09.343

问题标签 [rhadoop]

Reference