问题标签 [rhadoop]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
967 浏览

java - java.lang.UnsupportedClassVersionError 不支持的major.minor 版本51.0 rhdfs

我知道这与编译和运行时 Java 版本之间的差异有关,但是我认为我已经正确设置了所有环境变量,所以我真的不知道这仍然会导致这个问题。

在 RStudio 中,我有

我还将 Hadoop 的 hadoop-env.sh 中的 $JAVA_HOME 设置为 1.7.0

如果有人能指出这里发生了什么,我将不胜感激。

0 投票
1 回答
50 浏览

r - 在 RHadoop MAP 函数中没有得到正确的结果

以下是我的文本文件内容:

我想输出 id 和标签总数。期望的输出如下。

我在下面写了一段代码mapreduce

我得到的结果如下。

虽然当我尝试以下map功能更改时,

我得到了所有 4 行。请解释为什么我在放strsplit.

0 投票
1 回答
491 浏览

r - Hadoop集群上的R安装

我正在现有的 Hadoop 集群上设置 R。到目前为止,我已经在集群的一个节点(EDGE 节点)部分上安装了 R rpms 和相关的库包,它按预期工作。R rpm 是否安装在集群的所有服务器上,或者只是库目录(在我的情况下为/usr/lib64/R/library)在所有服务器之间同步?

0 投票
0 回答
519 浏览

r - 带有 RHadoop rmr2 的 R 外部库

我有这种情况:

  • Hadoop 客户端节点(安装了 R 和 rmr2)
  • Hadoop 集群(安装在所有节点中的 R 和 rmr2)
  • 集群中没有用于安装外部库的管理员权限
  • 这个问题类似于临时在 Hadoop 节点上安装 R 包以进行流式作业,但我无法添加评论,因为我是新来的。

我有一个脚本 test.R 用于测试 rmr2。在此脚本中,map 函数使用 R 库,该库仅安装在客户端节点中,而不安装在集群中。

显然,每个地图任务中的作业都会失败,因为它无法加载库。

我的问题是:

  • ¿ 如何在不以管理员权限在所有节点中安装此库的情况下使用此库?

  • ¿ 我如何附加、发送或共享它?我不想每次使用新的时都在每个节点中安装每个库。

  • 可能吗?

我在 hadoop 中找不到任何类似于 --jars 的参数,或者在 python 中的 spark 中找不到类似于 --py-libs 参数的参数。

这是这个使用“tm”库(“stopword”函数)的愚蠢示例字数代码,它安装在客户端但不是在集群的所有节点中。

从客户端节点执行:

编辑:

将此问题与在 Hadoop 节点上临时安装 R 包以进行流式作业进行比较

1)这个问题和另一个问题意思一样,但是我觉得这个更完整,因为有一个具体的例子和场景。所以我认为这更清楚。

2)第一个答案是你的,piccolbo,但它是从 2012 年开始的,而我们是在 2015 年,所以我认为它已经过时了。其余的答案很有帮助,但根本没有。如果通过压缩的外部R库,则必须在每个节点上解压并将路径添加到R的libPaths中。对吗?但我不知道是否有一个参数。

3)我想知道这是否可能并且以一种简单的方式。

谢谢

0 投票
1 回答
692 浏览

r - as(x, class(k)) 中的错误:没有将“NULL”强制为“data.frame”的方法或默认值

我目前面临下面提到的一个错误,该错误与 NULL 值被强制到数据框有关。数据集确实包含空值,但是我尝试了 is.na() 和 is.null() 函数来用其他东西替换空值。数据存储在 hdfs 上,并以 pig.hive 格式存储。我还附上了下面的代码。如果我从键中删除 v[,25],则代码可以正常工作。

代码:

错误:

更新 我已经添加了示例数据并编辑了上面的代码。希望这可以帮助!

样本数据:

0 投票
1 回答
93 浏览

hadoop - 在 Hadoop 集群上安装 RHadoop

我正在尝试在我的 Hadoop 集群上安装 RHadoop。在安装一些必需的软件包时,我遇到以下错误:

我还在集群上安装了 RHive。我能够通过 RHive 执行相对较小的查询,但较大的查询失败:

如果有人有任何想法,请帮我解决这个问题!提前非常感谢!

0 投票
2 回答
1614 浏览

ubuntu - "fatal error: TProcessor.h: No such file or directory" when trying to install Rhbase package

everyone, I'm trying to install Rhbase package, but first I was missing thrift package, what I solved, but now it shows me another error. I added TProcessor.h into ../lib/cpp/src/thrift/processor/ but it didn't help and it shows me the same error:

I am using RStudio Thanks a lot

0 投票
0 回答
84 浏览

r - 无法将 R rhdfs API 与运行在不同 IP 地址上的 Hadoop 集群连接

添加 Hadoop 主页

设置 HADOOP CMD 路径

Sys.setenv("HADOOP_CMD"="ssh://root@192.168.10.70/home/easy/hadoop/bin/hadoop")

加载库 rhdfs

初始化hdfs

0 投票
2 回答
45 浏览

rhadoop - 在 r hadoop 中操作数据集列

我有一个数据集,它有一个日期(2015 年 1 月 10 日、2016 年 1 月 10 日、2017 年 1 月 10 日)。我想改变它的格式(2015、2016、2017)。我需要使用 Hadoop 来做到这一点。

0 投票
0 回答
155 浏览

r - 将数据输入和输出 Rhipe [R + Hadoop]

我正在尝试 rhipe 和 RHadoop [rmr rhdfs rhbase etc.] 系列软件包。

现在在两个包 [rhipe 和 rmr] 中,我可以摄取/读取存储到 csv 或文本文件中的数据。它们都支持创建新的文件格式,但我发现 rmr 对它有更多的支持,或者至少有更多的资源可以开始。好吧,当一个人计划对存储在 HDFS 中的原始数据执行少量数据处理并最终希望以 Hadoop 的其他组件(如 Hive Impala 等)可识别的格式将其存储回 HDFS 时,此要求将很有用。这两个包都可以编写只能由包识别的原始格式。包 rmr 支持很少的其他格式。

有关 rmr 的参考,请查看:https ://github.com/RevolutionAnalytics/rmr2/blob/master/docs/getting-data-in-and-out.md

然而,对于成熟我没有得到任何这样的文件,我尝试了各种失败的方法。

rhwatch所以我的问题是,在读取存储在 HDFS 中并在 rhipe 中运行的文件后,我如何才能写回文本 [例如,其他可识别的格式也可以工作] ?