问题标签 [rhadoop]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
java - java.lang.UnsupportedClassVersionError 不支持的major.minor 版本51.0 rhdfs
我知道这与编译和运行时 Java 版本之间的差异有关,但是我认为我已经正确设置了所有环境变量,所以我真的不知道这仍然会导致这个问题。
在 RStudio 中,我有
我还将 Hadoop 的 hadoop-env.sh 中的 $JAVA_HOME 设置为 1.7.0
如果有人能指出这里发生了什么,我将不胜感激。
r - 在 RHadoop MAP 函数中没有得到正确的结果
以下是我的文本文件内容:
我想输出 id 和标签总数。期望的输出如下。
我在下面写了一段代码mapreduce
。
我得到的结果如下。
虽然当我尝试以下map
功能更改时,
我得到了所有 4 行。请解释为什么我在放strsplit
.
r - Hadoop集群上的R安装
我正在现有的 Hadoop 集群上设置 R。到目前为止,我已经在集群的一个节点(EDGE 节点)部分上安装了 R rpms 和相关的库包,它按预期工作。R rpm 是否安装在集群的所有服务器上,或者只是库目录(在我的情况下为/usr/lib64/R/library)在所有服务器之间同步?
r - 带有 RHadoop rmr2 的 R 外部库
我有这种情况:
- Hadoop 客户端节点(安装了 R 和 rmr2)
- Hadoop 集群(安装在所有节点中的 R 和 rmr2)
- 集群中没有用于安装外部库的管理员权限
- 这个问题类似于临时在 Hadoop 节点上安装 R 包以进行流式作业,但我无法添加评论,因为我是新来的。
我有一个脚本 test.R 用于测试 rmr2。在此脚本中,map 函数使用 R 库,该库仅安装在客户端节点中,而不安装在集群中。
显然,每个地图任务中的作业都会失败,因为它无法加载库。
我的问题是:
¿ 如何在不以管理员权限在所有节点中安装此库的情况下使用此库?
¿ 我如何附加、发送或共享它?我不想每次使用新的时都在每个节点中安装每个库。
可能吗?
我在 hadoop 中找不到任何类似于 --jars 的参数,或者在 python 中的 spark 中找不到类似于 --py-libs 参数的参数。
这是这个使用“tm”库(“stopword”函数)的愚蠢示例字数代码,它安装在客户端但不是在集群的所有节点中。
从客户端节点执行:
编辑:
将此问题与在 Hadoop 节点上临时安装 R 包以进行流式作业进行比较
1)这个问题和另一个问题意思一样,但是我觉得这个更完整,因为有一个具体的例子和场景。所以我认为这更清楚。
2)第一个答案是你的,piccolbo,但它是从 2012 年开始的,而我们是在 2015 年,所以我认为它已经过时了。其余的答案很有帮助,但根本没有。如果通过压缩的外部R库,则必须在每个节点上解压并将路径添加到R的libPaths中。对吗?但我不知道是否有一个参数。
3)我想知道这是否可能并且以一种简单的方式。
谢谢
r - as(x, class(k)) 中的错误:没有将“NULL”强制为“data.frame”的方法或默认值
我目前面临下面提到的一个错误,该错误与 NULL 值被强制到数据框有关。数据集确实包含空值,但是我尝试了 is.na() 和 is.null() 函数来用其他东西替换空值。数据存储在 hdfs 上,并以 pig.hive 格式存储。我还附上了下面的代码。如果我从键中删除 v[,25],则代码可以正常工作。
代码:
错误:
更新 我已经添加了示例数据并编辑了上面的代码。希望这可以帮助!
样本数据:
hadoop - 在 Hadoop 集群上安装 RHadoop
我正在尝试在我的 Hadoop 集群上安装 RHadoop。在安装一些必需的软件包时,我遇到以下错误:
我还在集群上安装了 RHive。我能够通过 RHive 执行相对较小的查询,但较大的查询失败:
如果有人有任何想法,请帮我解决这个问题!提前非常感谢!
ubuntu - "fatal error: TProcessor.h: No such file or directory" when trying to install Rhbase package
everyone, I'm trying to install Rhbase package, but first I was missing thrift package, what I solved, but now it shows me another error. I added TProcessor.h into ../lib/cpp/src/thrift/processor/ but it didn't help and it shows me the same error:
I am using RStudio Thanks a lot
r - 无法将 R rhdfs API 与运行在不同 IP 地址上的 Hadoop 集群连接
添加 Hadoop 主页
设置 HADOOP CMD 路径
Sys.setenv("HADOOP_CMD"="ssh://root@192.168.10.70/home/easy/hadoop/bin/hadoop"
)
加载库 rhdfs
初始化hdfs
rhadoop - 在 r hadoop 中操作数据集列
我有一个数据集,它有一个日期(2015 年 1 月 10 日、2016 年 1 月 10 日、2017 年 1 月 10 日)。我想改变它的格式(2015、2016、2017)。我需要使用 Hadoop 来做到这一点。
r - 将数据输入和输出 Rhipe [R + Hadoop]
我正在尝试 rhipe 和 RHadoop [rmr rhdfs rhbase etc.] 系列软件包。
现在在两个包 [rhipe 和 rmr] 中,我可以摄取/读取存储到 csv 或文本文件中的数据。它们都支持创建新的文件格式,但我发现 rmr 对它有更多的支持,或者至少有更多的资源可以开始。好吧,当一个人计划对存储在 HDFS 中的原始数据执行少量数据处理并最终希望以 Hadoop 的其他组件(如 Hive Impala 等)可识别的格式将其存储回 HDFS 时,此要求将很有用。这两个包都可以编写只能由包识别的原始格式。包 rmr 支持很少的其他格式。
有关 rmr 的参考,请查看:https ://github.com/RevolutionAnalytics/rmr2/blob/master/docs/getting-data-in-and-out.md
然而,对于成熟我没有得到任何这样的文件,我尝试了各种失败的方法。
rhwatch
所以我的问题是,在读取存储在 HDFS 中并在 rhipe 中运行的文件后,我如何才能写回文本 [例如,其他可识别的格式也可以工作] ?