问题标签 [sparkr]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
107 浏览

amazon-ec2 - ec2 上的 sparkr:确保工人已注册并有足够的内存

我使用发行版附带的 spark-ec2 脚本在 ec2 上设置了一个 spark (spark-1.4.0) 集群。主机和一个从机启动正常,我可以在 http://:8080 上检查状态

现在我想在我的集群上运行 sparkR,这在主从模式下运行良好:

在 Myscript.RI 中有以下几行:

但是当我尝试在集群上运行时:

然后我将以下行添加到 /root/spark/conf/spark-env.sh :

并将其复制到奴隶

但我仍然遇到同样的错误。

0 投票
1 回答
518 浏览

hadoop - hdfs:在 sparkR shell 中读取 parquetfile 时没有此类文件或目录错误

我想从 hdfs 系统中读取 sparkR shell 中的 parquetFile。所以我这样做:

错误:No such file or directory

但是这个文件确实存在于hdfs系统中。当我将此代码包装在 R 文件中时,如 dataframe.R 并运行./spark-submit --master yarn ~/dataframe.R 1000. 它运作良好。所以我认为问题是通过 sparkR shell 在 yarn-client 上运行的。任何人都可以帮助解决这个问题吗?

我正在使用 spark-1.4.0-bin-hadoop2.6

0 投票
0 回答
413 浏览

apache-spark - callJMethod(sqlContext, "parquetFile", paths) 出错: Invalid jobj 1. 如果重启了SparkR,需要重新执行Spark操作

我想通过 SparkR shell 在 yarn-client 上运行 sparkR。所以我这样做:

我是新手,有人可以帮忙解决吗?

我正在使用 spark-1.4.0-bin-hadoop2.6

0 投票
2 回答
590 浏览

r - SparkR - 从数据框列生成分位数(数字类型)

我正在探索 SparkR 以计算 CSV 文件(位于 S3 中)中数字列的分位数。我能够解析 CSV 文件并打印文档并访问该列。但不确定如何生成分位数。任何帮助,将不胜感激。

PS:R 具有计算内置数据帧(不是 SparkR 数据帧)上的分位数的内置函数。

0 投票
0 回答
1222 浏览

r - 如何在 sparkR 中创建一个空数据框?

在R中,df_new <- data.frame()创建一个空数据框,同样我们可以在sparkR中创建一个空数据框

我尝试在 R 中创建空数据框并将其转换为 sparkR 数据框 df_sparkR <- createDataFrame(sqlContext, df_new),但其抛出错误无法从 null 推断。

TIA,阿伦

0 投票
1 回答
1656 浏览

apache-spark - 如何选择 sparkR 数据框的列值?

我创建了一个 sparkR 数据框,人们

如何在“年龄”列中选择第一个值。在 R 语言中,我们可以通过 来执行people$age[1],结果为 20.0。我们如何在 sparkR 数据帧中做同样的事情。

TIA,阿伦

0 投票
0 回答
764 浏览

r - Spark DataFrame 的 SparkR collect() 和 head() 错误:参数暗示不同的行数

我从 HDFS 系统中读取了 parquet 文件:

我读过一些关于这个问题的帖子。但这不是我的情况。事实上,我只是从 parquet 文件中读取了一个表,head()或者collect()它。我的拼花桌是这样的:

我正在使用 spark-1.4.0-bin-hadoop2.6 我通过使用在集群上运行它

我在本地也试过了,同样的问题。

我还尝试在 Scala 中读取这个 parquet 文件。并执行 collect() 操作。似乎一切正常。所以这应该是 SparkR 特有的问题

0 投票
1 回答
1548 浏览

r - sparkR中的反序列化错误

我对 SparkR(以及一般并行化)非常陌生。我在本地运行 SparkR(我知道这不是 spark 的正确用法,但我才刚刚开始)并且我尝试用 sparkR 重写我的代码的某些部分,尽管 collect 通过增加数量给我以下错误样本为(少量样本没有错误):

另一个可能是因为我的内存不足的错误是:

我将不胜感激有关第一个错误的任何帮助(我发布了第二个错误,因为我认为它们可能以某种方式相关,即使我通过为 numSlices 并行化设置不同的值来获得它们)。我认为第一个可能是 spark、sparkR 和 R 之间的版本不兼容导致了这个序列化问题。我尝试安装不同的版本,但很快就解决了依赖问题。

这是一个示例脚本,它模拟我在 SparkR 中所做的事情(为 input.len > 950 生成错误):

以下是完整的错误报告:

我的 SparkR 安装真的有问题吗?如果是,它如何针对少量样本运行?

非常感谢

0 投票
1 回答
1588 浏览

apache-spark - 如何在 sparkR 中绑定两个数据框列?

如何在 Spark 1.4 的 SparkR 中绑定两列数据框

TIA,阿伦

0 投票
1 回答
831 浏览

r - 从 R 代码中保存数据

我已经稍微修改了 spark 的示例,以便通过 hdfs 在 ec2 集群上工作。但是我只得到了保存到镶木地板文件的示例。

当我使用saveDF代替时saveAsParquetFile,我只会在 hdfs 中得到一个空文件。

如何将我的数据框存储为文本文件(json/csv/...)?