问题标签 [sparkr]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

762 问题

0 投票

1 回答

107 浏览

amazon-ec2 - ec2 上的 sparkr：确保工人已注册并有足够的内存

我使用发行版附带的 spark-ec2 脚本在 ec2 上设置了一个 spark (spark-1.4.0) 集群。主机和一个从机启动正常，我可以在 http://:8080 上检查状态

现在我想在我的集群上运行 sparkR，这在主从模式下运行良好：

在 Myscript.RI 中有以下几行：

但是当我尝试在集群上运行时：

然后我将以下行添加到 /root/spark/conf/spark-env.sh ：

并将其复制到奴隶

但我仍然遇到同样的错误。

amazon-ec2 apache-spark sparkr

2015-07-16T15:05:56.897

0 投票

1 回答

518 浏览

hadoop - hdfs：在 sparkR shell 中读取 parquetfile 时没有此类文件或目录错误

我想从 hdfs 系统中读取 sparkR shell 中的 parquetFile。所以我这样做：

错误：No such file or directory

但是这个文件确实存在于hdfs系统中。当我将此代码包装在 R 文件中时，如 dataframe.R 并运行./spark-submit --master yarn ~/dataframe.R 1000. 它运作良好。所以我认为问题是通过 sparkR shell 在 yarn-client 上运行的。任何人都可以帮助解决这个问题吗？

我正在使用 spark-1.4.0-bin-hadoop2.6

hadoop apache-spark hdfs hadoop-yarn sparkr

2015-07-20T07:58:59.237

0 投票

0 回答

413 浏览

apache-spark - callJMethod(sqlContext, "parquetFile", paths) 出错: Invalid jobj 1. 如果重启了SparkR，需要重新执行Spark操作

我想通过 SparkR shell 在 yarn-client 上运行 sparkR。所以我这样做：

我是新手，有人可以帮忙解决吗？

我正在使用 spark-1.4.0-bin-hadoop2.6

apache-spark hadoop-yarn sparkr

2015-07-20T09:31:27.853

0 投票

2 回答

590 浏览

r - SparkR - 从数据框列生成分位数（数字类型）

我正在探索 SparkR 以计算 CSV 文件（位于 S3 中）中数字列的分位数。我能够解析 CSV 文件并打印文档并访问该列。但不确定如何生成分位数。任何帮助，将不胜感激。

PS：R 具有计算内置数据帧（不是 SparkR 数据帧）上的分位数的内置函数。

r sparkr

2015-07-20T10:15:06.870

0 投票

0 回答

1222 浏览

r - 如何在 sparkR 中创建一个空数据框？

在R中，df_new <- data.frame()创建一个空数据框，同样我们可以在sparkR中创建一个空数据框

我尝试在 R 中创建空数据框并将其转换为 sparkR 数据框 df_sparkR <- createDataFrame(sqlContext, df_new)，但其抛出错误无法从 null 推断。

TIA，阿伦

r apache-spark apache-spark-sql sparkr

2015-07-20T11:28:21.830

0 投票

1 回答

1656 浏览

apache-spark - 如何选择 sparkR 数据框的列值？

我创建了一个 sparkR 数据框，人们

如何在“年龄”列中选择第一个值。在 R 语言中，我们可以通过来执行people$age[1]，结果为 20.0。我们如何在 sparkR 数据帧中做同样的事情。

TIA，阿伦

apache-spark apache-spark-sql sparkr

2015-07-22T06:05:28.453

0 投票

0 回答

764 浏览

r - Spark DataFrame 的 SparkR collect() 和 head() 错误：参数暗示不同的行数

我从 HDFS 系统中读取了 parquet 文件：

我读过一些关于这个问题的帖子。但这不是我的情况。事实上，我只是从 parquet 文件中读取了一个表，head()或者collect()它。我的拼花桌是这样的：

我正在使用 spark-1.4.0-bin-hadoop2.6 我通过使用在集群上运行它

我在本地也试过了，同样的问题。

我还尝试在 Scala 中读取这个 parquet 文件。并执行 collect() 操作。似乎一切正常。所以这应该是 SparkR 特有的问题

r apache-spark parquet sparkr spark-dataframe

2015-07-22T06:40:42.877

0 投票

1 回答

1548 浏览

r - sparkR中的反序列化错误

我对 SparkR（以及一般并行化）非常陌生。我在本地运行 SparkR（我知道这不是 spark 的正确用法，但我才刚刚开始）并且我尝试用 sparkR 重写我的代码的某些部分，尽管 collect 通过增加数量给我以下错误样本为（少量样本没有错误）：

另一个可能是因为我的内存不足的错误是：

我将不胜感激有关第一个错误的任何帮助（我发布了第二个错误，因为我认为它们可能以某种方式相关，即使我通过为 numSlices 并行化设置不同的值来获得它们）。我认为第一个可能是 spark、sparkR 和 R 之间的版本不兼容导致了这个序列化问题。我尝试安装不同的版本，但很快就解决了依赖问题。

这是一个示例脚本，它模拟我在 SparkR 中所做的事情（为 input.len > 950 生成错误）：

以下是完整的错误报告：

我的 SparkR 安装真的有问题吗？如果是，它如何针对少量样本运行？

非常感谢

r serialization parallel-processing sparkr

2015-07-23T02:01:04.440

0 投票

1 回答

1588 浏览

apache-spark - 如何在 sparkR 中绑定两个数据框列？

如何在 Spark 1.4 的 SparkR 中绑定两列数据框

TIA，阿伦

apache-spark apache-spark-sql sparkr

2015-07-23T13:44:09.930

0 投票

1 回答

831 浏览

r - 从 R 代码中保存数据

我已经稍微修改了 spark 的示例，以便通过 hdfs 在 ec2 集群上工作。但是我只得到了保存到镶木地板文件的示例。

当我使用saveDF代替时saveAsParquetFile，我只会在 hdfs 中得到一个空文件。

如何将我的数据框存储为文本文件（json/csv/...）？

r apache-spark sparkr

2015-07-23T15:15:48.487

1 2 3 4 5 6 7 8 9 10