问题标签 [sparkr]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - 如何将 csv 读入 sparkR 1.4 版?
随着spark
(1.4) 的新版本发布,似乎有一个不错的前端接口可以spark
从R
名为sparkR
. 在R for spark 的文档页面上,有一个命令可以将json
文件作为 RDD 对象读取
我正在尝试从.csv
文件中读取数据,就像在这个革命性的博客上描述的那样
注释说我需要一个 spark-csv 包来启用此操作。所以我用这个命令从这个github repo下载了这个包:
但是后来我在尝试读取.csv
文件时遇到了这样的错误。
关于这个错误意味着什么以及如何解决这个问题的任何想法?
当然,我可以尝试以.csv
标准方式阅读,例如:
然后我可以将 Rdata.frame
转换为spark
' ,DataFrame
如下所示:
但这不是我喜欢的方式,而且真的很耗时。
sparkr - 有谁知道如何从 hbase 表在 sparkR 中创建数据框?
我正在尝试使用存储在 hbase 中的数据在 sparkR 中创建一个 spark 数据框。
有谁知道如何在 SQLontext 中指定数据源参数或任何其他方式来解决这个问题?
r - 如何使用 R 或 SparkR 调用 SparkMLLib 算法?
我正在尝试使用 SparkR 和 R 作为前端来开发机器学习模型。我想使用 Spark 的 MLLib,它适用于分布式数据帧。反正有没有从 R 调用 spark MLLib 算法?
r - 启动 spark R 上下文作业后 SparkR sql 上下文错误
我已经安装了 sparkR 包,并且可以运行其他计算作业,例如文档中的 pi 计数或字数计数。但是当我尝试启动 sparkRSql 作业时,它会出现错误。有人可以帮帮我吗?我正在使用 R 版本 3.2.0 和 Spark 1.3.1
apache-spark - RStudio中的sparkR.init(master =“local”)中的SparkR错误
我已将 Spark 发行版中的 SparkR 包安装到 R 库中。我可以调用以下命令,它似乎工作正常:library(SparkR)
但是,当我尝试使用以下代码获取 Spark 上下文时,
一段时间后它失败并显示以下消息:
我已经设置了 JAVA_HOME,并且我有一个可以工作的 RStudio,我可以在其中访问其他包,如 ggplot2。我不知道为什么它不起作用,我什至不知道在哪里调查这个问题。
r - 有没有办法将 sparkR 与 MLlib 库连接起来?
我正在使用火花 1.4 版。R 用户有额外的 API - sparkR。
我设法启动 sparkR 并使用以下命令将 R 转换data.frame
为 sparkDataFrame
我想知道现在是否有办法以某种方式与 spark MLlib 库连接以进行逻辑回归 - https://spark.apache.org/docs/latest/mllib-linear-methods.html或者是否可以重新转换DataFrame
为常规data.frame
?
r - SparkR - 将数据帧转换为向量
我正在探索 SparkR 来计算分位数、平均值、类别频率等统计数据(源文件采用 Amazon S3 - csv 格式)。
我能够解析 csv 文件并创建一个数据框。但是,我无法将此 spark-dataframe 与标准 R 函数(如quantile(), mean()
等)一起使用。
例如,这里是 R 数据框“测试”
上面的数据框产生正确的结果。但是,通过创建的数据框read.df()
不适用于quantile()
功能。
我的问题很简单,无论如何使用 SparkR 的数据框和原生 R 函数?或者如何将 SparkR 数据帧转换为向量。
提前致谢。
amazon-web-services - cannot create root directory in sparkR on AWS
making my first steps connecting sparkR to AWS cluster, I come across a problem:
I cannot create sparkcontext ('sc') in Rstudio -
and i get:
I've tried many users
any help would be appreciated Tnx Z
r - sparkR 安装问题 1.4.1
我在 Mac 上为 spark 1.4.0 和 1.4.1 尝试了以下操作。我正在下载包类型 = 'Source Code [可以构建多个 Hadoop 版本' 并下载类型http://ftp.wayne.edu/apache/spark/spark-1.4.1/spark-1.4.1.tgz。
当我在终端中运行 ./bin/sparkR 时,我收到一条错误消息,提示“找不到 ~assembly/target/scala-2.10”。有任何想法吗?
r - sparkR 1.4.0 中的聚合统计信息
我是一个普通的 R 用户。
对于data.frame
看起来像下面的一个,我想计算基本的聚合统计信息;最小值、第一分位数、中位数、第三分位数和最大值。以下代码使用reshape2
包并dplyr
在常规普通 R 中进行该操作是
我想知道如何在分布式数据帧(Spark 的DataFrame
对象)上重现这样的操作。我已经sparkR
设法计算出每个变量的最大值,但方式不够优雅。有没有办法以一种高效而顺利的方式做到这一点?
我的sparkR
代码如下: