问题标签 [sparklyr]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
406 浏览

rstudio - 在 Rstudio 中将 sparklyr 连接到远程 sparkR 时出错

我尝试在本地 RStudio 会话中使用以下命令连接到 sparkR -

但是,我收到以下错误 -

有什么帮助吗?

提前致谢

0 投票
1 回答
6566 浏览

r - 无法使用 spark_read_csv() 将 csv 读入 Spark

我正在尝试使用sparklyr将 csv 文件读入 R。我可以使用 .csv 将 .csv 读入 R 中read.csv(),但是当我尝试使用spark_read_csv()它时它会崩溃。

但是,当我尝试执行此代码时,我收到以下错误:

as.hexmode(xx) 中的错误:不能将“x”强制转换为“hexmode”类

通过谷歌搜索该错误,我没有发现太多。任何人都可以阐明这里发生的事情吗?

0 投票
1 回答
359 浏览

r - 使用 sparklyr 的 R 回调函数

我希望使用Spark(http://spark.apache.org/docs/latest/programming-guide.html )的mapPartitionsreduce功能,使用sparklyr

在pyspark中很容易,我唯一需要使用的是一个普通的 python 代码。我可以简单地添加 python 函数作为回调函数。太简单。

例如,在pyspark中,我可以使用这两个函数,如下所示:

但是,这在 R 中似乎是不可能的,例如sparklyr库。我检查了 RSpark,但它似乎是在 R 中查询/整理数据的另一种方式,仅此而已。

如果有人让我知道如何在 R 中使用这两个函数和 R 回调函数,我将不胜感激。

0 投票
1 回答
3838 浏览

r - 在 sparklyr (R+spark) 中提取列名的简单命令

在 base r 中,很容易从数据框中提取列(变量)的名称

但是在使用 sparklyr 时,事情变得更加复杂。将数据框复制到spark后,

变量名实际上位于“ops”的深处

如果这就是全部,就不会有问题(也不需要问这个问题)。但是,每次在 testdf_tbl 上发生操作时,列/变量的名称都会改变它们的位置,如下所示。

另一个操作将另一个 $x 添加到路径中......等等。

更糟糕的是,变量列表并没有反映我们所做的选择操作,它们仍然列出 a1、a2 作为列名。然而,

很明显,选择操作对 spark 数据帧的使用方式产生了影响。

当然,有一种简单直接的方法可以在 sparklyr 中提取变量/列的当前名称,例如names()base r 中的 la。

0 投票
2 回答
1408 浏览

r - 使用 sparklyr 安装 Spark 和 spark_install 错误

我正在尝试使用 sparklyr 安装 spark 和

我收到以下错误。

然后我从网上下载了火花并使用

这给了我同样的错误:

有什么建议吗?

提前致谢。

0 投票
1 回答
703 浏览

r - 如何使用 sparklyr 为 Apache Spark 实现 Stanford CoreNLP 包装器?

我正在尝试创建一个 R 包,以便我可以使用来自 R 的用于 Apache Spark 的 Stanford CoreNLP 包装器(通过 databricks)。我正在使用 sparklyr 包连接到我的本地 Spark 实例。我创建了一个具有以下依赖函数的包

在日志中,我可以看到两个数据块包都加载了依赖的 jar。我将所有 coreNLP 提取到 stanford-corenlp-full 文件夹,因此所有依赖项都应该正确加载。

.

所以我应该能够调用 databricks sparkLib 函数(位于com.databricks.spark.corenlp.functions

但是,当我调用时,我似乎找不到函数类

我收到一条错误消息说明

我不确定依赖项是否未正确加载或是否存在其他问题。

任何帮助,将不胜感激。

下面是我sessionInfo来自 RStudio

0 投票
2 回答
2845 浏览

r - 尝试使用 Sparklyr 将 R 连接到 Spark

我正在尝试使用 Sparklyr 将 R 连接到 Spark。

我遵循了来自 rstudio 博客的教程

我尝试使用安装 sparklyr

  • install.packages("sparklyr")一切顺利,但在另一篇文章中,我看到 sparklyr_0.4 版本中有一个错误。所以我按照说明下载开发版本使用

  • devtools::install_github("rstudio/sparklyr")这也很好,现在我的 sparklyr 版本是 sparklyr_0.4.16。

我按照 rstudio 教程下载和安装 spark 使用

当我尝试使用第一次连接到火花时

得到以下错误。

然后我下载了 winutils.exe 并将其放入C:\Users\rkaku\AppData\Local\rstudio\spark\Cache\spark-1.6.2-bin-hadoop2.6\tmp\hadoop\bin- 这是在说明中给出的。

我尝试再次连接火花。

但我收到以下错误

有人可以帮我解决这个问题。从过去的两周开始,我一直在处理这个问题,没有太多帮助。非常感谢任何可以帮助我解决这个问题的人。

0 投票
1 回答
392 浏览

r - sparklyr:跳过文本文件的第一行

我想跳过(删除)文本文件的前两行:据我所知,这对于 sparklyr 方法是不可能的spark_read_csv。有一些解决方法可以解决这个简单的问题吗?

我知道sparklyr 扩展的存在,但我正在寻找一种“更”标准的方式来实现我的目标。

0 投票
2 回答
5254 浏览

r - sparklyr:使用 mutate 函数创建新列

如果这类问题无法用 sparklyr 解决,我会感到非常惊讶:

我收到此错误:

但是有了这条线:

事情奏效。一些帮助?

0 投票
1 回答
510 浏览

r - is.na 和 sparklyr 的分位数

我正在使用sparklyr,它似乎运行良好。但是,我以前的一些代码将不会实现。

什么时候使用

我明白了

错误:org.apache.spark.sql.AnalysisException:未定义函数 COMPLETE.CASES

我得到了相同的quantile函数结果

此外,在 Spark 数据帧中,似乎is.na不是以相同的方式计算的。所以当我这样做的时候

我得到一个空数据框,而不是返回所有已满V1和空的字段V2

有什么建议可以如何使用/修改这些函数sparklyr,或者如何构造这些函数的包装器?