问题标签 [sparklyr]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

743 问题

0 投票

1 回答

406 浏览

rstudio - 在 Rstudio 中将 sparklyr 连接到远程 sparkR 时出错

我尝试在本地 RStudio 会话中使用以下命令连接到 sparkR -

但是，我收到以下错误 -

有什么帮助吗？

提前致谢

rstudio sparklyr

2016-10-03T17:22:40.847

0 投票

1 回答

6566 浏览

r - 无法使用 spark_read_csv() 将 csv 读入 Spark

我正在尝试使用sparklyr将 csv 文件读入 R。我可以使用 .csv 将 .csv 读入 R 中read.csv()，但是当我尝试使用spark_read_csv()它时它会崩溃。

但是，当我尝试执行此代码时，我收到以下错误：

as.hexmode(xx) 中的错误：不能将“x”强制转换为“hexmode”类

通过谷歌搜索该错误，我没有发现太多。任何人都可以阐明这里发生的事情吗？

r csv apache-spark sparklyr

2016-10-06T16:46:15.820

0 投票

1 回答

359 浏览

r - 使用 sparklyr 的 R 回调函数

我希望使用Spark（http://spark.apache.org/docs/latest/programming-guide.html ）的mapPartitions和reduce功能，使用sparklyr。

在pyspark中很容易，我唯一需要使用的是一个普通的 python 代码。我可以简单地添加 python 函数作为回调函数。太简单。

例如，在pyspark中，我可以使用这两个函数，如下所示：

但是，这在 R 中似乎是不可能的，例如sparklyr库。我检查了 RSpark，但它似乎是在 R 中查询/整理数据的另一种方式，仅此而已。

如果有人让我知道如何在 R 中使用这两个函数和 R 回调函数，我将不胜感激。

r apache-spark sparkr sparklyr

2016-10-08T16:01:35.553

0 投票

1 回答

3838 浏览

r - 在 sparklyr (R+spark) 中提取列名的简单命令

在 base r 中，很容易从数据框中提取列（变量）的名称

但是在使用 sparklyr 时，事情变得更加复杂。将数据框复制到spark后，

变量名实际上位于“ops”的深处

如果这就是全部，就不会有问题（也不需要问这个问题）。但是，每次在 testdf_tbl 上发生操作时，列/变量的名称都会改变它们的位置，如下所示。

另一个操作将另一个 $x 添加到路径中......等等。

更糟糕的是，变量列表并没有反映我们所做的选择操作，它们仍然列出 a1、a2 作为列名。然而，

很明显，选择操作对 spark 数据帧的使用方式产生了影响。

当然，有一种简单直接的方法可以在 sparklyr 中提取变量/列的当前名称，例如names()base r 中的 la。

r apache-spark dplyr sparklyr

2016-10-11T13:56:00.340

0 投票

2 回答

1408 浏览

r - 使用 sparklyr 安装 Spark 和 spark_install 错误

我正在尝试使用 sparklyr 安装 spark 和

我收到以下错误。

然后我从网上下载了火花并使用

这给了我同样的错误：

有什么建议吗？

提前致谢。

r windows apache-spark sparklyr azure-dsvm

2016-10-13T20:11:07.003

0 投票

1 回答

703 浏览

r - 如何使用 sparklyr 为 Apache Spark 实现 Stanford CoreNLP 包装器？

我正在尝试创建一个 R 包，以便我可以使用来自 R 的用于 Apache Spark 的 Stanford CoreNLP 包装器（通过 databricks）。我正在使用 sparklyr 包连接到我的本地 Spark 实例。我创建了一个具有以下依赖函数的包

在日志中，我可以看到两个数据块包都加载了依赖的 jar。我将所有 coreNLP 提取到 stanford-corenlp-full 文件夹，因此所有依赖项都应该正确加载。

所以我应该能够调用 databricks sparkLib 函数（位于com.databricks.spark.corenlp.functions）

但是，当我调用时，我似乎找不到函数类

我收到一条错误消息说明

我不确定依赖项是否未正确加载或是否存在其他问题。

任何帮助，将不胜感激。

下面是我sessionInfo来自 RStudio

r apache-spark stanford-nlp sparklyr

2016-10-15T22:18:19.573

0 投票

2 回答

2845 浏览

r - 尝试使用 Sparklyr 将 R 连接到 Spark

我正在尝试使用 Sparklyr 将 R 连接到 Spark。

我遵循了来自 rstudio 博客的教程

我尝试使用安装 sparklyr

install.packages("sparklyr")一切顺利，但在另一篇文章中，我看到 sparklyr_0.4 版本中有一个错误。所以我按照说明下载开发版本使用
devtools::install_github("rstudio/sparklyr")这也很好，现在我的 sparklyr 版本是 sparklyr_0.4.16。

我按照 rstudio 教程下载和安装 spark 使用

当我尝试使用第一次连接到火花时

得到以下错误。

然后我下载了 winutils.exe 并将其放入C:\Users\rkaku\AppData\Local\rstudio\spark\Cache\spark-1.6.2-bin-hadoop2.6\tmp\hadoop\bin- 这是在说明中给出的。

我尝试再次连接火花。

但我收到以下错误

有人可以帮我解决这个问题。从过去的两周开始，我一直在处理这个问题，没有太多帮助。非常感谢任何可以帮助我解决这个问题的人。

r apache-spark sparklyr

2016-10-17T01:46:17.193

0 投票

1 回答

392 浏览

r - sparklyr：跳过文本文件的第一行

我想跳过（删除）文本文件的前两行：据我所知，这对于 sparklyr 方法是不可能的spark_read_csv。有一些解决方法可以解决这个简单的问题吗？

我知道sparklyr 扩展的存在，但我正在寻找一种“更”标准的方式来实现我的目标。

r csv apache-spark sparklyr

2016-10-21T21:41:26.050

0 投票

2 回答

5254 浏览

r - sparklyr：使用 mutate 函数创建新列

如果这类问题无法用 sparklyr 解决，我会感到非常惊讶：

我收到此错误：

但是有了这条线：

事情奏效。一些帮助？

r apache-spark sparklyr

2016-10-27T13:15:51.133

0 投票

1 回答

510 浏览

r - is.na 和 sparklyr 的分位数

我正在使用sparklyr，它似乎运行良好。但是，我以前的一些代码将不会实现。

什么时候使用

我明白了

错误：org.apache.spark.sql.AnalysisException：未定义函数 COMPLETE.CASES

我得到了相同的quantile函数结果

此外，在 Spark 数据帧中，似乎is.na不是以相同的方式计算的。所以当我这样做的时候

我得到一个空数据框，而不是返回所有已满V1和空的字段V2。

有什么建议可以如何使用/修改这些函数sparklyr，或者如何构造这些函数的包装器？

r dplyr sparklyr

2016-11-03T17:54:45.340

1 2 3 4 5 6 7 8 9 10

问题标签 [sparklyr]

Reference