问题标签 [sparklyr]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
rstudio - 在 Rstudio 中将 sparklyr 连接到远程 sparkR 时出错
我尝试在本地 RStudio 会话中使用以下命令连接到 sparkR -
但是,我收到以下错误 -
有什么帮助吗?
提前致谢
r - 无法使用 spark_read_csv() 将 csv 读入 Spark
我正在尝试使用sparklyr
将 csv 文件读入 R。我可以使用 .csv 将 .csv 读入 R 中read.csv()
,但是当我尝试使用spark_read_csv()
它时它会崩溃。
但是,当我尝试执行此代码时,我收到以下错误:
as.hexmode(xx) 中的错误:不能将“x”强制转换为“hexmode”类
通过谷歌搜索该错误,我没有发现太多。任何人都可以阐明这里发生的事情吗?
r - 使用 sparklyr 的 R 回调函数
我希望使用Spark(http://spark.apache.org/docs/latest/programming-guide.html )的mapPartitions和reduce功能,使用sparklyr。
在pyspark中很容易,我唯一需要使用的是一个普通的 python 代码。我可以简单地添加 python 函数作为回调函数。太简单。
例如,在pyspark中,我可以使用这两个函数,如下所示:
但是,这在 R 中似乎是不可能的,例如sparklyr库。我检查了 RSpark,但它似乎是在 R 中查询/整理数据的另一种方式,仅此而已。
如果有人让我知道如何在 R 中使用这两个函数和 R 回调函数,我将不胜感激。
r - 在 sparklyr (R+spark) 中提取列名的简单命令
在 base r 中,很容易从数据框中提取列(变量)的名称
但是在使用 sparklyr 时,事情变得更加复杂。将数据框复制到spark后,
变量名实际上位于“ops”的深处
如果这就是全部,就不会有问题(也不需要问这个问题)。但是,每次在 testdf_tbl 上发生操作时,列/变量的名称都会改变它们的位置,如下所示。
另一个操作将另一个 $x 添加到路径中......等等。
更糟糕的是,变量列表并没有反映我们所做的选择操作,它们仍然列出 a1、a2 作为列名。然而,
很明显,选择操作对 spark 数据帧的使用方式产生了影响。
当然,有一种简单直接的方法可以在 sparklyr 中提取变量/列的当前名称,例如names()
base r 中的 la。
r - 使用 sparklyr 安装 Spark 和 spark_install 错误
我正在尝试使用 sparklyr 安装 spark 和
我收到以下错误。
然后我从网上下载了火花并使用
这给了我同样的错误:
有什么建议吗?
提前致谢。
r - 如何使用 sparklyr 为 Apache Spark 实现 Stanford CoreNLP 包装器?
我正在尝试创建一个 R 包,以便我可以使用来自 R 的用于 Apache Spark 的 Stanford CoreNLP 包装器(通过 databricks)。我正在使用 sparklyr 包连接到我的本地 Spark 实例。我创建了一个具有以下依赖函数的包
在日志中,我可以看到两个数据块包都加载了依赖的 jar。我将所有 coreNLP 提取到 stanford-corenlp-full 文件夹,因此所有依赖项都应该正确加载。
.
所以我应该能够调用 databricks sparkLib 函数(位于com.databricks.spark.corenlp.functions)
但是,当我调用时,我似乎找不到函数类
我收到一条错误消息说明
我不确定依赖项是否未正确加载或是否存在其他问题。
任何帮助,将不胜感激。
下面是我sessionInfo
来自 RStudio
r - 尝试使用 Sparklyr 将 R 连接到 Spark
我正在尝试使用 Sparklyr 将 R 连接到 Spark。
我遵循了来自 rstudio 博客的教程
我尝试使用安装 sparklyr
install.packages("sparklyr")
一切顺利,但在另一篇文章中,我看到 sparklyr_0.4 版本中有一个错误。所以我按照说明下载开发版本使用devtools::install_github("rstudio/sparklyr")
这也很好,现在我的 sparklyr 版本是 sparklyr_0.4.16。
我按照 rstudio 教程下载和安装 spark 使用
当我尝试使用第一次连接到火花时
得到以下错误。
然后我下载了 winutils.exe 并将其放入C:\Users\rkaku\AppData\Local\rstudio\spark\Cache\spark-1.6.2-bin-hadoop2.6\tmp\hadoop\bin
- 这是在说明中给出的。
我尝试再次连接火花。
但我收到以下错误
有人可以帮我解决这个问题。从过去的两周开始,我一直在处理这个问题,没有太多帮助。非常感谢任何可以帮助我解决这个问题的人。
r - sparklyr:跳过文本文件的第一行
我想跳过(删除)文本文件的前两行:据我所知,这对于 sparklyr 方法是不可能的spark_read_csv
。有一些解决方法可以解决这个简单的问题吗?
我知道sparklyr 扩展的存在,但我正在寻找一种“更”标准的方式来实现我的目标。
r - sparklyr:使用 mutate 函数创建新列
如果这类问题无法用 sparklyr 解决,我会感到非常惊讶:
我收到此错误:
但是有了这条线:
事情奏效。一些帮助?
r - is.na 和 sparklyr 的分位数
我正在使用sparklyr
,它似乎运行良好。但是,我以前的一些代码将不会实现。
什么时候使用
我明白了
错误:org.apache.spark.sql.AnalysisException:未定义函数 COMPLETE.CASES
我得到了相同的quantile
函数结果
此外,在 Spark 数据帧中,似乎is.na
不是以相同的方式计算的。所以当我这样做的时候
我得到一个空数据框,而不是返回所有已满V1
和空的字段V2
。
有什么建议可以如何使用/修改这些函数sparklyr
,或者如何构造这些函数的包装器?