问题标签 [sparklyr]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
176 浏览

java - 无法通过 SparkR 将 sql 表加载到 r

我正在尝试通过 sparkR 在 R 中加载一个 SQL 表。我有以下代码:

当我按原样运行此代码时,出现以下错误:

有人可以提示可能是什么问题吗?

先感谢您

0 投票
1 回答
405 浏览

r - 同时使用 SparkR 和 Sparklyr

据我了解,这两个包为 Apache Spark 提供了相似但大多不同的包装函数。Sparklyr 较新,但仍需要在功能范围内增长。因此,我认为目前需要同时使用这两个包来获得全部功能。

由于这两个包本质上都包装了对 scala 类的 Java 实例的引用,我猜应该可以并行使用这些包。但这真的可能吗?你的最佳实践是什么?

0 投票
1 回答
917 浏览

r - 在 Windows 上为 sparklyr 安装 Spark

我已经尝试了几个关于在 Windows 环境中设置 Spark 和 Hadoop 的教程,尤其是在 R 环境中。 当我点击图 9 时,这个导致了这个错误:

在此处输入图像描述

Rstudio 的本教程也给了我一些问题。当我到达

sc <- spark_connect(master = "local")

一步,我得到这个熟悉的错误:

这个端口问题与我在尝试分配"yarn-client"内部参数时遇到的问题相似,当我spark_connect(...)从 Zaidi 女士的教程中尝试时,here。(那个教程有它自己的问题,我已经把它放在一个板上,如果有人感兴趣的话。

如果我首先安装 Ubuntu VM ,TutorialsPoint演练可以让我顺利完成,但我使用的是 Microsoft R(RO),所以我想在 Windows 中解决这个问题,尤其是因为 Emaait 先生似乎在第一个教程能够运行我无法使用的命令.\bin\sparkR

大多数情况下,我试图了解如何在 Windows 中使用最好的 sparklyr 安装和运行 Spark 和 R。

更新1:这是目录中的内容:

在此处输入图像描述

更新 2:这是我的 R 会话和系统信息

在此处输入图像描述

0 投票
0 回答
275 浏览

r - 使用 SparkR 和 Sparklyr 对 Spark 数据帧进行操作 - 不切实际的设置?

我目前正在使用 SparkR 和 sparklyr 包,我认为它们不适合高维稀疏数据集。

这两个包都有一个范例,您可以通过几列或几行的简单逻辑条件来选择/过滤数据框的列和行。但这通常不是您在如此大的数据集上会做的事情。在那里,您需要根据数百个行或列条目的值来选择行和列。通常,您首先必须计算每行/列的统计数据,然后将这些值用于选择。或者,您只想处理数据框中的某些值。

例如,

  1. 如何选择缺失值少于 75% 的所有行或列?

  2. 如何使用从每一列或每一行派生的特定于列或行的值来估算缺失值?

  3. 为了解决(#2),我需要分别对数据框的每一行或每一列执行函数。然而,即使像 SparkR 的 dapplyCollect 这样的函数也没有真正的帮助,因为它们太慢了

也许我遗漏了一些东西,但我想说 SparkR 和 sparklyr 在这些情况下并没有真正的帮助。我错了吗?

附带说明一下,如果存在如此严重的限制(例如处理缺失值),我不明白如何将 MLlib 或 H2O 等库与 Sparklyr 集成。

0 投票
1 回答
814 浏览

r - 在 R 中使用 Sparklyr 读取 .csv 文件

我有几个超过 2 GB的.csv文件。C:\Users\USER_NAME\Documents我想使用 Apache Spark 从 R 中读取数据。我正在使用 Microsoft R Open 3.3.1 和 Spark 2.0.1。

我坚持使用 package.json 中定义.csv的函数读取文件。它要求以 . 开头的文件路径。我想知道我的案例的正确文件路径,以目录中的文件名开头和结尾。spark_read_csv(...)Sparklyrfile://file://.../Documents

0 投票
1 回答
532 浏览

r - sparklyr hadoop配置

我很抱歉,这个问题很难完全重现,因为它涉及一个正在运行的 spark 上下文(在下面引用为 sc),但我试图在 sparklyr 中设置一个 hadoopConfiguration,专门用于从 RStudio sparklyr 访问 swift/objectStore 对象作为Spark 对象,但通常用于对 hadoopConfiguration 的 scala 调用。像(scala代码)这样​​的东西:

其中 sc 是正在运行的 spark 上下文。在 SparkR 中我可以运行(R 代码)

在 sparklyr 我已经尝试了我想到的每一个咒语,但我最好的猜测是(再次 R 代码)

但这会导致非详细错误(和不规则拼写)

当然,我尝试以我能想到的各种方式对输入进行编码(自然是 enc2utf8(value) 是第一个,但还有许多其他方式,包括列表和 as.character(as.list(...)) 这似乎是sparklyr 程序员的最爱)。任何建议将不胜感激。我已经梳理了 sparklyr 的源代码,在 sparklyr github 中找不到任何提及 hadoopConfiguration 的内容,所以我担心我在核心配置中遗漏了一些非常基本的东西。我还尝试在 spark_connect() 核心调用中的 config.yml 中传递这些配置,但这是在将“fs.swift.service.keystone.auth.url”设置为 sc$config$s 时工作的。 swift.service.keystone.auth.url 设置,显然未能将这些设置为核心 hadoopConfiguration。

顺便说一句,我使用的是 Spark1.6、scala 2.10、R 3.2.1 和 sparklyr_0.4.19。

0 投票
2 回答
5884 浏览

r - SparklyR 从 Spark 上下文中删除表

想要从 Spark 上下文 ('sc') 中删除单个数据表。我知道可以取消缓存单个缓存表,但这与从 sc 中删除对象不同——据我所知。

要断开整个 sc,我会使用spark_disconnect(sc),但在此示例中,它将破坏存储在 sc 中的“泰坦尼克号”和“击球”表。

相反,我想删除例如“击球”之类的东西spark_disconnect(sc, tableToRemove = "batting"),但这似乎不可能。

0 投票
2 回答
1240 浏览

r - 在 sparklyr 中创建虚拟变量?

我正在尝试扩展我的一些 ML 管道,我喜欢 sparklyr 开放的 rstudio、spark 和 h2o 的组合(http://spark.rstudio.com/

我想弄清楚的一件事是如何使用 sparklyr 从数据帧中的字符向量创建虚拟列。

我已经尝试过以下方法,但我认为它可能混合了一些 sparklyr 尚未实现的功能。

在这个例子中,我想为每个运营商创建指标变量。

老实说,我对 dplyr 并不是很熟悉,所以不确定我会怎么做。

是否有可能已经退出的 spark 函数,我可以通过 sparklyr 扩展调用,或者有没有办法只使用 dplyr 函数来做到这一点?

更新

我想我有办法在数据帧上的 pyspark 中执行此操作(以防对任何人有用)。

所以如果数据看起来像:

然后以下似乎可以在 [word] 字段上制作假人:

取自(带有虚拟变量的 pyspark 矩阵

0 投票
0 回答
454 浏览

r - 使用 mutate 和 lag 创建两列时的 sparklyr AnalysisException

我有以下data.frame:

创建后,我可以使用sparklyr将其复制到 Spark 中。

创建后,我可以mutate创建一个列,使用该函数创建另一个列lag

当我尝试使用该函数创建多个列mutate并同时使用该函数时,就会出现问题lag。例如,在这里我想创建两个新列 E 和 F,它们是列 A 和 B 的“滞后”:

但是,如果我创建两列但lag只使用一次,则不会引发此异常,例如:

lag()出于某种原因,仅当在操作中执行两个调用时才会引发异常mutate。我已经尝试(不成功)不同的组合lag()和. 他们都提出了同样的例外,我不明白。查看 Spark 代码,我可以看到这里引发了异常:lead()mutate

我知道它应该与lag无法检查的窗口函数的某些条件有关,但我并不真正理解这里的潜在问题。任何帮助/想法将不胜感激。

0 投票
1 回答
797 浏览

r - 使用 SparklyR Spark install 在 R 中运行 Scala 代码

希望使用Spark 安装scalac中包含的自定义(Scala 编译器) ;sparklyr在 RStudio SparkUI 选项卡中找到(或从spark_web(sc))>>环境>>/jars/scala-compiler-2.11.8.jar作为“系统环境”——而不是scalac在基本目录中单独下载和安装——如在此处找到并从 RStudio 链接的“hello world”示例中所建议的那样创建扩展页面http://spark.rstudio.com/extensions.html

这是我到目前为止使用 Ubuntu 所拥有的,但在下面的错误中停滞不前。我设置了一个与上面“hello world”示例中使用的 Github-repo 完全相同的目录。/opt/scala知道如何在不安装在建议的基本路径文件夹之一(即、/opt/local/scala/usr/local/scala~/scala(仅限 Windows)的情况下)的情况下克服此错误?想要sparklyr为给定用户使用本机安装和相对路径。