“sparklyr”的相关标签问题_Stack Overflow中文网

0 投票

1 回答

176 浏览

java - 无法通过 SparkR 将 sql 表加载到 r

我正在尝试通过 sparkR 在 R 中加载一个 SQL 表。我有以下代码：

当我按原样运行此代码时，出现以下错误：

有人可以提示可能是什么问题吗？

先感谢您

2016-11-08T17:29:45.730

0 投票

1 回答

405 浏览

r - 同时使用 SparkR 和 Sparklyr

据我了解，这两个包为 Apache Spark 提供了相似但大多不同的包装函数。Sparklyr 较新，但仍需要在功能范围内增长。因此，我认为目前需要同时使用这两个包来获得全部功能。

由于这两个包本质上都包装了对 scala 类的 Java 实例的引用，我猜应该可以并行使用这些包。但这真的可能吗？你的最佳实践是什么？

r apache-spark sparkr sparklyr

2016-11-13T19:02:30.540

0 投票

1 回答

917 浏览

r - 在 Windows 上为 sparklyr 安装 Spark

我已经尝试了几个关于在 Windows 环境中设置 Spark 和 Hadoop 的教程，尤其是在 R 环境中。当我点击图 9 时，这个导致了这个错误：

Rstudio 的本教程也给了我一些问题。当我到达

sc <- spark_connect(master = "local")

一步，我得到这个熟悉的错误：

这个端口问题与我在尝试分配"yarn-client"内部参数时遇到的问题相似，当我spark_connect(...)从 Zaidi 女士的教程中尝试时，here。（那个教程有它自己的问题，我已经把它放在一个板上，如果有人感兴趣的话。）

如果我首先安装 Ubuntu VM ，TutorialsPoint演练可以让我顺利完成，但我使用的是 Microsoft R(RO)，所以我想在 Windows 中解决这个问题，尤其是因为 Emaait 先生似乎在第一个教程能够运行我无法使用的命令.\bin\sparkR。

大多数情况下，我试图了解如何在 Windows 中使用最好的 sparklyr 安装和运行 Spark 和 R。

更新1：这是目录中的内容：

更新 2：这是我的 R 会话和系统信息

r hadoop apache-spark sparkr sparklyr

2016-11-16T21:08:18.670

0 投票

0 回答

275 浏览

r - 使用 SparkR 和 Sparklyr 对 Spark 数据帧进行操作 - 不切实际的设置？

我目前正在使用 SparkR 和 sparklyr 包，我认为它们不适合高维稀疏数据集。

这两个包都有一个范例，您可以通过几列或几行的简单逻辑条件来选择/过滤数据框的列和行。但这通常不是您在如此大的数据集上会做的事情。在那里，您需要根据数百个行或列条目的值来选择行和列。通常，您首先必须计算每行/列的统计数据，然后将这些值用于选择。或者，您只想处理数据框中的某些值。

例如，

如何选择缺失值少于 75% 的所有行或列？
如何使用从每一列或每一行派生的特定于列或行的值来估算缺失值？
为了解决（#2），我需要分别对数据框的每一行或每一列执行函数。然而，即使像 SparkR 的 dapplyCollect 这样的函数也没有真正的帮助，因为它们太慢了。

也许我遗漏了一些东西，但我想说 SparkR 和 sparklyr 在这些情况下并没有真正的帮助。我错了吗？

附带说明一下，如果存在如此严重的限制（例如处理缺失值），我不明白如何将 MLlib 或 H2O 等库与 Sparklyr 集成。

r apache-spark apache-spark-sql sparkr sparklyr

2016-11-22T11:34:30.510

0 投票

1 回答

814 浏览

r - 在 R 中使用 Sparklyr 读取 .csv 文件

我有几个超过 2 GB的.csv文件。C:\Users\USER_NAME\Documents我想使用 Apache Spark 从 R 中读取数据。我正在使用 Microsoft R Open 3.3.1 和 Spark 2.0.1。

我坚持使用 package.json 中定义.csv的函数读取文件。它要求以 . 开头的文件路径。我想知道我的案例的正确文件路径，以目录中的文件名开头和结尾。spark_read_csv(...)Sparklyrfile://file://.../Documents

r csv apache-spark sparklyr

2016-11-25T11:24:54.967

0 投票

1 回答

532 浏览

我很抱歉，这个问题很难完全重现，因为它涉及一个正在运行的 spark 上下文（在下面引用为 sc），但我试图在 sparklyr 中设置一个 hadoopConfiguration，专门用于从 RStudio sparklyr 访问 swift/objectStore 对象作为Spark 对象，但通常用于对 hadoopConfiguration 的 scala 调用。像（scala代码）这样的东西：

其中 sc 是正在运行的 spark 上下文。在 SparkR 中我可以运行（R 代码）

在 sparklyr 我已经尝试了我想到的每一个咒语，但我最好的猜测是（再次 R 代码）

但这会导致非详细错误（和不规则拼写）

当然，我尝试以我能想到的各种方式对输入进行编码（自然是 enc2utf8(value) 是第一个，但还有许多其他方式，包括列表和 as.character(as.list(...)) 这似乎是sparklyr 程序员的最爱）。任何建议将不胜感激。我已经梳理了 sparklyr 的源代码，在 sparklyr github 中找不到任何提及 hadoopConfiguration 的内容，所以我担心我在核心配置中遗漏了一些非常基本的东西。我还尝试在 spark_connect() 核心调用中的 config.yml 中传递这些配置，但这是在将“fs.swift.service.keystone.auth.url”设置为 sc$config$s 时工作的。 swift.service.keystone.auth.url 设置，显然未能将这些设置为核心 hadoopConfiguration。

顺便说一句，我使用的是 Spark1.6、scala 2.10、R 3.2.1 和 sparklyr_0.4.19。

r scala apache-spark sparklyr

2016-12-02T04:35:30.033

0 投票

2 回答

5884 浏览

r - SparklyR 从 Spark 上下文中删除表

想要从 Spark 上下文 ('sc') 中删除单个数据表。我知道可以取消缓存单个缓存表，但这与从 sc 中删除对象不同——据我所知。

要断开整个 sc，我会使用spark_disconnect(sc)，但在此示例中，它将破坏存储在 sc 中的“泰坦尼克号”和“击球”表。

相反，我想删除例如“击球”之类的东西spark_disconnect(sc, tableToRemove = "batting")，但这似乎不可能。

r apache-spark rstudio sparklyr

2016-12-07T18:49:42.893

0 投票

2 回答

1240 浏览

r - 在 sparklyr 中创建虚拟变量？

我正在尝试扩展我的一些 ML 管道，我喜欢 sparklyr 开放的 rstudio、spark 和 h2o 的组合（http://spark.rstudio.com/）

我想弄清楚的一件事是如何使用 sparklyr 从数据帧中的字符向量创建虚拟列。

我已经尝试过以下方法，但我认为它可能混合了一些 sparklyr 尚未实现的功能。

在这个例子中，我想为每个运营商创建指标变量。

老实说，我对 dplyr 并不是很熟悉，所以不确定我会怎么做。

是否有可能已经退出的 spark 函数，我可以通过 sparklyr 扩展调用，或者有没有办法只使用 dplyr 函数来做到这一点？

更新

我想我有办法在数据帧上的 pyspark 中执行此操作（以防对任何人有用）。

所以如果数据看起来像：

然后以下似乎可以在 [word] 字段上制作假人：

取自（带有虚拟变量的 pyspark 矩阵）

r apache-spark dplyr plyr sparklyr

2016-12-08T12:28:26.667

0 投票

0 回答

454 浏览

r - 使用 mutate 和 lag 创建两列时的 sparklyr AnalysisException

我有以下data.frame：

创建后，我可以使用sparklyr将其复制到 Spark 中。

创建后，我可以mutate创建一个列，使用该函数创建另一个列lag：

当我尝试使用该函数创建多个列mutate并同时使用该函数时，就会出现问题lag。例如，在这里我想创建两个新列 E 和 F，它们是列 A 和 B 的“滞后”：

但是，如果我创建两列但lag只使用一次，则不会引发此异常，例如：

lag()出于某种原因，仅当在操作中执行两个调用时才会引发异常mutate。我已经尝试（不成功）不同的组合lag()和. 他们都提出了同样的例外，我不明白。查看 Spark 代码，我可以看到这里引发了异常：lead()mutate

我知道它应该与lag无法检查的窗口函数的某些条件有关，但我并不真正理解这里的潜在问题。任何帮助/想法将不胜感激。

r dplyr sparkr sparklyr

2016-12-09T10:01:48.773

0 投票

1 回答

797 浏览

r - 使用 SparklyR Spark install 在 R 中运行 Scala 代码

希望使用Spark 安装scalac中包含的自定义（Scala 编译器）；sparklyr在 RStudio SparkUI 选项卡中找到（或从spark_web(sc)）>>环境>>/jars/scala-compiler-2.11.8.jar作为“系统环境”——而不是scalac在基本目录中单独下载和安装——如在此处找到并从 RStudio 链接的“hello world”示例中所建议的那样创建扩展页面http://spark.rstudio.com/extensions.html。

这是我到目前为止使用 Ubuntu 所拥有的，但在下面的错误中停滞不前。我设置了一个与上面“hello world”示例中使用的 Github-repo 完全相同的目录。/opt/scala知道如何在不安装在建议的基本路径文件夹之一（即、/opt/local/scala、/usr/local/scala或~/scala（仅限 Windows）的情况下）的情况下克服此错误？想要sparklyr为给定用户使用本机安装和相对路径。

r scala apache-spark rstudio sparklyr

2016-12-11T18:44:00.217

问题标签 [sparklyr]

java - 无法通过 SparkR 将 sql 表加载到 r

r - 同时使用 SparkR 和 Sparklyr

r - 在 Windows 上为 sparklyr 安装 Spark

更新1：这是目录中的内容：

更新 2：这是我的 R 会话和系统信息

r - 使用 SparkR 和 Sparklyr 对 Spark 数据帧进行操作 - 不切实际的设置？

r - 在 R 中使用 Sparklyr 读取 .csv 文件

r - sparklyr hadoop配置

r - SparklyR 从 Spark 上下文中删除表

r - 在 sparklyr 中创建虚拟变量？

r - 使用 mutate 和 lag 创建两列时的 sparklyr AnalysisException

r - 使用 SparklyR Spark install 在 R 中运行 Scala 代码

问题标签 [sparklyr]

更新1：这是目录中的内容：

更新 2：这是我的 R 会话和系统信息

Reference