问题标签 [sparklyr]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
4 回答
7309 浏览

r - sparklyr 可以与部署在纱线管理的 hadoop 集群上的 spark 一起使用吗?

sparklyrR 包是否能够连接到 YARN 管理的 hadoop 集群?这似乎没有记录在集群部署文档中。使用SparkRSpark 附带的软件包可以通过以下方式进行:

但是,当我将上面的最后几行替换为

我收到错误:

sparklyr替代方案SparkR还是建立在SparkR包装之上?

0 投票
1 回答
808 浏览

r - 在 Rstudio-Failed 中将 R 与 Spark 连接以启动 Spark shell。端口文件不存在

我正在尝试使用 Rstudio 将 R 与 Spark 的本地实例连接起来。但是,我收到显示的错误消息。我错过了什么?我正在使用 Windows 10。我正在关注rstudio上的教程。

我收到的错误消息:

0 投票
1 回答
445 浏览

r - Sparklyr Ports 文件和 Java 错误 MAC OS

我正在尝试在 R 中启动 sparklyr 并获得以上消息。请问有什么解决方案或建议来解决这个错误吗?我正在使用 MAC OSX,以下是 Session Info 的详细信息。即使与

sc <- spark_connect(master = "local", config = list())

0 投票
4 回答
2609 浏览

r - 通过 sparklyr 将 R 连接到 Spark

我正在尝试按照sparklyrRStudio 的教程将 R 连接到 Spark:http: //spark.rstudio.com/

但是有些方法,我收到一条奇怪的错误消息,如下所示。有谁知道如何解决这个问题?我试图将C:\Windows\system32路径添加到系统变量路径但没有成功。谢谢你的帮助。

0 投票
1 回答
542 浏览

r - 是否可以在 sparklyr 中使用本机 R 代码或其他 R 包功能?

我已经到了可以按照这里的示例进行操作的地步(只需对添加config=list()到输入参数进行轻微修改)。

但是,当我尝试使用其他 R 函数时,可能会dplyr出现问题:

显然grepl不支持。我的问题是:有没有办法使用基本 R 或 R 包函数?如果没有,它会来吗?似乎这些方面的工作正在与 v2 一起取得进展,dapply但如果它与.gapplySparkRsparklyr

0 投票
4 回答
1739 浏览

r - 有没有办法用 sparklyr 处理嵌套数据?

在下面的示例中,我加载了一个 parquet 文件,其中包含meta字段中地图对象的嵌套记录。sparklyr似乎在处理这些方面做得很好。但是tidyr::unnest不能转换为 SQL(或 HQL - 可以理解 - 类似LATERAL VIEW explode()),因此不可用。有没有办法以其他方式取消嵌套数据?

收集数据时也存在问题。例如,

在上面,meta文件仍然包含spark_jobj元素而不是列表、data.frames 甚至 JSON 字符串(这是 Hive 返回此类数据的方式)。这会造成tidyr甚至无法处理收集到的数据的情况。

有没有办法sparklyr更好地处理tidyr我失踪的问题?如果没有,这是否计划用于未来的sparklyr发展?

0 投票
7 回答
21264 浏览

r - SparkR 与 sparklyr

有人对 SparkR 与 sparklyr 的优缺点有一个概述吗?谷歌没有产生任何令人满意的结果,两者看起来都非常相似。尝试两者,SparkR 看起来要麻烦得多,而 sparklyr 则非常简单(既要安装又要使用,尤其是使用 dplyr 输入)。sparklyr 只能用于并行运行 dplyr 函数还是“正常”R-Code?

最好的

0 投票
1 回答
1082 浏览

json - 如何使用 sparklyr 的 spark_read_json 读取目录中的所有文件

我使用这种结构在本地存储了 json 事件(用于调试)events/year/month/day/hour/somefiles.log:。每个file.log都是文件,每行都有一个 json 对象(我的事件)。

如何spark_read_json从 sparklyr 包中递归加载这些文件。我试过 :

但没有成功。

编辑 1

实际上,它在路径中的某个级别上工作,例如

events = spark_read_json(sc = sc, name = "events", path = "events/year/month/day/*")有效,但

events = spark_read_json(sc = sc, name = "events", path = "events/year/month/*"不工作

0 投票
1 回答
1320 浏览

google-cloud-platform - 如何从 Sparklyr 连接 Google Dataproc 集群?

我是 Spark 和 GCP 的新手。我试图连接到它

但它显然无法工作(例如没有身份验证)。

我该怎么做?是否可以从 Google Cloud 外部连接到它?

0 投票
3 回答
6749 浏览

r - 将 sparklyr 连接到远程 spark 连接

我想通过 sparklyr 将我的本地桌面 RStudio 会话连接到远程 spark 会话。当您在 RStudio 的 sparklyr ui 选项卡中添加新连接并选择集群时,表示您必须在集群上运行,或者与集群有高带宽连接。

谁能阐明如何建立这种联系?我不确定如何创建可重现的示例,但总的来说我想做的是:

从远程服务器。我知道会有延迟,尤其是在尝试在遥控器之间传递数据时。我也明白,将 rstudio-server 放在实际的集群上会更好——但这并不总是可能的,我正在寻找一个 sparklyr 选项来在我的服务器和我的桌面 RStudio 会话之间进行交互。谢谢。