问题标签 [sparklyr]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - sparklyr 可以与部署在纱线管理的 hadoop 集群上的 spark 一起使用吗?
sparklyr
R 包是否能够连接到 YARN 管理的 hadoop 集群?这似乎没有记录在集群部署文档中。使用SparkR
Spark 附带的软件包可以通过以下方式进行:
但是,当我将上面的最后几行替换为
我收到错误:
是sparklyr
替代方案SparkR
还是建立在SparkR
包装之上?
r - 在 Rstudio-Failed 中将 R 与 Spark 连接以启动 Spark shell。端口文件不存在
我正在尝试使用 Rstudio 将 R 与 Spark 的本地实例连接起来。但是,我收到显示的错误消息。我错过了什么?我正在使用 Windows 10。我正在关注rstudio上的教程。
我收到的错误消息:
r - Sparklyr Ports 文件和 Java 错误 MAC OS
我正在尝试在 R 中启动 sparklyr 并获得以上消息。请问有什么解决方案或建议来解决这个错误吗?我正在使用 MAC OSX,以下是 Session Info 的详细信息。即使与
sc <- spark_connect(master = "local", config = list())
r - 通过 sparklyr 将 R 连接到 Spark
我正在尝试按照sparklyr
RStudio 的教程将 R 连接到 Spark:http: //spark.rstudio.com/
但是有些方法,我收到一条奇怪的错误消息,如下所示。有谁知道如何解决这个问题?我试图将C:\Windows\system32
路径添加到系统变量路径但没有成功。谢谢你的帮助。
r - 是否可以在 sparklyr 中使用本机 R 代码或其他 R 包功能?
我已经到了可以按照这里的示例进行操作的地步(只需对添加config=list()
到输入参数进行轻微修改)。
但是,当我尝试使用其他 R 函数时,可能会dplyr
出现问题:
显然grepl
不支持。我的问题是:有没有办法使用基本 R 或 R 包函数?如果没有,它会来吗?似乎这些方面的工作正在与 v2 一起取得进展,dapply
但如果它与.gapply
SparkR
sparklyr
r - 有没有办法用 sparklyr 处理嵌套数据?
在下面的示例中,我加载了一个 parquet 文件,其中包含meta
字段中地图对象的嵌套记录。sparklyr
似乎在处理这些方面做得很好。但是tidyr::unnest
不能转换为 SQL(或 HQL - 可以理解 - 类似LATERAL VIEW explode()
),因此不可用。有没有办法以其他方式取消嵌套数据?
收集数据时也存在问题。例如,
在上面,meta
文件仍然包含spark_jobj
元素而不是列表、data.frames 甚至 JSON 字符串(这是 Hive 返回此类数据的方式)。这会造成tidyr
甚至无法处理收集到的数据的情况。
有没有办法sparklyr
更好地处理tidyr
我失踪的问题?如果没有,这是否计划用于未来的sparklyr
发展?
r - SparkR 与 sparklyr
有人对 SparkR 与 sparklyr 的优缺点有一个概述吗?谷歌没有产生任何令人满意的结果,两者看起来都非常相似。尝试两者,SparkR 看起来要麻烦得多,而 sparklyr 则非常简单(既要安装又要使用,尤其是使用 dplyr 输入)。sparklyr 只能用于并行运行 dplyr 函数还是“正常”R-Code?
最好的
json - 如何使用 sparklyr 的 spark_read_json 读取目录中的所有文件
我使用这种结构在本地存储了 json 事件(用于调试)events/year/month/day/hour/somefiles.log
:。每个file.log
都是文件,每行都有一个 json 对象(我的事件)。
如何spark_read_json
从 sparklyr 包中递归加载这些文件。我试过 :
但没有成功。
编辑 1
实际上,它在路径中的某个级别上工作,例如
events = spark_read_json(sc = sc, name = "events", path = "events/year/month/day/*")
有效,但
events = spark_read_json(sc = sc, name = "events", path = "events/year/month/*"
不工作
google-cloud-platform - 如何从 Sparklyr 连接 Google Dataproc 集群?
我是 Spark 和 GCP 的新手。我试图连接到它
但它显然无法工作(例如没有身份验证)。
我该怎么做?是否可以从 Google Cloud 外部连接到它?
r - 将 sparklyr 连接到远程 spark 连接
我想通过 sparklyr 将我的本地桌面 RStudio 会话连接到远程 spark 会话。当您在 RStudio 的 sparklyr ui 选项卡中添加新连接并选择集群时,表示您必须在集群上运行,或者与集群有高带宽连接。
谁能阐明如何建立这种联系?我不确定如何创建可重现的示例,但总的来说我想做的是:
从远程服务器。我知道会有延迟,尤其是在尝试在遥控器之间传递数据时。我也明白,将 rstudio-server 放在实际的集群上会更好——但这并不总是可能的,我正在寻找一个 sparklyr 选项来在我的服务器和我的桌面 RStudio 会话之间进行交互。谢谢。