问题标签 [sparklyr]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - Spark DataFrame (RDD) 的元数据
我正在通过“sparklyr”和“SparkR”对 R 中的火花进行基准测试。我在不同的 Testdata 上测试不同的功能。在两种特殊情况下,我计算一列中零的数量和一列中 NA 的数量,我意识到无论数据有多大,结果都会在不到一秒的时间内出现。所有其他计算都随着数据的大小而变化。所以我不认为 Spark 在那里计算任何东西,但这些案例存储在元数据的某个地方,并且它在加载数据时计算了这些结果。我测试了我的功能,它们总是给我正确的结果。
任何人都可以确认列中零的数量和空值的数量是否存储在数据帧的元数据中,如果没有,为什么它会这么快返回正确的值?
r - 在 Sparklyr (spark_read_csv) 中指定 col 类型
我正在使用 SpraklyR 将 csv 读入 spark
但是得到:
如何使用 spark_read_csv 指定列类型?
提前致谢。
r - Sparklyr 中的日期对象
我有一个字符串,yyyymmdd
并且想在使用中将其转换为日期对象,sparklyr
以便我可以从另一个日期中减去一个日期。
此代码适用于yyyy-mm-dd hr:min:sec
yyyy-mm-dd hr:min:sec
如果它是 just 的字符串,而不是字符串,我会使用什么 cide yyyymmdd
?
我尝试过这样的事情但不起作用。
r - 子集数据后的 Sparklyr“NoSuchTableException”错误
我是新手sparklyr
,也没有接受过任何正式的培训——这在这个问题之后会变得很明显。我也更多地站在统计学家的一边,这没有帮助。子设置 Spark 后出现错误DataFrame
。
考虑以下示例:
我得到的错误是:
还有其他几行错误。
我不明白为什么我会收到这个错误。"subdf" 是一个 Spark DataFrame
。
r - sparklyr 中是否有等效的 cbind() 或 bind_cols() ?
我正在尝试在 sparklyR 中绑定两个不同的数据帧(具有相同的行数 - 并且行匹配)的简单操作。
例如:
我收到的错误消息:
我试过combine()
, cbind_all
,cbind()
和c()
. 没有人在工作。
r - 分裂Sparklyr 作为火花对象的结果
我在拆分 Sparklyr 生成的随机森林的结果时遇到问题。
我正在使用以下代码生成一个模型,该模型预测 {0 | 1} 值并预测指定验证集的结果。
此生成的预测对象如下所示:
如何在 Spark 中拆分列表,以仅获取列表的第一个数字。像这样的东西...
希望有人可以帮助解决这个问题。
问候, 吉茨克
r - 使用 sparklyr 包时,R 未检测到安装的最新 Java 版本(1.8)
R 未检测到为使用 sparklyr 包而安装的最新 Java 版本 (1.8)。
我更新了 Java 版本并在 Mac 终端中确认。然后我重新启动了 Rsession:
但我仍然收到同样的错误过时的 Java 版本:
知道如何解决这个问题吗?
apache-spark - Spark 和 SparklyR 错误“超过 64 KB”
使用 SparklyR 和 Spark 2.0.2 调用逻辑回归后,我在 Spark 上收到以下错误。
我读入 Spark 的数据集比较大(2.2GB)。这是错误消息:
其他人也有类似的问题:https ://github.com/rstudio/sparklyr/issues/298但我找不到解决方案。有任何想法吗?
r - 使用 sparklyr 包访问 hive?
我已经hdfs
使用 sparklyr 成功访问了。但是如何访问配置单元表/命令,sparklyr
因为我需要将它存储df
到配置单元中。