我正在使用来自 R 的 Spark,通过sparklyr
包在一个巨大的数据集(>500mill obs)上运行回归。但我想要一个加权回归,我似乎找不到正确的语法/函数来做到这一点。
目前我正在做
sparklyr::ml_linear_regression(
data_spark,
response = "y",
features = c("x1", "x2"))
使用基本 RI 就可以了。
lm(y ~ x1 + x2, weights = "wt", data = data)
但当然,base R 无法处理我看似庞大的数据。
如何使用 R 中的 spark 执行相同的操作,使用sparklyr
包与 Spark 交互?
(我试图通过SparkR
与 Spark 捆绑来完成所有这些操作;SparkR::spark.glm()
这正是我需要的weightCol
参数,但我无法使用此包使 Spark 工作,因为我无法将数据复制到 Spark;总是点击“错误:内存耗尽(达到限制?)”,即使我调整了 sparkConfig 参数)