0

我正在使用来自 R 的 Spark,通过sparklyr包在一个巨大的数据集(>500mill obs)上运行回归。但我想要一个加权回归,我似乎找不到正确的语法/函数来做到这一点。

目前我正在做

sparklyr::ml_linear_regression(
    data_spark, 
    response = "y", 
    features = c("x1", "x2"))

使用基本 RI 就可以了。

lm(y ~ x1 + x2, weights = "wt", data = data)

但当然,base R 无法处理我看似庞大的数据。

如何使用 R 中的 spark 执行相同的操作,使用sparklyr包与 Spark 交互?

(我试图通过SparkR与 Spark 捆绑来完成所有这些操作;SparkR::spark.glm()这正是我需要的weightCol参数,但我无法使用此包使 Spark 工作,因为我无法将数据复制到 Spark;总是点击“错误:内存耗尽(达到限制?)”,即使我调整了 sparkConfig 参数)

4

0 回答 0