r - Spark + R的加权线性回归

问问题 2017-04-27T23:47:27.397

396 次

我正在使用来自 R 的 Spark，通过sparklyr包在一个巨大的数据集（>500mill obs）上运行回归。但我想要一个加权回归，我似乎找不到正确的语法/函数来做到这一点。

目前我正在做

sparklyr::ml_linear_regression(
    data_spark, 
    response = "y", 
    features = c("x1", "x2"))

使用基本 RI 就可以了。

lm(y ~ x1 + x2, weights = "wt", data = data)

但当然，base R 无法处理我看似庞大的数据。

如何使用 R 中的 spark 执行相同的操作，使用sparklyr包与 Spark 交互？

（我试图通过SparkR与 Spark 捆绑来完成所有这些操作；SparkR::spark.glm()这正是我需要的weightCol参数，但我无法使用此包使 Spark 工作，因为我无法将数据复制到 Spark；总是点击“错误：内存耗尽（达到限制？）”，即使我调整了 sparkConfig 参数）

r - Spark + R的加权线性回归

0 回答 0

Related

Reference