0

我们正在使用 spark ML 进行物流回归。在 spark 中执行 1GB 输入数据的代码时,当代码进入 Logistics Regression 时,它会创建大量阶段,并且每个阶段需要大约 2.8 GB 的输入,这导致总输入达到大约 700 GB。以下是调用逻辑回归 spark ml api 的示例代码:

var lRModel: LogisticRegressionModel = null

try {
    var logisticRegression = new LogisticRegression()

    //logisticRegression.setMaxIter(10)

     lRModel = logisticRegression.fit(logisticRegressionInputDF)
    } catch {
      case ex:Exception => {
        throw new ModellingUJTransformationException("Exception while fitting  logistic regression model on a LR input dataframe --"+ex.getMessage, ex)
      }
    }

另外,在那个阶段找到附加的 DAG:

在此处输入图像描述

在此处输入图像描述

4

0 回答 0