我们正在使用 spark ML 进行物流回归。在 spark 中执行 1GB 输入数据的代码时,当代码进入 Logistics Regression 时,它会创建大量阶段,并且每个阶段需要大约 2.8 GB 的输入,这导致总输入达到大约 700 GB。以下是调用逻辑回归 spark ml api 的示例代码:
var lRModel: LogisticRegressionModel = null
try {
var logisticRegression = new LogisticRegression()
//logisticRegression.setMaxIter(10)
lRModel = logisticRegression.fit(logisticRegressionInputDF)
} catch {
case ex:Exception => {
throw new ModellingUJTransformationException("Exception while fitting logistic regression model on a LR input dataframe --"+ex.getMessage, ex)
}
}
另外,在那个阶段找到附加的 DAG: