在 1.6 版中,管道 api 获得了一组新功能来保存和加载管道阶段。在我训练了一个分类器并稍后再次加载它以重用它并节省计算再次建模的工作之后,我尝试将一个阶段保存到磁盘。
由于某种原因,当我保存模型时,该目录仅包含元数据目录。当我尝试再次加载它时,出现以下异常:
线程“主”java.lang.UnsupportedOperationException 中的异常:org.apache.spark.rdd.RDD$$anonfun$first$1.apply(RDD.scala:1330) 的空集合在 org.apache.spark.rdd.RDDOperationScope$ .withScope(RDDOperationScope.scala:150) 在 org.apache.spark.rdd.RDDOperationScope$.withScope(RDDOperationScope.scala:111) 在 org.apache.spark.rdd.RDD.withScope(RDD.scala:316) 在 org .apache.spark.rdd.RDD.first(RDD.scala:1327) 在 org.apache.spark.ml.util.DefaultParamsReader$.loadMetadata(ReadWrite.scala:284) 在 org.apache.spark.ml.tuning。 CrossValidator$SharedReadWrite$.load(CrossValidator.scala:287) at org.apache.spark.ml.tuning.CrossValidatorModel$CrossValidatorModelReader.load(CrossValidator.scala:393) at org.apache.spark.ml.tuning.CrossValidatorModel$CrossValidatorModelReader .load(CrossValidator.scala:384) at org.apache.spark.ml.util.MLReadable$class.load(ReadWrite.scala:176) at org.apache.spark.ml.tuning.CrossValidatorModel$.load(CrossValidator.scala:368) at org.test.categoryminer.spark.SparkTextClassifierModelCache.get(SparkTextClassifierModelCache.java:34) 上的 org.apache.spark.ml.tuning.CrossValidatorModel.load(CrossValidator.scala)
保存我使用的模型:crossValidatorModel.save("/tmp/my.model")
并加载它我使用:CrossValidatorModel.load("/tmp/my.model")
当我在 CrossValidator 对象上调用 fit(dataframe) 时,我在得到的 CrossValidatorModel 对象上调用 save 。
任何指针为什么它只保存元数据目录?