java - Spark ML Pipeline api保存不起作用

Question

在 1.6 版中，管道 api 获得了一组新功能来保存和加载管道阶段。在我训练了一个分类器并稍后再次加载它以重用它并节省计算再次建模的工作之后，我尝试将一个阶段保存到磁盘。

由于某种原因，当我保存模型时，该目录仅包含元数据目录。当我尝试再次加载它时，出现以下异常：

线程“主”java.lang.UnsupportedOperationException 中的异常：org.apache.spark.rdd.RDD$$anonfun$first$1.apply(RDD.scala:1330) 的空集合在 org.apache.spark.rdd.RDDOperationScope$ .withScope(RDDOperationScope.scala:150) 在 org.apache.spark.rdd.RDDOperationScope$.withScope(RDDOperationScope.scala:111) 在 org.apache.spark.rdd.RDD.withScope(RDD.scala:316) 在 org .apache.spark.rdd.RDD.first(RDD.scala:1327) 在 org.apache.spark.ml.util.DefaultParamsReader$.loadMetadata(ReadWrite.scala:284) 在 org.apache.spark.ml.tuning。 CrossValidator$SharedReadWrite$.load(CrossValidator.scala:287) at org.apache.spark.ml.tuning.CrossValidatorModel$CrossValidatorModelReader.load(CrossValidator.scala:393) at org.apache.spark.ml.tuning.CrossValidatorModel$CrossValidatorModelReader .load(CrossValidator.scala:384) at org.apache.spark.ml.util.MLReadable$class.load(ReadWrite.scala:176) at org.apache.spark.ml.tuning.CrossValidatorModel$.load(CrossValidator.scala:368) at org.test.categoryminer.spark.SparkTextClassifierModelCache.get(SparkTextClassifierModelCache.java:34) 上的 org.apache.spark.ml.tuning.CrossValidatorModel.load(CrossValidator.scala)

保存我使用的模型：crossValidatorModel.save("/tmp/my.model")

并加载它我使用：CrossValidatorModel.load("/tmp/my.model")

当我在 CrossValidator 对象上调用 fit(dataframe) 时，我在得到的 CrossValidatorModel 对象上调用 save 。

任何指针为什么它只保存元数据目录？

score 2 · Accepted Answer

这肯定不会直接回答你的问题，但我个人并没有测试 1.6.0 中的新功能。

我正在使用专用功能来保存模型。

  def saveCrossValidatorModel(model:CrossValidatorModel, path:String)
  {
    try {
          val fileOut:FileOutputStream  = new FileOutputStream(path)
          val out:ObjectOutputStream  = new ObjectOutputStream(fileOut)
          out.writeObject(model)
          out.close()
          fileOut.close()
      } catch {
        case foe:FileNotFoundException =>
          foe.printStackTrace()
        case ioe:IOException =>
          ioe.printStackTrace()
      }
  }

然后你可以用类似的方式阅读你的模型：

  def loadCrossValidatorModel(path:String): CrossValidatorModel =
  {
    try {
      val fileIn:FileInputStream = new FileInputStream(path)
      val in:ObjectInputStream  = new ObjectInputStream(fileIn)
      val cvModel = in.readObject().asInstanceOf[CrossValidatorModel]
      in.close()
      fileIn.close()
      cvModel
    } catch {
        case foe:FileNotFoundException =>
          foe.printStackTrace()
        case ioe:IOException =>
          ioe.printStackTrace()
      }
  }

java - Spark ML Pipeline api保存不起作用

1 回答 1

Related

Reference