scala - 将 Spark Dataframe 输入到 DeepLearning4J 模型

Question

我的spark dataframe(df) 中有 24 个特征的数据，第 25 列是我的目标变量。我想dl4j在这个上拟合我的模型，它以ordataset的形式输入。如何将 my 转换为所需的类型？org.nd4j.linalg.api.ndarray.INDArray, org.nd4j.linalg.dataset.Datasetorg.nd4j.linalg.dataset.api.iterator.DataSetIteratordataframe

我也尝试过使用 Pipeline 方法将 spark 数据框直接输入到模型中。但是 dl4j-spark-ml 的 sbt 依赖项不起作用。我的 build.sbt 文件是：

scalaVersion := "2.11.8"

libraryDependencies += "org.deeplearning4j" %% "dl4j-spark-ml" % "0.8.0_spark_2-SNAPSHOT"

libraryDependencies += "org.deeplearning4j" % "deeplearning4j-core" % "0.8.0"

libraryDependencies += "org.nd4j" % "nd4j" % "0.8.0"

libraryDependencies += "org.nd4j" % "nd4j-native-platform" % "0.8.0"

libraryDependencies += "org.nd4j" % "nd4j-backends" % "0.8.0"

libraryDependencies += "org.apache.spark" %% "spark-core" % "2.0.1"

libraryDependencies += "org.apache.spark" %% "spark-sql" % "2.0.1"

有人可以从这里指导我吗？提前致谢。

score 0 · Accepted Answer

您可以使用已读取 spark.ml 集成的快照。如果要使用快照，请添加 oss sonatype 存储库： https ://github.com/deeplearning4j/dl4j-examples/blob/master/dl4j-examples/pom.xml#L16 撰写本文时的版本为： 0.8.1-快照

请使用示例存储库验证最新版本： https ://github.com/deeplearning4j/dl4j-examples/blob/master/pom.xml#L21

您不能混合 dl4j 的版本。您尝试使用的版本非常过时（超过一年）。请升级到最新版本。

可以在这里找到新的 spark.ml 集成示例： https ://github.com/deeplearning4j/deeplearning4j/tree/master/deeplearning4j-scaleout/spark/dl4j-spark-ml/src/test/java/org/deeplearning4j/火花/ml/impl

确保添加正确的依赖项，通常类似于 org.deeplearning4j:dl4j-spark-ml_${YOUR SCALA BINARY VERSION}:0.8.1_spark_${YOUR SPARK VERSION (1 or 2}-SNAPSHOT

scala - 将 Spark Dataframe 输入到 DeepLearning4J 模型

1 回答 1

Related

Reference