scala - 尝试为 apache spark 编译示例 tfidf 代码时未找到 HashingTF

Question

import org.apache.spark.rdd.RDD
import org.apache.spark.SparkContext
import org.apache.spark.mllib.feature.HashingTF
import org.apache.spark.mllib.linalg.Vector

val sc: SparkContext = ...

// Load documents (one per line).
val documents: RDD[Seq[String]] = sc.textFile("...").map(_.split(" ").toSeq)

val hashingTF = new HashingTF()
val tf: RDD[Vector] = hashingTF.transform(documents)

在尝试编译上述代码片段时，我收到以下错误

[error] /siva/test/src/main/scala/com/chimpler/sparknaivebayesreuters/Tokenizer.scala:10: object feature is not a member of package org.apache.spark.mllib
[error] import org.apache.spark.mllib.feature.HashingTF
[error]                               ^
[error] /siva/test/src/main/scala/com/chimpler/sparknaivebayesreuters/Tokenizer.scala:36: not found: type HashingTF
[error] val hashingTF = new HashingTF()
[error]                     ^
[error] /siva/test/src/main/scala/com/chimpler/sparknaivebayesreuters/Tokenizer.scala:37: not found: value hasingTF
[error] val tf: RDD[Vector] = hasingTF.transform(documents)
[error]                       ^
[error] three errors found
[error] (compile:compile) Compilation failed
[error] Total time: 14 s, completed 3 Nov, 2014 1:57:31 PM

我在 build.sbt 文件中添加了以下几行。

   libraryDependencies ++= Seq(
  "org.apache.spark" %% "spark-core"              % "1.0.2" % "provided",
  "org.apache.spark" %% "spark-mllib"             % "1.0.2" % "provided")
//  "org.apache.spark" %% "spark-streaming"         % "1.0.0" % "provided")

任何指针？

score 1 · Accepted Answer

我使用了错误版本的 mllib 。将 libraryDependencies 修改为 spark-mllib 1.1.0 修复了它。

scala - 尝试为 apache spark 编译示例 tfidf 代码时未找到 HashingTF

1 回答 1

Related

Reference