我写了这样的代码:
val hashingTF = new HashingTF()
val tfv: RDD[Vector] = sparkContext.parallelize(articlesList.map { t => hashingTF.transform(t.words) })
tfv.cache()
val idf = new IDF().fit(tfv)
val rate: RDD[Vector] = idf.transform(tfv)
如何从每个文章列表项的“率”RDD 中获取前 5 个关键字?
添加:
文章列表包含对象:
case class ArticleInfo (val url: String, val author: String, val date: String, val keyWords: List[String], val words: List[String])
words 包含文章中的所有单词。
我不了解速率的结构,在文档中说:
@return an RDD of TF-IDF vectors