我正在尝试使用 Spark 的 MLLib 构建一个 NaiveBayes 分类器,该分类器将一组文档作为输入。
我想把一些东西作为特征(即作者、显式标签、隐式关键字、类别),但查看文档似乎 aLabeledPoint
只包含双精度,即它看起来像LabeledPoint[Double, List[Pair[Double,Double]]
.
相反,我其余代码的输出将类似于LabeledPoint[Double, List[Pair[String,Double]]
.
我可以自己进行转换,但这似乎很奇怪。我应该如何使用 MLLib 来处理这个问题?
我相信答案在HashingTF
课堂上(即散列功能),但我不明白它是如何工作的,它似乎需要某种容量值,但我的关键字和主题列表实际上是无限的(或者更好的是,未知开始)。