我需要提取几个文档的向量空间表示,然后计算它们之间的余弦距离。
我想使用该距离使用 k-Nearest-Neighbor 方法对一些新文档进行分类。
您对我可以使用的库有什么建议吗?
到目前为止,我看到 Weka 和 Apache Lucene 都应该支持向量空间模型,你认为哪一个最适合我的需求?
我需要提取几个文档的向量空间表示,然后计算它们之间的余弦距离。
我想使用该距离使用 k-Nearest-Neighbor 方法对一些新文档进行分类。
您对我可以使用的库有什么建议吗?
到目前为止,我看到 Weka 和 Apache Lucene 都应该支持向量空间模型,你认为哪一个最适合我的需求?