1

我需要提取几个文档的向量空间表示,然后计算它们之间的余弦距离。

我想使用该距离使用 k-Nearest-Neighbor 方法对一些新文档进行分类。

您对我可以使用的库有什么建议吗?

到目前为止,我看到 Weka 和 Apache Lucene 都应该支持向量空间模型,你认为哪一个最适合我的需求?

4

1 回答 1

1

Weka 和 Lucene 是两种不同的方法。

Weka 是用于机器学习的通用工具箱。如果您想构建一个灵活的机器学习系统,并且您有时间/精力,并且希望能够进行任何类型的更改,并且可以微调参数,并且规模不是问题,那么 Weka 是一个不错的选择.

Lucene 是专门用于文本的,如果你想有一个快速的解决方案,可以轻松处理文本、搜索类似文档和处理大量数据,你应该选择它。这并不意味着 Lucene 不如,当我们提到文本时恰恰相反。因此,为了轻松实现 kNN,我会选择 Lucene(祝你好运 - kNN 具有 N^2 复杂性)。

于 2013-12-23T11:03:28.023 回答