2

我需要处理一个数据库,以便将 td-idf 权重等元信息添加到文档术语中。

接下来,我需要创建具有相似性度量的文档对,例如 td-idf 余弦相似性等...

我打算使用 Apache Lucene 来完成这项任务。我实际上对检索或运行查询不感兴趣,而是对数据进行索引并详细说明它们以生成具有上述文档对和相似性分数的输出文件。下一步是将这些结果传递给 Weka 分类器。

我可以用 Lucene 轻松做到吗?谢谢

4

1 回答 1

1

尝试将 Apache Mahout 与 Apache Lucene 和 Solr 集成。用“Weka”替换“Mahout”的地方。祝你好运。

于 2011-02-23T10:49:34.110 回答