2

假设我们有一个由 sunspot/solr/lucene(或任何其他搜索引擎)索引的文章列表。

如何用于查找与给定文章相似的文章?

是否应该使用恢复工具来完成,例如: http ://www.wordsfinder.com/api_Keyword_Extractor.php 或http://developer.yahoo.com/yql/consolehttp://www.alchemyapi的 termextract .com/api/demo.html ?

4

2 回答 2

5

您似乎正在寻找MoreLikeThis功能。

于 2011-03-01T12:35:17.173 回答
1

您尝试做的与我在此答案中概述的任务非常相似。

简而言之,您需要为每个文档生成一个摘要,您可以将其用作查询以将其相互比较。文档摘要可以像该文档中的前 N ​​个术语一样简单(不包括停用词)。您可以很容易地从 Lucene 文档中生成前 N 个术语,而无需使用任何 3rd 方工具, SO网络上有很多示例可以做到这一点。

于 2011-03-01T11:20:13.680 回答