假设我们有一个由 sunspot/solr/lucene(或任何其他搜索引擎)索引的文章列表。
如何用于查找与给定文章相似的文章?
是否应该使用恢复工具来完成,例如: http ://www.wordsfinder.com/api_Keyword_Extractor.php 或http://developer.yahoo.com/yql/console或http://www.alchemyapi的 termextract .com/api/demo.html ?
假设我们有一个由 sunspot/solr/lucene(或任何其他搜索引擎)索引的文章列表。
如何用于查找与给定文章相似的文章?
是否应该使用恢复工具来完成,例如: http ://www.wordsfinder.com/api_Keyword_Extractor.php 或http://developer.yahoo.com/yql/console或http://www.alchemyapi的 termextract .com/api/demo.html ?
您似乎正在寻找MoreLikeThis功能。
您尝试做的与我在此答案中概述的任务非常相似。
简而言之,您需要为每个文档生成一个摘要,您可以将其用作查询以将其相互比较。文档摘要可以像该文档中的前 N 个术语一样简单(不包括停用词)。您可以很容易地从 Lucene 文档中生成前 N 个术语,而无需使用任何 3rd 方工具, SO和网络上有很多示例可以做到这一点。