我的目标是建立一个新闻提要和博客提要的聚合器,以便轻松搜索/跟踪其中的实体。我一直在寻找许多解决方案,例如 Terrier、Lucene、SWISH-E 等。
基本上,我只能找到对这些引擎进行的 2 个比较研究来源,其中一个已经过时了。基本上我想要一个搜索引擎,它可以用于数据量不是太大但索引会很频繁的情况,每 30 分钟左右一次。我觉得在这种情况下,Terrier 不是一个好工具。当数据量大且更新频率低时效果更好。在信息检索领域工作过的人可以提供一些建议吗?
我的目标是建立一个新闻提要和博客提要的聚合器,以便轻松搜索/跟踪其中的实体。我一直在寻找许多解决方案,例如 Terrier、Lucene、SWISH-E 等。
基本上,我只能找到对这些引擎进行的 2 个比较研究来源,其中一个已经过时了。基本上我想要一个搜索引擎,它可以用于数据量不是太大但索引会很频繁的情况,每 30 分钟左右一次。我觉得在这种情况下,Terrier 不是一个好工具。当数据量大且更新频率低时效果更好。在信息检索领域工作过的人可以提供一些建议吗?
Lucene 广为人知并受到支持,因此就个人而言,这将是我的首选。
如果您找到一个现成的搜索引擎,请查看 fastcatsearch。
它已被开发用于商业搜索,并应用于许多不同的站点。
比 lucene 更快,并且有基于 web 的 web manager 可以轻松使用。
托管在 github 中,并检查一下。https://github.com/fastcatgroup/fastcatsearch