4

对小型、轻量级的词袋搜索引擎有什么建议吗?

我有一组“文档”,每个基本上都是一小包任意单词。给定一个新文档,我需要获取“相似”文档的列表以及它们可能有多相似的权重。文件可能很小……最多几段。

  • 词干会很好,但不是非常需要。
  • 不需要词网的词扩展。
  • 首选开源或免费软件,因为这是一个原型,而不是一个完整的项目。
  • 首选unix/linux平台。

我会将它用作子组件,并希望只向它提供带有 ID 的文档,然后会搜索与我目前拥有的文档“相似”的文档。

4

4 回答 4

1

Whoosh是一个纯 Python(没有 C,没有外部数据库)索引器/搜索引擎。查看文档以获取更多信息。它确实支持词干。

我在一个 mediawiki 实例的 XML 转储上进行了尝试,它似乎工作得很好!

于 2009-09-21T23:30:50.893 回答
0

Solr狮身人面像。它们并不完全是轻量级的,但我不推荐任何更小的项目,如果项目成功并且需要增长,切换搜索引擎可能会很痛苦。

于 2009-09-21T23:12:41.380 回答
0

我认为Lucene是一种选择。它应该允许您构建一个自定义的词袋搜索引擎。

于 2009-09-21T23:13:57.690 回答
0

我想知道 MongoDB http://www.mongodb.org/display/DOCS/Home

似乎“全文搜索”可能是我所追求的......并且有额外的字段可供搜索可能会很方便。

于 2009-09-22T01:45:45.660 回答