对小型、轻量级的词袋搜索引擎有什么建议吗?
我有一组“文档”,每个基本上都是一小包任意单词。给定一个新文档,我需要获取“相似”文档的列表以及它们可能有多相似的权重。文件可能很小……最多几段。
- 词干会很好,但不是非常需要。
- 不需要词网的词扩展。
- 首选开源或免费软件,因为这是一个原型,而不是一个完整的项目。
- 首选unix/linux平台。
我会将它用作子组件,并希望只向它提供带有 ID 的文档,然后会搜索与我目前拥有的文档“相似”的文档。
对小型、轻量级的词袋搜索引擎有什么建议吗?
我有一组“文档”,每个基本上都是一小包任意单词。给定一个新文档,我需要获取“相似”文档的列表以及它们可能有多相似的权重。文件可能很小……最多几段。
我会将它用作子组件,并希望只向它提供带有 ID 的文档,然后会搜索与我目前拥有的文档“相似”的文档。
我认为Lucene是一种选择。它应该允许您构建一个自定义的词袋搜索引擎。
我想知道 MongoDB http://www.mongodb.org/display/DOCS/Home
似乎“全文搜索”可能是我所追求的......并且有额外的字段可供搜索可能会很方便。