4

我在 Stack Overflow 上的第一篇文章,所以请温柔一点!我即将为客户启动一个新的 Ruby on Rails (3.1) 项目。他们的要求之一是有一个搜索引擎,它将索引大约 2,000 个文档,这些文档是 PDF、Word、Excel 和 HTML 的混合体。

我曾希望使用thinking-sphinx 或Texticle(在https://www.ruby-toolbox.com/categories/rails_search.html上最受欢迎),但据我了解:

所以我有两个选择:

  1. 选择不同的搜索工具
  2. 尝试将附件的纯文本版本提取到数据库中供thinking-sphinx阅读

您推荐哪种方法?

如果是不同的搜索工具,是哪一个?我的要求非常基本,所以我真的很想要一个很容易设置并且有很多文档、示例和教程的!

如果是提取,您能否推荐用于常见文件类型(如 PDF、Word、Excel 和 HTML)的提取器?

感谢大家。非常感谢您的帮助。

4

2 回答 2

2

好吧,我以前没有做过二进制文件索引,但显然 Solr 支持它,请参阅Indexing files with SPHINX/ultrasphinxhttp://wiki.apache.org/solr/ExtractingRequestHandler Solr 有很多可用的 gem,Sunspot 似乎成为一个受欢迎的http://outoftime.github.com/sunspot/虽然 Sunspot 似乎没有内置对 Solr Cells 的支持,但似乎还有一些工作要做https://github.com/tomasc/ sunspot_cell可能有更好的选择,但这应该给你一个很好的起点。

于 2011-10-13T10:07:07.030 回答
1

只是为了更新这个。我决定采用的方法是:

尝试将附件的纯文本版本提取到数据库中供thinking-sphinx阅读

具体来说,我将执行以下操作:

看起来就像打电话一样简单,java -jar tika-app-0.10.jar -t [file]但如果结果更复杂,我会发布我的经验!

于 2011-10-16T09:24:11.447 回答