ruby-on-rails - 从 Rails 应用程序（Word、PDF、Excel 等）搜索附件

Question

我在 Stack Overflow 上的第一篇文章，所以请温柔一点！我即将为客户启动一个新的 Ruby on Rails (3.1) 项目。他们的要求之一是有一个搜索引擎，它将索引大约 2,000 个文档，这些文档是 PDF、Word、Excel 和 HTML 的混合体。

Texticle 需要 PostgreSQL。我在 MySQL 上。
thinking-sphinx 不在文件系统上索引文件。
即使我将附件保存到数据库中，thinking-sphinx 仍然无法工作，因为它需要纯文本（根据http://groups.google.com/group/thinking-sphinx/browse_thread/thread/69cdc1c8e1c096ff）

所以我有两个选择：

您推荐哪种方法？

如果是不同的搜索工具，是哪一个？我的要求非常基本，所以我真的很想要一个很容易设置并且有很多文档、示例和教程的！

如果是提取，您能否推荐用于常见文件类型（如 PDF、Word、Excel 和 HTML）的提取器？

感谢大家。非常感谢您的帮助。

score 2 · Accepted Answer

好吧，我以前没有做过二进制文件索引，但显然 Solr 支持它，请参阅Indexing files with SPHINX/ultrasphinx和 http://wiki.apache.org/solr/ExtractingRequestHandler Solr 有很多可用的 gem，Sunspot 似乎成为一个受欢迎的http://outoftime.github.com/sunspot/虽然 Sunspot 似乎没有内置对 Solr Cells 的支持，但似乎还有一些工作要做https://github.com/tomasc/ sunspot_cell可能有更好的选择，但这应该给你一个很好的起点。

score 1 · Accepted Answer

只是为了更新这个。我决定采用的方法是：

尝试将附件的纯文本版本提取到数据库中供thinking-sphinx阅读

具体来说，我将执行以下操作：

看起来就像打电话一样简单，java -jar tika-app-0.10.jar -t [file]但如果结果更复杂，我会发布我的经验！

2 回答 2