我在 Stack Overflow 上的第一篇文章,所以请温柔一点!我即将为客户启动一个新的 Ruby on Rails (3.1) 项目。他们的要求之一是有一个搜索引擎,它将索引大约 2,000 个文档,这些文档是 PDF、Word、Excel 和 HTML 的混合体。
我曾希望使用thinking-sphinx 或Texticle(在https://www.ruby-toolbox.com/categories/rails_search.html上最受欢迎),但据我了解:
- Texticle 需要 PostgreSQL。我在 MySQL 上。
- thinking-sphinx 不在文件系统上索引文件。
- 即使我将附件保存到数据库中,thinking-sphinx 仍然无法工作,因为它需要纯文本(根据http://groups.google.com/group/thinking-sphinx/browse_thread/thread/69cdc1c8e1c096ff)
所以我有两个选择:
- 选择不同的搜索工具
- 尝试将附件的纯文本版本提取到数据库中供thinking-sphinx阅读
您推荐哪种方法?
如果是不同的搜索工具,是哪一个?我的要求非常基本,所以我真的很想要一个很容易设置并且有很多文档、示例和教程的!
如果是提取,您能否推荐用于常见文件类型(如 PDF、Word、Excel 和 HTML)的提取器?
感谢大家。非常感谢您的帮助。