ruby-on-rails - 使用 ROR 解析 PDF 文档

Question

寻找一种将 PDF（仅包含文本）解析为纯文本的方法。我看到以前有人问过使用 Ruby 进行 PDF 解析，但答案已经有好几年了，不适合 rails 应用程序。

有没有可以帮助解决这个问题的宝石？

score 2 · Accepted Answer

这就是docsplit gem的全部意义所在。使用示例：

pdfs = Dir['storage/originals/*.pdf']
Docsplit.extract_text(pdfs, :ocr => false)

这个宝石的好处是它可以转换.doc或.odt等等......来获取文本。

此外，它还得到了一家非常专业的公司的支持：http: //www.documentcloud.org/

score 0 · Accepted Answer

0

这个好像挺有名的。我没有尝试过，但它似乎相关。

于 2013-10-29T12:55:29.267 回答

2 回答 2