1

寻找一种将 PDF(仅包含文本)解析为纯文本的方法。我看到以前有人问过使用 Ruby 进行 PDF 解析,但答案已经有好几年了,不适合 rails 应用程序。

有没有可以帮助解决这个问题的宝石?

4

2 回答 2

2

这就是docsplit gem的全部意义所在。使用示例:

pdfs = Dir['storage/originals/*.pdf']
Docsplit.extract_text(pdfs, :ocr => false)

这个宝石的好处是它可以转换.doc.odt等等......来获取文本。

此外,它还得到了一家非常专业的公司的支持:http: //www.documentcloud.org/

于 2013-10-29T12:56:03.737 回答
0

这个好像挺有名的。我没有尝试过,但它似乎相关。

于 2013-10-29T12:55:29.267 回答