寻找一种将 PDF(仅包含文本)解析为纯文本的方法。我看到以前有人问过使用 Ruby 进行 PDF 解析,但答案已经有好几年了,不适合 rails 应用程序。
有没有可以帮助解决这个问题的宝石?
寻找一种将 PDF(仅包含文本)解析为纯文本的方法。我看到以前有人问过使用 Ruby 进行 PDF 解析,但答案已经有好几年了,不适合 rails 应用程序。
有没有可以帮助解决这个问题的宝石?
这就是docsplit gem的全部意义所在。使用示例:
pdfs = Dir['storage/originals/*.pdf']
Docsplit.extract_text(pdfs, :ocr => false)
这个宝石的好处是它可以转换.doc
或.odt
等等......来获取文本。
此外,它还得到了一家非常专业的公司的支持:http: //www.documentcloud.org/
这个好像挺有名的。我没有尝试过,但它似乎相关。