pdftotext - 从扫描的 pdf 中读取数据

Question

我有被扫描的 pdf，无法转换为文本，甚至无法在文本编辑器中复制和粘贴为文本。

有没有办法以编程方式或手动将此类扫描的 PDF 文件转换为 TEXT 格式？

谢谢

score 2 · Accepted Answer

由于文档已被扫描，您可能只有一张图像可供使用。您可能对光学字符识别（或 OCR）有一些运气。此方法允许您从图像中提取文本数据。

Tesseract是一种流行的引擎，我在我的项目中使用它取得了很大的成功。你可以考虑看看。

score 0 · Accepted Answer

如果您愿意手动转换文本并且它不是 100,000 行，那么您始终可以自己键入所有数据，或者如果您能找到帮助完成一项繁琐的任务，也可以与队友一起键入。您可以使用许多出色的 OCR 软件工具来完成这项工作。他们真的走了很长一段路。

如果您想以编程方式执行此操作，请查看以前在 ProPublica 的 Dan Nguyen 提供的本指南。

他通过医生办公室扫描文件的 PDF 介绍了他们是如何做到的。他使用 Ruby on Rails 并提供代码示例，您可以看到他如何提取数据： http: //www.propublica.org/nerds/item/turning-pdfs-to-text-doc-dollars-guide

我相信一些 ProPublica 的代码可以在 github 上找到，所以你可能想在那里分叉他们的代码。

2 回答 2