0

我有被扫描的 pdf,无法转换为文本,甚至无法在文本编辑器中复制和粘贴为文本。

有没有办法以编程方式或手动将此类扫描的 PDF 文件转换为 TEXT 格式?

谢谢

4

2 回答 2

2

由于文档已被扫描,您可能只有一张图像可供使用。您可能对光学字符识别(或 OCR)有一些运气。此方法允许您从图像中提取文本数据。

Tesseract是一种流行的引擎,我在我的项目中使用它取得了很大的成功。你可以考虑看看。

于 2013-10-01T03:46:02.237 回答
0

如果您愿意手动转换文本并且它不是 100,000 行,那么您始终可以自己键入所有数据,或者如果您能找到帮助完成一项繁琐的任务,也可以与队友一起键入。您可以使用许多出色的 OCR 软件工具来完成这项工作。他们真的走了很长一段路。

如果您想以编程方式执行此操作,请查看以前在 ProPublica 的 Dan Nguyen 提供的本指南。

http://www.propublica.org/nerds/item/doc-dollars-guides-collecting-the-data

他通过医生办公室扫描文件的 PDF 介绍了他们是如何做到的。他使用 Ruby on Rails 并提供代码示例,您可以看到他如何提取数据: http: //www.propublica.org/nerds/item/turning-pdfs-to-text-doc-dollars-guide

我相信一些 ProPublica 的代码可以在 github 上找到,所以你可能想在那里分叉他们的代码。

于 2013-10-01T03:46:26.263 回答