5

我正在寻找一种将覆盖 HTML 渲染到图像的 OCR 软件。我目前正在使用一些未命名的产品。它具有 OCR 功能,可以对带有图像的 PDF 文档进行内联 OCR。

内联 OCR 非常方便,它允许在带有图像的 PDF 文档中搜索文本。也可以直接在文档中突出显示文本,OCR 文本与底层图像对齐。不幸的是,我不能从未命名的产品中导出或存储内联 OCR。

是否有其他一些可以执行和导出内联 OCR 的软件?我对导出到由与底层图像对齐的定位段落组成的 HTML 尤其感兴趣。

另请参阅:
https ://stackoverflow.com/questions/11404805/ocr-and-the-location-of-the-image-where-the-scanned-document-came-from

4

2 回答 2

3

我发现 Google Drive API 在需要 OCR 时很有帮助。它试图保留当然可以导出为 HTML 的文档格式。

看看以下链接:

于 2013-06-26T18:46:17.127 回答
1

我有一个可能的解决方案给你。但是,这个特定的解决方案有一些缺点,可能会阻碍你的最终目标。

首先将图像文件转换为 pdf: http: //finereader.abbyyonline.com 然后将 pdf 转换为 html 在http://document.online-convert.com/convert-to-html

该解决方案适用于纸张大小的问题,最终结果是带有图像叠加层的 html,如果您想要的只是带有图像格式的 html,只需使图像完全透明即可。

于 2013-06-19T23:59:20.810 回答