我正在寻找一种将覆盖 HTML 渲染到图像的 OCR 软件。我目前正在使用一些未命名的产品。它具有 OCR 功能,可以对带有图像的 PDF 文档进行内联 OCR。
内联 OCR 非常方便,它允许在带有图像的 PDF 文档中搜索文本。也可以直接在文档中突出显示文本,OCR 文本与底层图像对齐。不幸的是,我不能从未命名的产品中导出或存储内联 OCR。
是否有其他一些可以执行和导出内联 OCR 的软件?我对导出到由与底层图像对齐的定位段落组成的 HTML 尤其感兴趣。
我正在寻找一种将覆盖 HTML 渲染到图像的 OCR 软件。我目前正在使用一些未命名的产品。它具有 OCR 功能,可以对带有图像的 PDF 文档进行内联 OCR。
内联 OCR 非常方便,它允许在带有图像的 PDF 文档中搜索文本。也可以直接在文档中突出显示文本,OCR 文本与底层图像对齐。不幸的是,我不能从未命名的产品中导出或存储内联 OCR。
是否有其他一些可以执行和导出内联 OCR 的软件?我对导出到由与底层图像对齐的定位段落组成的 HTML 尤其感兴趣。
我发现 Google Drive API 在需要 OCR 时很有帮助。它试图保留当然可以导出为 HTML 的文档格式。
看看以下链接:
我有一个可能的解决方案给你。但是,这个特定的解决方案有一些缺点,可能会阻碍你的最终目标。
首先将图像文件转换为 pdf: http: //finereader.abbyyonline.com 然后将 pdf 转换为 html 在http://document.online-convert.com/convert-to-html
该解决方案适用于纸张大小的问题,最终结果是带有图像叠加层的 html,如果您想要的只是带有图像格式的 html,只需使图像完全透明即可。