tesseract - 学习已从 PDF 转换的 tiff 文档时出现 Ephesoft 错误

Question

我在 AWS 实例上的 Windows Server 2003 上使用 Ephesoft 社区版。我在读取某些 tiff 文档时遇到问题。我有大约 100 个不同的 tiff 文件，其中大约 70% 有效。这些 tiff 文档最初是我们使用最新版本的 ghostscript 转换并使用 ephesoft 的 imagemagick 清理的 PDF 文件。我们在 ghostscript 中使用以下命令

-dNOPAUSE -r300 -sDEVICE=tiffg4 -dBATCH

使用 imagemagick 我们正在执行以下命令

-压缩组4

在学习其中一个不起作用的 tiff 文件时，我们在日志文件中收到以下错误

堆栈跟踪的下拉框链接

这是我们试图让 ephesoft 学习的 Tiff 文档之一

Tiff 文档的下拉框链接

我可以用 ghostscript、imagemagick 或任何其他软件来解决这个问题吗？还是我需要以某种方式修改 ephesoft？

score 1 · Accepted Answer

我通过做更多的研究找到了解决方案。

问题不涉及 Ghostscript 或 Imagmagick。它涉及 Tesseract 和创建 HOCR 文件。当 Tesseract 创建 hocr 文件时，它会将 Texas 的值解析为 Te>。Ephesoft 的社区版不能像那样处理特殊的 xml 字符，因此会抛出错误。

解决方案是设置将 <> 符号列入黑名单的 Tesseract 属性，以便 Tesseract 不会包含这些符号或解析这些符号。我的 PDF 现在似乎工作正常，我能够处理它们。

tesseract - 学习已从 PDF 转换的 tiff 文档时出现 Ephesoft 错误

1 回答 1

Related

Reference