我有一系列 tiff、jpeg 和 pdf 格式的图像文件。
许多已被转录,并检查了转录的准确性。
我想创建 pdf,想知道是否有办法对图像进行 OCR 并纠正已验证的转录或在 OCR 过程中“插入”已验证的转录?
我可以访问 Omnipage、Abbyy Finereader 和 Tesseract,但我不知道我想做的事是否可行。
杰克。感谢您的澄清。
简而言之,转录的数据对您可以轻松运行的任何 OCR 过程几乎没有好处,除了高度定制的定制开发应用程序,它将在您的特定位置从 OCRed 文本中进行逐字模糊查找转录数据。在该自定义应用程序中,您将使用常规 OCR(您命名的任何一个),但最好使用某种 OCR 为您提供已处理文本的坐标(OCR-ITAPI 导出到 XML),或某种 SDK,使您可以基于对象访问文本。然后,作为后处理的一部分,您的应用程序可以参考转录的数据,假设您有一种方法可以随时确定您在转录数据中的位置,或者至少执行全文搜索并能够识别正确的实例以防多个找到实例。您的转录数据可能没有坐标将文本链接回文本来源的原始图像。如果找到类似的数据,并且存在字符差异,您的应用程序可以获取转录的数据并用它替换(即正确的)OCR 数据。这很可能不适用于手写文本,因为常规 OCR 会从中产生噪音,甚至不足以进行模糊查找。完成所有数据替换后,
整个过程很复杂,在某些情况下可能会发生意外,尤其是在手写文本方面。如果您有大量这些图像+数据,那么花费数天(如果不是数周)来开发这种专门的应用程序来处理所有这些数据可能是值得的。需要进行成本分析。
除了手写之外,如果您的图像质量很高,现代顶级 OCR(ABBYY、Nuance、OCR-IT)应该会产生高质量的文本。使用图像下的 PDF 文本,读者将看不到任何 OCR 错误。我会说开箱即用的 95-99% 准确率的期望是现实的。这种开箱即用的选项可以为您提供足够高的准确性,而时间或费用很少。
您的转录数据可以提供一个好处,尤其是数据包含在普通英语词典中可能找不到的专业或行业特定单词或专有名称(ABBYY 和其他 OCR 软件已经包含)。通过使用转录数据制作自定义词典,ABBYY OCR 可以使用该词典通过开箱即用处理进一步提高对这些特殊单词的识别。
伊利亚·叶夫多基莫夫