algorithm - 从复杂文档进行 OCR 扫描

Question

我需要创建一个工具，该工具将使用高质量的相机来扫描文档中的特定文本块并对其进行 OCR。每个文档都匹配相同的模板，其中包含几个填满数据的表格。我需要从每个扫描文档的一个特定单元格中提取数据。

我需要考虑图像的旋转和微小变换。整个工作流程应如下所示：

文档“显示”到相机。软件制作文件的图片。
软件会考虑一些较小的旋转和其他转换（由于文档被握在手中，可能会发生较小的剪切、缩放、旋转）。
软件识别正在显示的正确模板文档并从特定单元格中提取图像。
然后对图像进行 OCR 处理。

基本上，我不需要最终的解决方案，而是需要一些关于从哪里开始寻找的方向。我知道如何对纯文本进行 OCRing，但我不知道如何实现第 2 步和第 3 步。

提前致谢。

score 0 · Accepted Answer

基本上，纯文本的 OCR，尤其是对于非常好的扫描图像，是一项很好解决的任务。您所描述的更进一步 - 图像预处理和具有数据捕获的字段级识别。据我所知，开源引擎（甚至被认为是其中最好的 tesseract）不提供这样的功能。

同时，专有的 OCR 引擎多年来一直在解决您描述的任务（花费大量人力资源）并且进展非常顺利。所以如果你正在计划一个商业软件，我建议你看看http://ocrsdk.com，它是一个带有 web API 的云 OCR SDK。它允许您上传图像并将 OCRed 数据发回给您。它已经内置了所有可能的图像预处理算法，因此您不必担心第 2 步。至于第 3 步 - 您可能需要参考其文档的这一部分。我是开发此服务前端的团队的一员，所以我可以多说一点。希望能帮助到你！

algorithm - 从复杂文档进行 OCR 扫描

1 回答 1

Related

Reference