containers - 使用 OCR 以键值格式从护照图像中提取数据

Question

我的目标是使用基于 OCR 服务器的解决方案以键值格式从护照图像中提取数据，以便数据保留在本地。我尝试了 Azure 表单识别器容器（认知服务表单识别器 API V1 预览版）。但是结果并不令人满意，因为从训练数据创建的模型无法提取任何键值对。我尝试了各种训练样本数据，也参考了https://docs.microsoft.com/en-us/azure/cognitive-services/form-recognizer/build-training-data-set但没有用

您能否指导我如何以所需格式提取数据？

或者是否有任何人知道服务器产品、库或解决方案商业或开源甚至是.Net 中的任何其他方法，这可以帮助以下方面；

非常感谢任何帮助，谢谢

score 0 · Accepted Answer

你可以考虑这个：

收集足够的样本护照数据，比如 30 张图像，它们代表您将要处理的文件。
决定了要提取的字段，使用表单识别器的标签工具来标记 <key, value> 对，建议先标记 5-10 个文件。训练模型
使用一些测试图像来测试模型
分析低准确率的 <key, value> 对并添加更多训练文件。重复 3) 和 4) 直到你得到足够好的结果。

-xin（MS 表单识别器团队）

containers - 使用 OCR 以键值格式从护照图像中提取数据

1 回答 1

Related

Reference