python-2.7 - 如何使用 Tesseract 从车辆的认证卡中获取文本区域

Question

我需要关于 tesseract 的建议。我曾尝试使用 Tesseract，但结果并不完美。很多信息都丢失了。我想扫描法国车辆的注册证书，我必须将数据恢复到数据库中。您可以在文件下方找到，这是一份法国注册证书。是否可以检测本文档中的每个区域并将此信息保存在数据库中？我在互联网上阅读过，仅使用 Tesseract 无法检测区域？

例如，您有区域 A、B、C.1、D.2.1。如何检测/扫描每个区域并将此信息插入数据库？

示例： https ://www.ecartegrise.fr/wp-content/uploads/2013/03/nouvelle-carte-grise-specimen.jpg

我想这样做：http: //www.adoc-solutions.eu/images/Documentations/cartes-grises.png

如何恢复每个区域文本并将其插入数据库？

谢谢你的帮助

尼古拉斯

score 0 · Accepted Answer

我一直致力于从 PDF 中提取表格和表单数据。我认为解决您的问题的方法是首先检测所有写入文本的区域，然后创建到列的映射。

如果注册表单本质上是静态的，则意味着如果特定字段的文本区域是固定的，那么您可以创建一个特定于您的问题的模板，然后从这些定义的坐标裁剪图像，然后尝试应用 tesseract。

Tesseract 并非 100% 正确，因此为了提高准确性，您可以在数据上对其进行训练。

score 0 · Accepted Answer

我实际上正在从事与您类似的项目，这是我对 OCR 技术的建议吗？光学字符识别由于 OCR，有一些 OCR 工具能够从 pdf 表单或图像中提取数据，这是我推荐的 OCR 工具列表：-Convertio -PDFMiner：PDF2txt-PDF2Word -Tabula：从表 -Abby FineReader 14 -DataWatch

如果您有任何补充信息，请分享

python-2.7 - 如何使用 Tesseract 从车辆的认证卡中获取文本区域

2 回答 2

Related

Reference