0

我需要关于 tesseract 的建议。我曾尝试使用 Tesseract,但结果并不完美。很多信息都丢失了。我想扫描法国车辆的注册证书,我必须将数据恢复到数据库中。您可以在文件下方找到,这是一份法国注册证书。是否可以检测本文档中的每个区域并将此信息保存在数据库中?我在互联网上阅读过,仅使用 Tesseract 无法检测区域?

例如,您有区域 A、B、C.1、D.2.1。如何检测/扫描每个区域并将此信息插入数据库?

示例: https ://www.ecartegrise.fr/wp-content/uploads/2013/03/nouvelle-carte-grise-specimen.jpg

我想这样做:http: //www.adoc-solutions.eu/images/Documentations/cartes-grises.png

如何恢复每个区域文本并将其插入数据库?

谢谢你的帮助

尼古拉斯

4

2 回答 2

0

我一直致力于从 PDF 中提取表格和表单数据。我认为解决您的问题的方法是首先检测所有写入文本的区域,然后创建到列的映射。

如果注册表单本质上是静态的,则意味着如果特定字段的文本区域是固定的,那么您可以创建一个特定于您的问题的模板,然后从这些定义的坐标裁剪图像,然后尝试应用 tesseract。

Tesseract 并非 100% 正确,因此为了提高准确性,您可以在数据上对其进行训练。

于 2017-03-25T16:08:30.093 回答
0

我实际上正在从事与您类似的项目,这是我对 OCR 技术的建议吗?光学字符识别 由于 OCR,有一些 OCR 工具能够从 pdf 表单或图像中提取数据,这是我推荐的 OCR 工具列表:-Convertio -PDFMiner:PDF2txt-PDF2Word -Tabula:从表 -Abby FineReader 14 -DataWatch

如果您有任何补充信息,请分享

于 2017-02-24T13:46:07.860 回答