我最近遇到了 PaddleOCR,我想知道这个 OCR 系统与 Tesseract 相比如何。是否有可用的数据或基准?
问问题
1390 次
2 回答
1
我发现了PaddleOCR 2 和 Tesseract 4之间的比较,但仅适用于英文文本。简要总结:
- PaddleOCR 在 CPU 上比 Tesseract 稍慢,但在 GPU 支持下,它在标准 GPU 上比 Tesseract 快 46%。
- 如果没有后处理,PaddleOCR 主要会在单词和标点符号之间缺少空格而出错。但是,这些错误可以很容易地纠正。后处理后的准确性与 Tesseract 相当(少 1%)。
- 英语的预训练模型只有 Tesseracts 英语训练数据文件大小的 10%(2MB vs 23MB)。
对于目前似乎是 PaddleOCR 主要优先考虑的中文文本,情况可能会有所不同。
于 2021-06-16T17:34:06.683 回答
0
我用它们测试了英语和日语,但有趣的是,PaddleOCR 似乎比 Tesseract 更能识别它们。PaddleOCR 的文本检测似乎也更好。然而,根据他们的帖子,PaddleOCR 不能很好地处理空格,并且有来自非中国(或日本)用户的投诉。PaddleOCR 非常渴望整合作为研究论文发表的最新识别/检测算法,为此我决定使用 PaddleOCR。
于 2021-07-12T21:28:24.077 回答