python - 检测图像中文本的字体

翻译自：https://stackoverflow.com/questions/51570207 2018-07-28T09:59:59.317

1845 次

我想检测图像中文本的字体，以便我可以对其进行更好的 OCR。寻找解决方案我找到了这篇文章。虽然它可能看起来与我的问题相同，但它并不能完全解决我的问题。

背景

对于 OCR，我使用的是 tesseract，它使用经过训练的数据来识别文本。使用大量字体训练 tesseract 会降低自然且易于理解的准确性。一种解决方案是构建多个经过训练的数据——每几个相似的字体一个——然后自动为每个图像使用适当的数据。为此，我们需要能够检测图像中的字体。

此答案中的数字 3使用 OCR 将字符的图像与其识别的字符一起隔离，然后为每种字体生成相同的字符图像，并将它们与孤立的图像进行比较。在我的情况下，用户应该提供一个边界框和与之关联的字符。但是因为我想要 OCR 阿拉伯文脚本（草书和字符形状可能会因与之相邻的其他字符而异）并且因为边界框实际上可能不是最小的边界框，所以我不确定我该怎么做比较。

我相信豪斯多夫距离在这里不适用。我对吗？

形状上下文可能很好（？）并且opencv中有一个shapeContextDistanceExtractor类，但我不确定如何在opencv-python中使用它

谢谢你英语不好

python - 检测图像中文本的字体

0 回答 0

Related

Reference