我正在开发从图像中提取文本的程序。为此,我尝试使用Tessaract
和Ocropus
库,并且能够将简单的纯文本(带有简单字体的黑白)从图像转换为文本字符串。例如:
但我无法从复杂图像中提取文本。例如,从这张图片中说:
有谁知道如何实现这一目标?是否有任何库可用于从复杂图像中提取文本(具有不可预测的不同背景?我更喜欢 Python,但语言不是一个酒吧。
我正在开发从图像中提取文本的程序。为此,我尝试使用Tessaract
和Ocropus
库,并且能够将简单的纯文本(带有简单字体的黑白)从图像转换为文本字符串。例如:
但我无法从复杂图像中提取文本。例如,从这张图片中说:
有谁知道如何实现这一目标?是否有任何库可用于从复杂图像中提取文本(具有不可预测的不同背景?我更喜欢 Python,但语言不是一个酒吧。
所有这些单词识别工作是如何通过机器学习算法输入大量图像和已经解释的相应文本的。它学会理解来自不同字体和外观的字母。
但是,徽标是用非常特定的字体制作的。几乎没有两个标志使用相似的标志。这使得创建学习数据来识别所写内容变得非常困难,如果不是不可能的话。
这可以训练算法在它看到的任何地方识别 Sprite 商标。为此,您需要使用 OpenCV 并在不同质量的 Sprite 徽标、商店、瓶子上的 Sprite 徽标图片等上对其进行训练。这样,它将能够看到这个特定的徽标(您还需要一个非 Sprite 徽标的数据集,例如可口可乐徽标或完全不相关的图片,例如猫)。
与计算机不同,人类可以学会识别这些事物的原因是因为人脑功能强大得多,以至于您可以创建神经网络来理解计算机中的此类事物。当计算机在计算能力方面将与人类一样强大时,重新提出这个问题,您将收到来自类人机器的自动回答。