python - TensorFlow - 图像中的文本识别

Question

我是 TensorFlow 和深度学习的新手。我正在尝试识别自然场景图像中的文本。我曾经使用过 OCR，但我想使用深度学习。文本始终具有相同的格式： ABC-DEF 88:88。

我所做的是识别每个字符/数字。这意味着我裁剪了每个字符周围的图像（所以每张图片给了我 10 个字符）来构建我的训练和测试集，并且他们构建了一个两个 conv 神经网络。所以我的训练集是一组字符图片，标签只是字符/数字。

但我想更进一步。我想做的只是给出完整的图片并输出整个文本（不是我以前的模型中的一个字符）。

预先感谢您的任何帮助。

score 6 · Accepted Answer

困难在于你不知道文本在哪里。解决方法是，给定一张图片，你需要使用滑动窗口来裁剪图片的不同部分，然后使用分类器来判断裁剪区域是否有文字。如果是这样，请使用您的字符/数字识别器来判断它们到底是哪些字符/数字。

所以你需要训练另一个分类器：给定一个裁剪的图像（裁剪图像的大小应该比你的文本区域的大小略大），判断里面是否有文本。

只需构建训练集（正样本是文本区域，负样本是从大图像中随机裁剪的其他区域）并训练它~

1 回答 1