我一直在阅读诸如https://arxiv.org/pdf/1704.08628.pdf之类的 OCR 论文,但我很难找出这些数据集是如何实际生成的。
在链接的论文中,他们使用回归器来预测一行文本的起始位置(一个点)和高度。然后,基于该起点和高度,第二个网络执行 OCR 和行尾检测。我意识到这是一个非常简化的解释,但由此得出的结论是,他们的数据集(至少部分)由整页文本“图像”组成,每行的开始位置都带有注释,然后是给定行上的文本转录。或者,他们可以只使用边界框的左下点作为起点,将框的高度作为单词高度(如果数据之前使用边界框准备,则无需重新注释)。
那么像这样的数据集是如何实际创建的呢?查看其他数据集,似乎有一些软件可以创建包含与每个图像相关的基本事实的 XML 文件,有人可以指出我正确的方向吗?我一直在用谷歌搜索并找到许多用情感等注释文本的工具和其他用于注释图像以进行分割的工具(对于像 YOLO 网络这样的东西),但是我在创建像使用的 Maurdoor 数据集这样的东西时空空如也在链接的论文中。
谢谢