它是 OCR 过程的一部分,即:
如何将句子分割成单词,然后再分割成字符?
这个任务的候选算法是什么?
它是 OCR 过程的一部分,即:
如何将句子分割成单词,然后再分割成字符?
这个任务的候选算法是什么?
作为第一遍:
现在你只需要一个足够好的“大”定义。
首先,NIST(Nat'l Institutes of Standards and Tech.)在大约 15 年前针对这个确切的问题发布了一个 称为NIST 基于表单的手写识别系统的协议——即提取和准备文本即图像数据OCR 机器学习算法的输入。NIST 这个小组的成员也发表了一些关于这个系统的论文。
他们的分类器的性能也通过该算法发布的数据(“NIST 手写样本表格”)得到了证明。
我下载并使用的大约六个 OCR 数据集中的每一个都引用了 NIST 使用的数据提取/准备协议来准备数据以输入到他们的算法中。特别是,我很确定这是准备波士顿大学手写数字数据库所依赖的方法,该数据库被视为 OCR 的基准参考数据。
因此,如果 NIST 协议不是真正的标准,至少它是一种经过验证的方法,可以将文本作为图像准备用于 OCR 算法的输入。我建议从那里开始,并使用该协议来准备您的数据,除非您有充分的理由不这样做。
总之,NIST 数据是通过直接从预先打印的表格中提取 32 位 x 32 位标准化位图来准备的。
这是一个例子:
00000000000001100111100000000000 00000000000111111111111111000000 00000000011111111111111111110000 00000000011111111111111111110000 00000000011111111101000001100000 00000000011111110000000000000000 00000000111100000000000000000000 00000001111100000000000000000000 00000001111100011110000000000000 00000001111100011111000000000000 00000001111111111111111000000000 00000001111111111111111000000000 00000001111111111111111110000000 00000001111111111111111100000000 00000001111111100011111110000000 00000001111110000001111110000000 00000001111100000000111110000000 00000001111000000000111110000000 00000000000000000000001111000000 00000000000000000000001111000000 00000000000000000000011110000000 00000000000000000000011110000000 00000000000000000000111110000000 00000000000000000001111100000000 00000000001110000001111100000000 00000000001110000011111100000000 000000000011111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111往
我相信 BU 数据准备技术包含 NIST 技术,但在最后增加了一些步骤,不是为了提高保真度,而是为了减小文件大小。特别是 BU 组:
我假设您正在使用 matlab 中的图像处理工具箱。
区分图像中的文本。您可能想要关注:
通过反复试验,您将获得适当的系数,这样您在第 5 步之后获得的图像将包含围绕每个字母/单词/行/段落的凸区域。
笔记:
查看在线文档中的“文档中的示例”部分或参考 Matlab 帮助菜单中的图像处理工具箱文档。
那里给出的示例将指导您正确调用函数及其各种格式。
用于查找二进制序列,如 101000000000000000010000001 检测序列 0000,0001,001,01,1