我最近开始探索循环神经网络。到目前为止,我已经使用 Andrej Karpathy 的博客在 tensorFlow 上训练了字符级语言模型。它工作得很好。
但是,我找不到任何关于使用 RNN 进行字符串匹配或关键字发现的研究。对于我的一个项目,我需要扫描文档的 OCR,然后解析转换后的文本以获取关键数据点。大多数字符串匹配技术未能合并 OCR 转换错误,这会导致严重错误。
是否可以根据我收到的转换文本的变体训练 RNN 并将其用于查找关键字。
我最近开始探索循环神经网络。到目前为止,我已经使用 Andrej Karpathy 的博客在 tensorFlow 上训练了字符级语言模型。它工作得很好。
但是,我找不到任何关于使用 RNN 进行字符串匹配或关键字发现的研究。对于我的一个项目,我需要扫描文档的 OCR,然后解析转换后的文本以获取关键数据点。大多数字符串匹配技术未能合并 OCR 转换错误,这会导致严重错误。
是否可以根据我收到的转换文本的变体训练 RNN 并将其用于查找关键字。
本文可能是您正在寻找的东西:
[1608.02214] Robsut Wrod Reocginiton 通过半字符循环神经网络
简介:
本文作者演示了一种识别诸如Cmabrigde Uinervtisy(Cambridge University)之类的混杂词的方法。用正确的开始、结束字符和不包含其位置信息的编码内部字符训练神经网络,神经网络可以学会识别和纠正它。
正如您所提到的,您可以轻松地修改网络结构以适应您自己的需要,即 OCR。