11

我最近开始探索循环神经网络。到目前为止,我已经使用 Andrej Karpathy 的博客在 tensorFlow 上训练了字符级语言模型。它工作得很好。

但是,我找不到任何关于使用 RNN 进行字符串匹配或关键字发现的研究。对于我的一个项目,我需要扫描文档的 OCR,然后解析转换后的文本以获取关键数据点。大多数字符串匹配技术未能合并 OCR 转换错误,这会导致严重错误。

是否可以根据我收到的转换文本的变体训练 RNN 并将其用于查找关键字。

4

1 回答 1

1

本文可能是您正在寻找的东西:

[1608.02214] Robsut Wrod Reocginiton 通过半字符循环神经网络

简介:

本文作者演示了一种识别诸如Cmabrigde Uinervtisy(Cambridge University)之类的混杂词的方法。用正确的开始、结束字符和不包含其位置信息的编码内部字符训练神经网络,神经网络可以学会识别和纠正它。

正如您所提到的,您可以轻松地修改网络结构以适应您自己的需要,即 OCR。


(来源:firefoxusercontent.com


(来源:firefoxusercontent.com

于 2018-07-17T05:27:38.827 回答