我组装了一个快速的 WinForm/嵌入式 IE 浏览器控件,每天早上登录到我们公司的银行网站并抓取/导出所需的存款信息(该银行是一家小型区域银行)。由于我们有几十个从同一个主帐户中提取的“伪帐户”,因此实际上需要 10-15 分钟来检索。
无论如何,唯一的问题是我们的商业银行帐户需要一个 RSA 安全令牌(http://www.rsa.com/node.aspx?id=1156)——如果你不熟悉,它是一个显示每 15(?)秒随机一个 6 位数字,所以我必须在开始之前提示这个值。这是网站基于登录的安全模型之上的,所以即使你创建了一个不能做任何事情的只读帐户,你仍然需要输入 RSA 号码。我们为不同的人提供了 5 个这样的令牌公司。
从我们的角度来看,这是令人讨厌的安全。我开玩笑说要使用网络摄像头对密钥卡中的数字进行 OCR,这样他们就不必输入它——主要是为了在早上有人到达之前完成抓取/导出。好吧,他们问我是否真的可以做到。
所以现在我问你,你认为从相机生成的 JPEG 图像中可靠地对这些数字进行 OCR 需要多难(多少小时)?我已经知道我可以轻松获得 JPEG。我认为您尝试登录 3 次,因此它确实需要达到 99% 的准确率。我可以在空闲时间做这件事,但他们不希望我花几个小时以上的时间,所以我想尽可能多地利用现有代码。这是一个 7 段显示器(如闹钟),因此它不是 OCR 包习惯看到的文本。
还有——显示屏侧面有一个倒数计时器;通常,当它降至 1 格时,您会等到下一个数字出现,然后从 5 格开始(例如手机上的信号强度)。所以这也需要是 OCRd,但它不是文本。
无论如何,我在打字时想得越多,我就越不相信我能真正做到这一点,所以也许我应该在业余时间继续努力?