只是出于我个人的兴趣,我从我的研究中看到,开始自己的 OCR 并不容易。但是,我想听听有关如何实现挑战的想法,不仅要识别字符,还要以格式化字符串的形式返回结果。例如,我有一张桌子的图像(想象它是一张图像,其中“|”和“_”被画成直线):
|数字,另一个数字|一些文字|
|1,4 |废话|
使用静默 OCR 后,我得到的结果为 "|Number, AnotherNumber|SomeText|\n|1,4|Blah|" 关于如何实现这一点以及我可以使用哪些可用工具/库的任何想法?我也想用 Visual Studio 2010 用 C# 编写这个。理想情况下可以使用 PDF,但不同的图像格式都可以。我已经看过一些,但它们似乎不兼容,因为它们使用 C++ 或 C。谢谢。阿丽娜。