问题标签 [ocr]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
javascript - 用于从网络读取和操作图像的客户端脚本(详情...)
我希望能够使用一个 Greasemonkey 脚本,该脚本可以从页面中获取图像,扫描它以查找最暗的像素,然后将这些坐标返回给浏览器。
最初,我使用了一个 Flash 脚本... Greasemonkey 嵌入了一个本地 Flash 文件,该文件将根据网页源中的 URL 获取图像,使用 ActionScript 获取最暗的像素,然后发送带有这些坐标的 POST 请求价值观。
问题是,我只想下载一次图像。使用这种方法,它会执行两次(一次在浏览器中,一次在 Flash 中)。有没有办法在 Javascript 或其他客户端语言中处理网页中的图像?我尝试使用 Canvas,但您无法对托管在远程服务器上的图像执行 getImageData() 函数。
ocr - Google 图书如何查找文本区域?
计算机视觉中的一个具有挑战性的主题是处理文档扫描。通常这涉及到许多步骤,例如去噪、颜色分析、二值化、文本块识别、OCR,然后可能还有一些上下文分析和校正。
我很好奇是否有人理解、知道或可以向我指出关于 Google 如何在 OCR 阶段之前识别文本块的文献。有什么见解吗?
security - reCaptcha 是否被破解/被黑/OCR'd/被击败/被破坏?
是否使用过任何编程方法来击败 reCAPTCHA?
我有兴趣看到证据和潜在的证明,特别是 reCAPTCHA 已经被完全自动化的、无人化的方法过时了。
澄清一下,不要以任何方式寻找涉及人类的 reCAPTCHA 作弊解决方案,无论是负责填写 CAPCHA、色情搜索者还是 Mechanical Turk 的团队。
我也不是在寻找 reCAPTCHA 的替代品,比如选择动物的类型、背景字段或 JavaScript 技巧。
c++ - 用于图像识别的 C++ 库:包含单词到字符串的图像
有谁知道用于拍摄图像并对其执行图像识别的 c++ 库,以便它可以根据给定的字体和/或字体高度找到字母?即使是不允许您选择字体的字体也会很好(例如:readLetters(Image image)。
java - 通过命令行调用与 JNI
我需要从 Java 应用程序服务器调用 tesseract OCR(它是 C++ 中的一个开源库,用于进行光学字符识别)。现在很容易使用 Runtime.exec() 运行可执行文件。基本逻辑是
- 将当前保存在内存中的图像保存到文件(.tif)
- 将图像文件名传递给 tesseract 命令行程序。
- 使用 FileReader 从 Java 读取输出文本文件。
通过为 Tesseract 编写 JNI 包装器,我可能会在性能方面获得多少改进?不幸的是,没有在 Linux 中工作的开源 JNI 包装器。我必须自己做,并且想知道收益是否值得开发成本。
java - 使用 Java 或 .NET 库对来自 ColdFusion 的 PDF 执行光学字符识别?
我正在寻找一个 PDF 并从中提取任何文本。然后,我想使用 ColdFusion 的可用 Verity 搜索来搜索内容。
是否有任何图书馆已经做得很好?我在范围内包括 Java 或 .NET(首选 Java)库,因为它们可以从 CF 调用。
任何见解或经验将不胜感激......谢谢!
编辑:据我所知,当文本嵌入到 PDF 中时,索引 PDF 文件有效。我必须处理的 PDF 将文本扫描为图像。
c++ - C++ 图像处理库
我需要一个可以检测图像中对象的库(使用边缘检测)。这与验证码无关。我正在开发一个使用 OCR 并且可以在任何屏幕分辨率下工作的 MTGO 机器人。为了将它移植到任何屏幕分辨率,我的想法是在结果页面上扫描狭窄的范围(玩家拥有的卡片可以在文本行中列出)并找到该范围内的每个对象。然后取每个对象的最低和最高像素坐标来查找行的开始和结束位置(在 y 轴上),以便我可以使用 OCR 读取每一行。
windows - 如何从屏幕上获取文本
有一些 Win OS API 调用可以让人们从屏幕上获取文本
不是通过获取快照然后对其进行 OCR,而是通过 API
这个想法是获取用户指向并单击的鼠标下的文本。
这就是像 Babylon ( http://www.babylon.com ) 和 1-Click Answers ( http://www.answers.com/main/download_answers_win.jsp ) 等工具以及许多其他工具的工作原理。
有人可以指出我获得此功能的正确方向吗?
forms - 如何在扫描的文档图像上找到空白字段
我希望我的应用程序在以黑白图像文件形式存在的表单中填写单个字段。表单总是以相同的纸质版本开始,但是当我的应用程序从我的用户那里获得它时,它可能已经被扫描或传真了不止一次。因此,我需要的字段不在每个文件中的相同位置。
我的用户并不总是从我这里得到空白表单,因此我无法打印以后可以识别的标记或占位符。
原来的空白表格上有文字,但因为可能是传真过来的,所以我只有 200 dpi 的分辨率。文本总是足够大,可供人类阅读,但我对 OCR 持怀疑态度。
我有一些预算,所以我不需要免费的解决方案……让我们说 2000 美元。
也就是说,我正在考虑
获取 OCR 解决方案以在我需要的字段上查找文本标签。我认为我没有资源或专业知识来自己动手。我不需要完美的识别,因为我已经知道文字说了什么。但我确实需要知道 X 坐标和 Y 坐标。有没有这样的软件?还是编程比我想象的要容易?
构建或购买软件来识别表格的边缘。从那里,我可以得到我需要的字段的相对位置。我在想我的扫描仪软件在小文档图像周围放置的虚线。这是一个已知的算法还是有可用的解决方案?
识别我需要的领域的其他方式。尝试使用 google 表单填写软件给了我数百个匹配的 web 表单、pdf 表单等,这些都不能满足我的需要。
我对语言不挑剔。我的应用程序在 Linux 上运行,但如果最好的解决方案是 Microsoft,我可能会成功。
我很感激你的想法。
artificial-intelligence - 感知器可以用来检测手写数字吗?
假设我有一个小位图,其中包含一个手写数字(0..9)。
是否可以使用(两层)感知器检测数字?
除了使用神经网络之外,还有其他方法可以从位图中检测单个数字吗?