问题标签 [text-recognition]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
ios - 如何将uiimage方向与图像中的文本匹配
为文档拍照后,我使用CIDetector
自动裁剪图像,这很好用。但是当我想在 uiimageview 中显示它时,图像很少正确定向。我知道如何手动旋转它,但我希望能够根据文档中的文本识别正确的方向,这样用户就不必做任何事情。
我尝试遍历每个可能的方向,CIDetector
用于检测循环中包含文本的可能区域,但这并没有给出明确的答案。还尝试了 TesseractOCR,但结果令人失望。
还有其他建议吗?
android - 谷歌移动视觉api相机源暗帧
我正在尝试关注关于视觉 api(如条形码和文本检测)的谷歌代码实验室;但我注意到相机预览提供了暗帧,我玩了一点并制作了更大的帧大小,但似乎自动对焦不起作用;该设备采用 android 5.1 供电,内置相机应用程序可提供更好的效果。
我的目标是测试 api 是否可以检测到小的文本句子,而它不是,我下载的其他应用程序是为了完美地比较工作。
如何提高帧质量?这是由使用标准相机 api 引起的,应该使用 camera2 api 吗?
欢迎任何提示,谢谢
python - TensorFlow - 图像中的文本识别
我是 TensorFlow 和深度学习的新手。我正在尝试识别自然场景图像中的文本。我曾经使用过 OCR,但我想使用深度学习。文本始终具有相同的格式:
ABC-DEF 88:88
。
我所做的是识别每个字符/数字。这意味着我裁剪了每个字符周围的图像(所以每张图片给了我 10 个字符)来构建我的训练和测试集,并且他们构建了一个两个 conv 神经网络。所以我的训练集是一组字符图片,标签只是字符/数字。
但我想更进一步。我想做的只是给出完整的图片并输出整个文本(不是我以前的模型中的一个字符)。
预先感谢您的任何帮助。
c# - 如何识别 PDF 订单中的文本?
我正在尝试使用 Ghostscript 和 Tesseract 3.0.2 以 pdf 顺序识别文本。
我不能使用 itextsharp,因为 pdf 不包含文本,而只是一个图像。
首先,我将 pdf 页面转换为图像,然后尝试获取文本。
在第一次测试中,我尝试获取所有将“preserve_interword_spaces”变量设置为 true 的文本,但我发现表中“Articolo”列中的信息丢失了。在我尝试只获得像“Consegna”这样的列之后,但缺少一些“/”符号。
我用过这段代码:
有人可以帮我获取图像中的整个文本吗?提前致谢
这是图片链接 (Temp2.png)。
android-vision - 如何强制 Android 版 Mobile Vision 读取整行文本
我按照教程实现了谷歌的 Android 移动视觉。我正在尝试构建一个应用程序来扫描收据并查找数字总数。但是,当我扫描以不同格式打印的不同收据时,API 将以任意方式检测 TextBlocks。例如,在一张收据中,如果几个文本单词由单个空格分隔,那么它们将被分组到一个 TextBlock 中。但是,如果文本的两个单词被很多空格分隔,那么即使它们出现在同一“行”上,它们也会被分隔为独立的 TextBlock。我想要做的是强制 API 将收据的每一行识别为单个实体。这可能吗?
python - TensorFlow - 图像中的特定数字识别(类似 SVHN)
我正在尝试使用 TensorFlow 构建一个分类器来识别神经网络中文本的特定部分。我受到 SVHN 项目的启发,以识别足球图片中的时钟。在整个项目中,我只关注时钟。我添加了一张图片以更明确地了解我的项目。
我做的第一件事是全天候裁剪图片并预测数字(例如,可能是 3 或 4 位数字 9:38 或 11:34)。效果很好,我的训练集有 20k 张图片,准确率很高(测试集 > 90%)。
现在我想做一些更复杂的事情,我认为神经网络应该能够做到,但我不确定。所以我没有准确地裁剪时钟,但我裁剪了整个记分牌(带有团队名称等),我仍然想预测时钟。
我尝试使用 20k 图片和 40k 图片进行训练。在这两种情况下,我在测试集上只有 70% 的准确率。时钟几乎总是在图片中的相同位置(在记分牌的顶部)。
我不明白为什么准确率这么低。如果有人有线索,那将非常有帮助。非常感谢您的帮助。
规格:
图像大小: 32x32
标签数量: 11(0-9 + 空白)
模型:
7 层 CNN。
C1:卷积层,batch_size x 28 x 28 x 16,卷积大小:5 x 5 x 1 x 16
S2:子采样层,batch_size x 14 x 14 x 16
C3:卷积层,batch_size x 10 x 10 x 32,卷积大小:5 x 5 x 16 x 32
S4:子采样层,batch_size x 5 x 5 x 32
C5:卷积层,batch_size x 1 x 1 x 64,卷积大小:5 x 5 x 32 x 64
Dropout
F6:全连接层,权重大小:64 x 16
输出层,权重大小:16 x 11
android - 谷歌移动视觉库没有下载
我正在尝试在我的应用程序中实现 Google Mobile Vision TextRecogniser API,以读取给定图像的文本。当我尝试使用该功能时,我收到此错误:
我相信这意味着图书馆没有下载到手机上。
我已经对常见的错误源进行了故障排除,包括缺少 Internet 连接、内存不足、缺少依赖项、重新启动手机、更新 Google Play 服务、等待一段时间等。Google 存储库和 Play 服务也在 Android Studio 中更新。
然而,即使在不同的设备上尝试我的应用程序,我仍然会遇到同样的错误。
python - 使用 TensorFlow 进行文本识别和检测
我从事文本识别项目。我已经使用 TensorFlow 构建了一个分类器来预测数字,但我想通过使用文本本地化和文本分割(分离每个字符)来实现更复杂的文本识别算法,但我没有找到算法的这些部分的实现。
那么,你知道一些算法/实现/技巧我,使用TensorFlow,在自然场景图片中进行文本定位和文本分割(实际上是对运动图片记分牌中的文本进行定位和分割)?
非常感谢您的帮助。
bitmapfactory - 无法使用图像视图的位图创建框架?
我正在实现只检测帧的 google textrecognizer。我正在尝试在 imageview 中使用我的图像的位图来构建框架,但它不起作用。但是,如果我使用可绘制文件夹图像的位图构建框架,那么它就可以工作。如何将图像的位图转换为 textrecognize 可以检测到的框架生成器可接受的格式。
tensorflow - 我们可以使用 Yolo 来检测和识别图像中的文本吗
目前我正在使用一个名为“Yolov2”的深度学习模型进行对象检测,我想用它来提取文本并将其保存在磁盘中,但我不知道该怎么做,如果有人知道更多关于那,请给我建议
我使用张量流
谢谢