问题标签 [vision-api]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - TypeError:“DetectedFace”对象不可下标 AZURE COGNITIVE FACE
错误:
CODE(下面是代码块)
这是一个自动考勤系统,可以捕获多个面孔并在 Excel 表中进行更新。Azure 认知人脸 API 用于人脸检测。我希望新 API 的对象已经改变。Thid 代码包含对旧版本 azure 的推荐,但现在已更改。如果有人知道如何解决错误,请提供帮助。
java - 线程“主”java.lang.NoSuchMethodError 中的 Cloud Vision API 异常:com.google.common.base.Preconditions.checkArgument
我遵循了https://cloud.google.com/vision/docs/ocr中的所有步骤,并且在执行代码时出现以下异常。
完整的堆栈跟踪:
我尝试使用不同的 Guava(22.0 和 23.6)和 HttpCore(5.0 和 4.4.8)版本,而不是已经在 Google Cloud Platform Libraries(28.2 和 4.4.12)上使用的版本,但没有运气。
我正在使用 Eclipse 并使用 Eclipse 并按照以下步骤操作:https ://cloud.google.com/eclipse/docs/libraries
android - 使用 Vision API 实现自定义检测器
如何在 Mobile vision API 中创建自定义检测器,如 FaceDetector 和 BarcodeDetector?
我正在构建一个使用颜色蒙版执行手部分割的项目,我在 opencv 中实现了逻辑。我想通过实现用于手部分割的自定义检测器接口来将该逻辑集成到使用视觉 api 中。
此外,如果您可以了解如何创建该稀疏数组,detect(Frame) 将返回一个 SparseArray<>,这将有很大帮助
我访问了这个线程,但我不想包装人脸检测器,因为我没有用它。
ocr - Google Vision API - 我们能否在检测文档文本中包含自定义预处理逻辑并将其直接用作 Vision API
我正在使用 Google Vision API 从我的图像中获取所有文本。但是,我只想通过调整图像大小来提取图像上特定区域的文本,而不是提取整个文本。然而,对于所有图像,该区域并未定义为固定坐标;这些图像是错误屏幕截图,其中消息可能位于任何一侧,有时屏幕截图是通过在显示器上打开多个窗口来拍摄的。我想使用自定义逻辑首先处理图像以识别可能存在错误消息的部分并仅分割该部分,然后传递图像的该部分以进行文本提取。但是我不想在 Vision API 之外有任何预处理逻辑。
google-cloud-platform - 努力在 Windows 上连接到 Google-Cloud-Platform
我住在肯尼亚。大多数时候我都很难连接到谷歌云服务,但我想在 Windows 上使用 vision api 时绕过这个问题。大多数时候我跑步,
google.api_core.exceptions.ServiceUnavailable: 503 failed to connect to all addresses
我都试过了
但仍然得到同样的错误。我还在 Internet 设置中设置了 ReceiveTimeout 值,甚至在处理我的项目时关闭了所有网络保护。
我怎样才能解决这个问题
google-cloud-platform - GCP Vision async_batch_annotate_files 超时
我一直在使用 gcp vision api pdf 提取一个月,但最近我收到超时错误。
也许这是基础设施问题,因为代码库没有改变,但我如何从谷歌那里找到?
google-cloud-vision - Google 视觉 API 响应中的更新
在过去的几个月里,我一直在使用 Google 的视觉 API 进行文本检测。API 返回特定图像/文档中存在的单词的“地图”。“地图”(JSON)中的每个元素都将包含一个单词的文本及其在文档中的坐标
之前的映射用于根据空格和特殊字符将文本分解为单词......现在似乎仅基于空格将文本分解为单词。
例如,带有文本“Foo.Bar Hello World”的文档将有 4 个元素,即 4 个单词,因为“单词”也意味着在特殊字符上破坏文本......但现在“Foo.Bar Hello World”仅导致 3字。
我的问题是,有没有办法选择我们可以使用的 API 版本?或者有没有办法跟踪引入 API 的返回结构的更改/TEXT_DETECTION 模型中的更改?
我检查过的内容:
- https://cloud.google.com/vision/docs/release-notes -> 这包含整个 API 的版本,而不是为 OCR 运行的模型的更改或模型结果的“后处理”。
- cloud-vision-discuss 谷歌小组以解决类似问题。
firebase - ML KIT 中最小人脸尺寸的确切用例是什么?
根据官方文档,
最小人脸尺寸:浮点数(默认值:0.1f)- 要检测的人脸相对于图像的最小尺寸。
那么,是不是只有当它与这个尺寸匹配时才会检测到人脸?
我已经测试过,无法得到任何合理的结果。
如果面部太小,我不希望检测到面部。
classification - 文件分类手写或电脑打印
我有很多文件,有些是手写的,有些是计算机打印的(扫描图像/pdf)。我想把它们分成两组电脑打印和手写。谁能指导我完成此操作的方法。我正在使用 Google Vision API 进行数据提取,但我只想从手写文档中提取数据。
添加更多详细信息,我通过 RPA 工具 UiPath 调用 google vision api,我仅限于使用 google vision api 从图像中提取数据/文本。我不是在寻找像 Auto ML 或自定义机器学习项目这样的机器学习解决方案。我正在寻找可以构建小程序来识别文档是计算机打印还是手写的方法。程序将图像或pdf作为输入和输出,无论是计算机打印的还是手写的图像或pdf。
任何帮助,将不胜感激。
ocr - Google Vision API 未检测到图像中的卡纳达语文本
我一直在使用 Vision API (REST) 开发 POC,以从图像中提取文本。我已经相当成功了,我能够从 REST API 中获得针对某些印度语言(泰米尔语、孟加拉语)的良好响应。但是,当我尝试使用带有卡纳达语文本的图像时(例如),Vision API 的响应不一致。它要么检测到来自泰卢固语的文本,要么根本不检测。我一直在通过将它们编码为 Base 64 来测试所有这些图像。
我已经链接了一些我尝试过的图像(board,bus1,bus2)。其中大部分来自网络。我还尝试在 word 文档中输入卡纳达语文本并对其进行截图并将其保存为图像(word_doc)。为此,我在响应中收到一个空白有效负载。为什么会这样?
我是否需要修改 API 的 JSON 请求以使其适用于卡纳达语?有人可以帮我解决这个问题吗?
我使用的请求 JSON 是:
谢谢,尼基尔