问题标签 [google-vision]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
android - CameraSource.takephoto 旋转
使用谷歌视觉CameraSource.takephoto
我想拍照来检测人脸,但照片被旋转了。我曾尝试使用我的遗留代码来旋转它
但ExifInterface.getAttribureInt
总是返回 0 所以图像保持错误的旋转
sap - 在 SAP 中为 PDF 文件生成 OCR
我已成功使用云视觉 API (OCR) for image (jpeg) 。现在我正在尝试 pdf 文件(保存为 PDF 的扫描图像)并且相同的逻辑不适用于 PDF。对于此类文件,我们是否也有类似的 API?
java - Java 中的 Google Vision api 集成(错误)
我正在尝试使用下面的 github 示例代码链接来实现和添加谷歌视觉服务到我的项目中。 https://github.com/GoogleCloudPlatform/java-docs-samples/tree/master/vision/text/ 在 ImageText 和 Word java 类中遇到此错误
其中 AutoValue_ImageText 类型无法解析并且
其中 AutoValue_Word 类型无法解析。请帮忙!我什至无法修复这些语法错误,看看这段代码是否正确。先感谢您
android - camerasource.takePicture() 在某些设备中保存旋转的图像
我正在使用视觉 api 来跟踪面部。我根据面部位置应用了蒙版。当我从前置摄像头拍照时,我调用 camerasource.takePicture() 来保存图像。我在三星等某些设备中面临图像旋转问题,并且捕获的图像显示蒙版和面部不同的位置。我使用 Exif 类来获取图像的方向,但它总是返回 0,所以我无法旋转图像。我正在使用以下类来获取方向和旋转图像。
}
我在视觉 api 中发现了这个问题,有什么解决方案吗?
android - 使用 Android vision API 检测条形码
我正在尝试使用 google android vision API 来检测条形码。相机帧由外部 UVCCamera 生成,该 UVCCamerajava.nio.DirectByteBuffer
以帧的形式提供。我试图使用该方法通过将对象作为字节缓冲区public Frame.Builder setImageData (ByteBuffer data, int width, int height, int format)
传递来解析条形码。java.nio.ByteBufferArray
UVCCamera 帧的像素格式为 NV21 格式。但我没有得到任何结果,没有错误或异常。
配置:
但是在示例中,传递给该方法的是一个java.nio.ByteArrayBuffer
(在使用包装字节数组之后ByteBuffer.wrap(byteArray)
)
以下是我使用的示例代码[注意它是代码的简化版本,实际上是在线程上运行]:
我创建另一个缓冲区的原因是创建一个 ByteBufferArray。
谁能让我知道我在这里缺少的部分是什么?
java - Android cameraSource.stop() 导致应用程序冻结
我正在使用 google vision api 构建一个具有 qr 扫描仪的应用程序。读取二维码后,我无法停止相机。流程是MainActivity -> QrActivity
一旦二维码收到检测,应用程序应该返回到主要活动。
如果我不称cameraSource.release()
它工作正常,但设备会发热很多并且对电池消耗有重大影响。但是,如果我释放相机源 mainActivity 变得无响应并且应用程序将崩溃。
为什么会变得反应迟钝?以及释放相机源的正确位置在哪里?
QrActivity
QrReader 类
android - 开源的 Google Vision API CameraSource 类过时了吗?
我们开源了CameraSource类,它也有一个自动对焦的方法。这个允许您设置特定的焦点模式,而不是官方 API 默认的“连续视频”模式:
这很棒。但似乎 Google Vision API 已经继续前进,而开源版本却没有。官方 API 现在有一种新型处理器,称为:FocusingProcessor——它允许检测器仅响应 OnFocus 事件。
在我的实验中,这比使用官方 Google Vision API 示例中示例显示的处理器快得多
我在某处遗漏了什么吗?或者 Google.Vision 库中的 CameraSource 与它们在开源中显示的不同?
[编辑] 应 pm0733464 的要求共享代码:
作为记录,我从允许自动检测条形码的 vision api Demo 的分支开始
我的代码进行了一些简单的更改。首先,我将 PDF417 添加到可扫描的条形码中。然后我将处理器设置为自动对焦器。我把跟踪器变成了一个 nullTracker 因为我不需要图形显示,我希望这会加快一些事情
在 BarcodeCaptureActivity我改变了createCameraSource它定义条形码检测器的位置,如下所示:
我的 FocusProcessor(在同一类中)如下所示:
android - 在移动视觉api android中将自定义字体设置为文本识别器(OCR)
我正在开发一个允许您扫描支票的应用程序,我使用 Tesseract 进行了测试并且它有效,我想知道您是否可以训练文本识别 api 移动视觉来识别支票的排版
google-cloud-platform - 如何针对特定语言改进 Google Vision API 的 TEXT_DETECTION
我对 Google Vision API 的 TEXT_DETECTION 很感兴趣,它的效果令人印象深刻。但似乎 TEXT_DETECTION 仅在文本为英文时才给出准确的结果。就我而言,我想在非常狭窄的上下文中使用 TEXT_DETECTION,例如检测特定语言的广告横幅上的文本(我的情况是越南语)。我可以根据自己的数据收集训练机器以获得更准确的结果吗?以及如何实现这一点?
除了 Google Vision API 的 TEXT_DETECTION 之外,Google 还有使用 Tesseract 依赖项的 Google 光学字符识别 (OCR) 软件。据我所知,他们有不同的算法来检测文本。我使用 Google Docs 和 Google Vision API 的 TEXT_DETECTION 从图片中读取文本(越南语)。Google Docs 给出了很好的结果,但 Vision API 没有。为什么 Google Vision API 没有继承 Google OCR 的优势?
我想多说一些关于 Google Vision API 文本检测的内容,也许这里有任何 Google 专家都可以阅读。正如谷歌宣布的那样,他们的 TEXT_DETECTION 非常棒:“即使这张图片中的文字倾斜且不清楚,OCR 仍能正确提取文字及其位置。它甚至可以在演示者的 T 恤上提取“信标”这个词。但是对于我的一些照片,发生的事情真的很有趣。例如这张照片,即使“Kem Oxit”字样在照片中央很大,也无法识别。或者在这张图片中,图片中心的红色文字“HOA CHAT NGOC VIET”也没有被识别。文本检测算法一定有问题。
ruby-on-rails - 检测图像中物理对象的数量(图像处理)
我正在开发一个 Ruby on Rails 应用程序,我想在其中检测图像中物理对象(瓶子和食品包)的数量。
我刚刚探索了 Google Vision API ( https://cloud.google.com/vision/ ) 来检查这是否可行。我上传了一张照片,里面有一些冷饮瓶,得到了以下回复。
我在这里担心的是,它没有给出图像中可用的冷饮瓶的数量,而是返回照片中可用的对象类型。
这在 Google Vision API 或任何其他可用的解决方案中是否可行?
任何帮助将非常感激。