问题标签 [apple-vision]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
ios - 为其他对象和字体自定义 iOS Vision 文本检测
我正在寻找不同的解决方案来解决我遇到的问题,现在我正在研究 iOS Vision api。
有谁知道是否可以将 Vision 提供的文本/特征检测方法用于图像中的自定义对象或自定义字体?
ios - 与 AVCaptureVideoDataOutput 一起使用时,VNDetectFaceLandmarksRequest 滞后
我正在使用一个
VNDetectFaceLandmarksRequest
结合一个
VNSequenceRequestHandler
处理来自
AVCaptureVideoData输出
委托调用:
我希望能够实时显示面部地标,以便用户可以看到它们覆盖在 AVCaptureVideoPreviewLayer 上。
因此,当调用 AVCaptureVideoDataOutput 委托时,我会调用:
CIImage 来自委托提供的 CMSampleBuffer。
问题是地标滞后。当我将脸移到相机前时,地标的更新速度很慢。
如何更新地标,以便它们跟随面部运动而不会落后?
ios - 当 CoreML sqeezeNet 模型的 request.results 被转换为 [VNRectangleObservation] 时应用程序崩溃
我正在使用 CoreML SqueezeNet 模型从图像中检测纸张或矩形。
我根据苹果文档创建了模型和请求。
上面的代码工作正常。但我想检测纸张,因此使用 [VNRectangleObservation] 而不是 [VNClassificationObservation]。这会导致我的应用程序崩溃。我在任何地方都找不到解决这个问题的方法。我想使用 [VNRecatangleObservation] 的主要原因是捕获检测到的图像并在检测到的图像上绘制红色叠加层。
swift - 使用 VNCoreMLModel 和 Inceptionv3.model() 的区别?
我一直在尝试开始使用 CoreML(Apple 的机器学习库)。我正在按照这些教程开始
1) https://www.appcoda.com/coreml-introduction/
2) https://www.raywenderlich.com/164213/coreml-and-vision-machine-learning-in-ios-11-tutorial
第一个教程使用 Inception V3,第二个教程使用 Places205-GoogLeNet 模型进行解释。
在所有基本设置步骤之后
Places205-GoogLeNet 教程使用如下代码
第二个代码使用这个
这两种方法有什么区别,哪一种更推荐,因为这两种方法都可以用来传递像素缓冲区并显示结果?
ios - 使用 Vision 框架跟踪眼睛
如何在头部或相机移动时使用 iOS 11 中的新视觉框架来跟踪视频中的眼睛?(使用前置摄像头)。
我发现VNDetectFaceLandmarksRequest
我的 iPad 速度非常慢 - 地标请求大约在 1-2 秒内执行一次。我觉得我做错了什么,但苹果网站上没有太多文档。
我已经在 Vision 上观看了 WWDC 2017 视频:
https://developer.apple.com/videos/play/wwdc2017/506/
以及阅读本指南:
https://github.com/jeffreybergier/Blog-Getting-Started-with-Vision
我的代码现在看起来大致是这样的(对不起,它是 Objective-C):
调用-performRequests:..
与视频输出相同的队列是否正确?根据我的实验,此方法似乎同步调用请求的完成处理程序。我不应该在每一帧都调用这个方法吗?
为了加快速度,我还尝试VNTrackObjectRequest
在视频上检测到地标后分别跟踪每只眼睛(通过从地标的区域点构建边界框),但这效果不佳(仍在尝试弄清楚)。
在视频上跟踪眼睛的最佳策略是什么?我应该跟踪面部矩形,然后在其区域内执行地标请求(会更快)吗?
swift - 如何在 Keras 中生成 class_labels.txt 以在 CoreML 模型中使用?
我一直在尝试使用 coreML 创建一个 IOS 应用程序,我在 Keras 中训练了一个卷积神经网络,当我使用 CoreMLTools 将此模型转换为 CoreML 模型时,它显示输出是一个多维数组,但我希望它是类概率。如何在 Keras 中生成带有类标签的 .txt 文件?
这是我用来生成 coreML 模型的代码:
swift - The size of the output layer does not match the number of classes in the classifier?
When I execute my computer vision app, it gives me the following error:
My CNN has been trained on the chars74K dataset, and has been trained only on the 26 capital letters. I thought that meant that I had 26 classes in my network, and the output layer of my network therefore consists of 26 neurons with the softmax function. What am I doing wrong here? This is the rest of the text in the console:
swift - CoreML 网络输出甚至不接近正确输出
我正在使用一个使用 128x128 像素输入图像的 Keras 网络,该网络在 chars74K 数据集上的准确率超过 85%。当我将此网络转换为 CoreML 模型时,结果总是 100% 确定但总是错误的,从来没有正确的字母。我的 Keras 网络的代码可以在这里找到:https ://github.com/thijsheijden/chars74kCNN
我用来转换为 CoreMLModel 的代码如下:
我的 IOS 应用程序的代码可以在这里找到:https ://github.com/thijsheijden/Visionary
我将不胜感激任何帮助,因为我真的坚持这一点!提前致谢!