java - Google Mobile Vision：没有 CameraSource 的 FaceDetector 性能不佳

Question

现在，我们的应用程序正在成功运行 Snapdragon SDK。我们正在尝试在我们的项目中实现 Vision 8.3.0 的 FaceDetector，以增加兼容设备的数量。我们不能使用 CameraSource，因为我们依靠自定义相机 + 表面来提供某些功能。我们希望尽可能多地重用代码，而 Snapdragon SDK 在我们当前的实现中表现出色。

工作流程如下：

1) 检索相机预览

2) 将传入的字节数组转换为位图（由于某种原因，我们还没有设法使用 ByteBuffers。提供并验证了图像大小、旋转和 NV21 图像格式，但没有找到人脸）。位图是已经在处理线程内部初始化的全局变量，以避免分配速度变慢。

3）通过receiveFrame馈送检测器

到目前为止的结果还不够好。即使我们禁用了地标和分类，检测也太慢（2-3 秒）且不准确。

问题是：是否可以在不使用前者的情况下复制 CameraSource + Detector 的性能？是否必须使用 CameraSource 才能使其与实时输入一起使用？

提前致谢！

编辑

按照下面的 pm0733464 建议，我尝试使用 ByteBuffer 而不是 Bitmap。这是我遵循的步骤：

// Initialize variables
// Mat is part of opencvSDK
Mat currentFrame = new Mat(cameraPreviewHeight + cameraPreviewHeight / 2, cameraPreviewWidth, CvType.CV_8UC1);
Mat yuvMat = new Mat(cameraPreviewHeight + cameraPreviewHeight / 2, cameraPreviewWidth, CvType.CV_8UC1);

// Load current frame
yuvMat.put(0, 0, data);

// Convert the frame to gray for better processing
Imgproc.cvtColor(yuvMat, currentFrame, Imgproc.COLOR_YUV420sp2RGB);
Imgproc.cvtColor(currentFrame, currentFrame, Imgproc.COLOR_BGR2GRAY);

从这里开始，字节数组的创建：

// Initialize grayscale byte array
byte[] grayscaleBytes = new byte[data.length];

// Extract grayscale data
currentFrame.get(0, 0, grayscaleBytes);

// Allocate ByteBuffer
ByteBuffer buffer = ByteBuffer.allocateDirect(grayscaleBytes.length);

// Wrap grayscale byte array
buffer.wrap(grayscaleBytes);

// Create frame
// rotation is calculated before
Frame currentGoogleFrame = new Frame.Builder().setImageData(buffer, currentFrame.cols(), currentFrame.rows(), ImageFormat.NV21).setRotation(rotation).build();

以这种方式构建框架会导致找不到人脸。但是，使用位图可以按预期工作：

if(bitmap == null) {
    // Bitmap allocation
    bitmap = Bitmap.createBitmap(currentFrame.cols(), currentFrame.rows(), Bitmap.Config.ARGB_8888);
}

// Copy grayscale contents
org.opencv.android.Utils.matToBitmap(currentFrame, bitmap);

// Scale down to improve performance
Matrix scaleMatrix = new Matrix();
scaleMatrix.postScale(scaleFactor, scaleFactor);

// Recycle before creating scaleBitmap
if(scaledBitmap != null) {
    scaledBitmap.recycle();
}

// Generate scaled bitmap
scaledBitmap = Bitmap.createBitmap(bitmap, 0, 0, bitmap.getWidth(), bitmap.getHeight(), rotationMatrix, true);

// Create frame
// The same rotation as before is still used
if(scaledBitmap != null) {
    Frame currentGoogleFrame = new Frame.Builder().setBitmap(scaledBitmap).setRotation(rotation).build();
}

score 4 · Accepted Answer

检测需要 2-3 秒并不典型。无需使用 CameraSource 即可获得最佳性能您使用的是什么硬件？你能提供更多细节吗？

人脸检测的某些方面是速度与准确性的权衡。

速度：

如果可能，请尝试使用较低分辨率的图像。例如，人脸检测在 640x480 下应该可以正常工作。面部检测器代码会在运行检测之前对大图像进行下采样，尽管与接收较低分辨率的原始图像相比，这需要额外的时间。
使用 ByteBuffers 而不是 Bitmaps 会更快一些。第一部分应该只是一个灰度图像（没有颜色信息）。
正如您在上面提到的，禁用地标和分类会使其更快。
在未来的版本中，将有一个“最小面部尺寸”选项。将最小尺寸设置得更高会使人脸检测更快（在不检测较小人脸的准确性权衡下）。
将模式设置为“快速”将使其更快（在不检测非正面面孔的准确性权衡）。
使用“仅突出面部”选项会更快，但它仅检测到单个大面部（至少为图像宽度的 35%）。

准确性：

启用地标将允许更准确地计算姿势角。
将模式设置为“准确”将检测角度范围更广的人脸（例如，轮廓中的人脸）。但是，这需要更多时间。
缺少上面提到的“最小人脸尺寸”选项，默认情况下只检测大于图像宽度 10% 的人脸。不会检测到较小的面部。将来更改此设置将有助于检测较小的面部。但是，请注意，检测较小的面孔需要更长的时间。
使用较高分辨率的图像将比较低分辨率的图像更准确。例如，如果图像为 640x480，则可能会丢失 320x240 图像中的某些人脸。您设置的“最小人脸尺寸”越低，检测该尺寸人脸所需的分辨率就越高。
确保你有正确的旋转。例如，如果人脸倒置，则不会检测到人脸。如果要检测倒置的人脸，应使用旋转图像再次调用人脸检测器。

此外，如果您要创建大量位图，垃圾收集时间可能是一个因素。使用 ByteBuffer 的一个优点是您可以重复使用相同的缓冲区，而不会产生每个图像的 GC 开销，如果您对每个图像使用 Bitmap，您会遇到这种开销。CameraSource 有这个优势，因为它只使用几个缓冲区。

java - Google Mobile Vision：没有 CameraSource 的 FaceDetector 性能不佳

编辑

1 回答 1

Related

Reference