classification - 将多张图像输入 CoreML 图像分类模型（swift）

Question

我知道如何使用 CoreML 库来训练模型并使用它。但是，我想知道是否可以为模型提供不止一张图像，以便它更准确地识别它。

这样做的原因是因为我正在尝试构建一个对组织学切片进行分类的应用程序，但是，其中许多看起来非常相似，所以我想也许我可以以不同的放大倍率输入模型图像以进行识别。是否可以？

谢谢你，迈赫迪

score 0 · Accepted Answer

是的，这是一种常见的技术。您可以为 Core ML 提供不同比例的图像，或者使用来自同一张较大图像的不同裁剪。

一种典型的方法是采用 4 个角落裁剪和 1 个中心裁剪，然后水平翻转它们，这样您总共有 10 张图像。然后将这些作为批次提供给 Core ML。（也许在您的情况下，垂直翻转作物也是有意义的。）

要获得最终预测，请取所有图像的预测概率的平均值。

请注意，为了使用不同尺寸的图像，必须将模型配置为支持“尺寸灵活性”。并且它还必须在不同大小的图像上进行训练才能获得良好的效果。

1 回答 1