deep-learning - 物体检测模型能否适应不同的视点通道

Question

我有同一场景的深度和热图像，但视角略有不同。

我用来计算旋转/平移矩阵，以便将两个图像堆叠在 (300, 300, 2) 数组中。 但是像 SSD 或 Faster-R-CNN 这样的对象检测模型可以隐式学习这个矩阵吗？

我的标签框是在热图像上完成的。

深度图中同一物体对应的像素即使不在同一个位置也会被使用吗？

这是 SSD 型号的示意图：

我只淹没了框坐标预测（最佳先验和真实对象位置之间的增量）而没有相应的对象类预测（5 x 5 x 4xnb_classes）

我的第一个想法是，如果深度图像中的对象不在标签框内（这是在热图像上完成的），网络将检测到 2 个不同的对象并因预测深度图像上的对象而受到惩罚（因为没有标签此处的框），因此网络将学会忽略深度通道。

我对吗？或者网络有没有办法可以处理这个 pb 并学习如何在深度通道中使用像素？（另一个对象检测模型可以处理这个 pb 吗？）

我认为核心问题，直观地说，是卷积保持对象在整个网络中的定位，因此我们不能将通道 1 (x, y) 中的像素链接到通道 2 (x+delta, y+delta) 中的像素

感谢您的时间。

score 0 · Accepted Answer

当在通道中考虑两个输入时，这可能会起作用，但为了获得更好的结果，最好在将其提供给任何模型之前对其进行纠正。该模型不会进行任何校正，但会应用统计方法。

1 回答 1