我有一张图片(例如 60x60),里面有多个项目。物品呈方形盒子的形状,尺寸为 4x4,随机放置在图像中。盒子(项目)本身是用随机模式创建的,一些随机像素打开,另一些则关闭。因此,它可能是图像中重复两次(或在超过 2 个项目的情况下重复多次)的同一个框,也可能是完全不同的。
我正在寻找一个可以接收原始图像(60x60)并输出图像中所有补丁的深度学习模型。
这就是我现在所拥有的,但随着讨论的开始,我绝对可以分享更多细节。我有兴趣权衡可以帮助我实现这一目标的不同选择。谢谢。
我有一张图片(例如 60x60),里面有多个项目。物品呈方形盒子的形状,尺寸为 4x4,随机放置在图像中。盒子(项目)本身是用随机模式创建的,一些随机像素打开,另一些则关闭。因此,它可能是图像中重复两次(或在超过 2 个项目的情况下重复多次)的同一个框,也可能是完全不同的。
我正在寻找一个可以接收原始图像(60x60)并输出图像中所有补丁的深度学习模型。
这就是我现在所拥有的,但随着讨论的开始,我绝对可以分享更多细节。我有兴趣权衡可以帮助我实现这一目标的不同选择。谢谢。
我会使用对象检测来解决这个问题。首先,我会训练一个网络,通过切掉那些对象的补丁来检测那些像盒子一样的对象。然后我会在上面运行一个 Faster R-CNN 或类似的东西。
您可能想看一下关于检测的斯坦福讲座(此处的幻灯片:http: //cs231n.stanford.edu/slides/2017/cs231n_2017_lecture11.pdf)。