直观地说,从几乎任何物体的不同角度给出十几个左右的 2d 图像,似乎应该很容易构建该物体的 3d 表示。随后,以这种方式获得的 3d 表示库可用于识别新的 2d 图像。
沿着这些思路有哪些文献,为什么它还没有产生强大的对象识别?
直观地说,从几乎任何物体的不同角度给出十几个左右的 2d 图像,似乎应该很容易构建该物体的 3d 表示。随后,以这种方式获得的 3d 表示库可用于识别新的 2d 图像。
沿着这些思路有哪些文献,为什么它还没有产生强大的对象识别?
是你的“直觉”这个词给你带来了麻烦。你的大脑在设计上并不是很擅长某些任务,比如瞬间将数千个数字相乘。然而,对于原始计算能力,你的大脑让最快的计算机看起来只是眨眼(神经响应时间只有大约 10 毫秒,但所有并行工作的 10^14 个左右的神经元完全胜过任何现代机器)。只是你的大脑旨在解决计算上更复杂的问题,例如识别图片中的对象、解析声音数据以及在背景噪音中挑选出单个扬声器。学习对数以万计的对象进行分类和处理。
你的大脑被设计成能很好地完成令人难以置信的计算密集型事情,这些事情对一个人来说似乎是“直觉的”。它没有被设计成真正做好的事情似乎“不直观”或困难。但是强大的对象识别所需的原始计算(因为对象种类繁多,其中许多确实有子对象、多种分类和非刚性形式,例如“裤子”、“水”、“狗”)远远超过完成人们认为只有计算机才能完成的事情所需的东西。像使用“常识”来解决日常问题这样的事情对一个人来说同样微不足道,但在计算上却非常复杂。
你想做的确实是可能的,但是(有不少但是)
对于 3D 重建:
这些都是可以解决的问题,所以假设你做到了,现在你有一张来自你想要匹配到你的 3D 形状的对象的新图片。
您当然可以尝试找到适合新图片的形状的 2D 投影,但是那里的搜索空间很大。使用您为初始 3D 重建构建的特征查找和匹配系统直接将新图片与现有集合匹配,并以这种方式找到它适合对象的位置,可能会更容易和更快。
因此,一旦您解决了创建初始 3D 重建的问题,您的第二步基本上也已完成。
光合作用是这两个步骤的一个很好的例子。浏览该站点,尝试找到他们那里的一些参考资料。
至于你的最后一步,强大的对象识别,想象一下搜索空间!强大的对象识别除了要识别的对象的良好表示之外,还需要一种搜索已知对象空间的好方法,以及表示新对象的好方法(对象的图像)这种情况下)在那个空间里。这是我几乎一无所知的事情。
为了在不同的 2D 图像中匹配相同的对象,有SIFT 特征。但我认为这不能很好地转化为 3D。
请注意,您所描述的是实例识别。如今,计算机确实可以很好地完成实例识别。例如,Google Goggles 非常擅长识别金门大桥和埃菲尔铁塔等地标。
但是,计算机不太擅长进行类别识别和分类。在所有类型的照明条件等下为所有可能的对象创建数十个 2D 快照很快变得难以处理。某些物体(例如狗)可以四处移动,这一事实使可能性的空间更大。计算机在这方面变得更糟。
此外,从生物学的角度来看,我们的视野约为 1 亿像素。显卡现在才开始能够实时渲染那么多数据。理解这么多数据的计算量甚至更大。
人们经常谈到让一台机器达到 5 岁儿童处理信息的能力。但是让我们想想有多少数据。1 亿像素,3 个颜色通道,每像素 1 个字节 = 300MB/s。现在将其乘以每秒 30 帧、每年 31,556,926 秒和 5 年,最终得到大约 1.4 艾字节 (1.4x10^18)。