我正在做一个项目,我想重建从相机图像中提取的特征点的 3D 位置。这个想法是:
- 进行相机录制(灰度信息,VGA 尺寸:640 x 480)
- 提取相机帧中的特征点(我为此使用 SIFT)
- 将 frame[k-1] 中的特征与 frame[k] 中的特征对应(我打算为此使用 RANSAC,稍后会详细介绍...)
- 计算/估计这些特征点之间的一些相对距离信息(这将在某些(x,y,z)坐标系中)
我在许多论文中读到 RANSAC 是一种用于重建的算法,最终结果是某种点云。我希望能够做到这一点。然而,我遇到了一些障碍,我希望你们能帮助我解决这些问题。
第一个障碍是我真的不明白如何使用 RANSAC 来执行这个点对应。我理解 RANSAC 作为模型拟合工具的概念,我只是不明白它如何用于进行对应求解。
第二个障碍是,假设我有我的通信信息,如何获得所有这些点之间的某种距离信息。我读过透视投影可以用来解决这个问题,反过来应该尝试估计基本矩阵。然后做一些数学魔术来获得点云。关键是,我不明白基本矩阵中的实际值是什么意思。我知道它给出了 2 个摄像机的位置(或者在我的情况下,摄像机正在移动的视频中的 2 帧)之间的数学关系,并且它利用了对极几何。但除此之外,我只是不知道基本矩阵实际上包含什么。这个 3x3 矩阵如何捕获 1 个摄像机相对于另一个摄像机的 6DOF?我也认为“数学魔法”
因此,我的问题是:你们中的任何人都可以指出我正确的方向吗?到目前为止,我一直在挖掘我读过的论文的参考资料,但这些也给了我“我们使用 RANSAC 算法解决这个问题”的意思,我越来越觉得我看错了方向。对这些事情是否有一些很好的解释,也许是外行的术语和/或一些插图?简而言之:我应该在哪里寻找或在哪里可以找到这条难以捉摸的信息?
提前致谢, Xilconic
PS:检查了维基百科,但这对我没有多大帮助。还听了《基础矩阵之歌》,也是同样的故事。