11

我正在尝试自学一些机器学习,并且一直在使用 MNIST 数据库(http://yann.lecun.com/exdb/mnist/)这样做。该网站的作者在 98 年写了一篇关于所有不同类型的手写识别技术的论文,可在http://yann.lecun.com/exdb/publis/pdf/lecun-98.pdf获得。

提到的第 10 种方法是“切线距离分类器”。这个想法是,如果将每个图像放置在 (NxM) 维向量空间中,则可以将两个图像之间的距离计算为由每个图像形成的超平面之间的距离,其中超平面是通过取点和旋转图像来给出的,重新缩放图像,翻译图像等。

我想不出足以填补缺失的细节。我知道其中大多数确实是线性算子,那么如何使用这一事实来创建超平面呢?一旦我们有了一个超平面,我们如何计算它与其他超平面的距离?

4

1 回答 1

17

我会给你一些提示。您需要一些图像处理方面的背景知识。详见2、3。_ _

  • 2c切线距离的实现
  • 3是一篇更详细地描述切线距离的论文

图像卷积

根据3,您需要做的第一步是平滑图片。下面我们展示了 3 种不同平滑操作的结果(查看第 4 节 of 3)(左列显示结果图像,右列显示原始图像和卷积算子)。这一步是将离散向量映射到连续向量,使其可微。作者建议使用高斯函数。如果你需要更多关于图像卷积的背景知识,这里有一个例子。

在此处输入图像描述

完成此步骤后,您已经计算了水平和垂直偏移:

在此处输入图像描述 在此处输入图像描述

计算缩放正切

在这里,我向您展示了在2中实现的切线计算之一——缩放切线。从3,我们知道转换如下:

在此处输入图像描述

/* scaling */
for(k=0;k<height;k++)
  for(j=0;j<width;j++) {
    currentTangent[ind] = ((j+offsetW)*x1[ind] + (k+offsetH)*x2[ind])*factor;
    ind++;
  }

td.cin 2的实现开始时,我们知道以下定义:

factorW=((double)width*0.5);
offsetW=0.5-factorW;
factorW=1.0/factorW;

factorH=((double)height*0.5);
offsetH=0.5-factorH;
factorH=1.0/factorH;

factor=(factorH<factorW)?factorH:factorW; //min

作者使用尺寸为 16x16 的图像。所以我们知道

factor=factorW=factorH=1/8, 

offsetH=offsetW = 0.5-8 = -7.5

另请注意,我们已经计算过

  • x1[ind]= ,
  • x2[ind]=

因此,我们插入这些常量:

currentTangent[ind] = ((j-7.5)*x1[ind] + (k-7.5)*x2[ind])/8
                    = x1 * (j-7.5)/8 + x2 * (k-7.5)/8.

由于j(also k) 是 0 到 15 之间的整数(图像的宽度和高度为 16 像素),(j-7.5)/8因此只是 到 之间的-0.9375分数0.9375

所以我猜(j+offsetW)*factor是每个像素的位移,它与像素到图像中心的水平距离成正比。同样你知道垂直位移(k+offsetH)*factor

计算旋转正切

旋转切线在3中定义如下:

在此处输入图像描述

/* rotation */
for(k=0;k<height;k++)
  for(j=0;j<width;j++) {
    currentTangent[ind] = ((k+offsetH)*x1[ind] - (j+offsetW)*x2[ind])*factor;
    ind++;
  }

使用前面的结论,我们知道(k+offsetH)*factor对应于y。同样- (j+offsetW)*factor对应-x。所以你知道这正是3中使用的公式。

您可以在2处找到3中描述的所有其他切线。我喜欢3中的下图,它清楚地显示了不同变换切线的位移效果。 在此处输入图像描述

计算图像之间的切线距离

只需按照tangentDistance函数中的实现:

// determine the tangents of the first image
calculateTangents(imageOne, tangents, numTangents, height, width, choice, background);

// find the orthonormal tangent subspace 
numTangentsRemaining = normalizeTangents(tangents, numTangents, height, width);

// determine the distance to the closest point in the subspace
dist=calculateDistance(imageOne, imageTwo, (const double **) tangents, numTangentsRemaining, height, width);

我认为以上内容应该足以让您入门,如果缺少任何内容,请仔细阅读3并查看2中的相应实现。祝你好运!

于 2012-11-12T22:19:48.723 回答