machine-learning - 感知器的几何表示（人工神经网络）

Question

我正在参加 Geoffrey Hinton 的 Coursera 神经网络课程（不是当前课程）。

我对权重空间有一个非常基本的疑问。 https://d396qusza40orc.cloudfront.net/neuralnets/lecture_slides%2Flec2.pdf 第 18 页。在此处输入图像描述

如果我有一个权重向量（偏差为 0）为 [w1=1,w2=2] 和训练案例为 {1,2,-1} 和 {2,1,1} 我猜 {1,2} 和{2,1} 是输入向量。如何用几何表示？

我无法想象它？为什么训练案例给出一个将权重空间分成 2 的平面？有人可以在 3 维坐标轴上解释这一点吗？

以下是ppt中的文字：

1.重量空间每个重量有一个维度。

2.空间中的一个点对所有的权重都有特定的设置。

3.假设我们已经消除了阈值，每个超平面可以表示为一个通过原点的超平面。

我的疑问在上面的第三点。请帮助我理解。

score 8 · Accepted Answer

如果您深入研究数学，可能更容易解释。基本上，单层神经网络正在对输入向量执行某些功能，将其转换为不同的向量空间。

您不想直接在 3 维中思考这个问题。从小处着手，制作 1-2 维的图表很容易，几乎不可能在 3 维中画出任何有价值的东西（除非您是一位出色的艺术家），并且能够将这些东西画出来是无价的。

让我们以最简单的情况为例，当您输入长度为 2 的向量时，您有一个维度为的权重向量2x1，这意味着长度为 1 的输出向量（实际上是一个标量）

在这种情况下，很容易想象您有以下形式：

input = [x, y]
weight = [a, b]
output = ax + by

如果我们假设weight = [1, 3]，我们可以看到，并希望直觉我们的感知器的响应将是这样的：在此处输入图像描述

对于权重向量的不同值，行为在很大程度上没有变化。

很容易想象，如果您将输出限制在二进制空间中，则有一个平面，可能比上面显示的平面高 0.5 个单位，构成您的“决策边界”。

当你进入更高维度时，这变得越来越难以想象，但如果你想象所显示的平面不仅仅是一个二维平面，而是一个 nd 平面或超平面，你可以想象同样的过程会发生。

由于实际创建超平面需要固定输入或输出，因此您可以认为给您的感知器一个单一的训练值作为创建一个“固定”[x,y]值。这可用于创建超平面。遗憾的是，这无法有效地可视化，因为 4-d 绘图在浏览器中并不真正可行。

希望可以解决问题，如果您有更多问题，请告诉我。

score 5 · Accepted Answer

我在准备一篇关于线性组合的大型文章时遇到了这个问题（它是俄语，https://habrahabr.ru/post/324736/）。它有一个关于重量空间的部分，我想分享一些想法。

让我们以一个简单的线性可分数据集为例，它有两个类，红色和绿色：

上图在数据空间 X 中，其中样本由点表示，权重系数构成一条线。可以用以下公式表示：

w^T * x + b = 0

但是我们可以反过来重写它，使x分量成为向量系数，而w成为向量变量：

x^T * w + b = 0

因为点积是对称的。现在可以通过以下方式在权重空间中对其进行可视化：

其中红线和绿线是样本，蓝点是权重。

更多可能的权重仅限于以下区域（以洋红色显示）：

这可以在数据空间 X 中可视化为：

希望它能稍微澄清数据空间/权重空间的相关性。随时提出问题，很乐意为您提供更详细的解释。

score 3 · Accepted Answer

The "decision boundary" for a single layer perceptron is a plane (hyper plane)

plane

where n in the image is the weight vector w, in your case w={w1=1,w2=2}=(1,2) and the direction specifies which side is the right side. n is orthogonal (90 degrees) to the plane)

A plane always splits a space into 2 naturally (extend the plane to infinity in each direction)

you can also try to input different value into the perceptron and try to find where the response is zero (only on the decision boundary).

Recommend you read up on linear algebra to understand it better: https://www.khanacademy.org/math/linear-algebra/vectors_and_spaces

score 2 · Accepted Answer

通过原点的平面方程写成以下形式：

ax+by+cz=0

若a=1,b=2,c=3;平面方程可写为：

x+2y+3z=0

因此，在 XYZ 平面上，方程：x+2y+3z=0

现在，在权重空间中，每个维度都代表一个权重。因此，如果感知器有 10 个权重，则权重空间将是 10 维的。

感知器方程：ax+by+cz<=0==> Class 0

                          ax+by+cz>0  ==> Class 1

在这种情况下；a、b 和 c 是权重。x、y 和 z 是输入特征。

在权重空间中；a、b 和 c 是变量（轴）。

因此，对于每个训练示例；例如：(x,y,z)=(2,3,4)；将在权重空间中形成一个超平面，其方程为：

2a+3b+4c=0

穿越原点。

我希望，现在，你明白了。

score 2 · Accepted Answer

对于具有 1 个输入和 1 个输出层的感知器，只能有 1 个 LINEAR 超平面。而且由于没有偏差，超平面将无法在轴上移动，因此它将始终共享相同的原点。但是，如果存在偏差，它们可能不再共享同一点。

score 2 · Accepted Answer

我认为训练案例可以表示为超平面的原因是……假设 [j,k] 是权重向量， [m,n] 是训练输入

训练输出 = jm + kn

假设从这个角度来看，训练案例是固定的并且权重是变化的，训练输入 (m, n) 变成了系数，权重 (j, k) 变成了变量。就像在任何教科书中 z = ax + by 是一个平面一样，training-output = jm + kn 也是一个由 training-output、m 和 n 定义的平面。

score 0 · Accepted Answer

考虑我们有 2 个权重。所以w = [w1, w2]。假设我们有输入x = [x1, x2] = [1, 2]。如果您使用权重进行预测，则您有z = w1*x1 + w2*x2和 prediction y = z > 0 ? 1 : 0。

假设输入的标签x是 1。因此，我们希望y= 1，因此我们想要z = w1*x1 + w2*x2 > 0。考虑向量乘法，z = (w ^ T)x。所以我们想要(w ^ T)x > 0. 这个表达式的几何解释是和之间的角度w小于x90 度。例如，绿色向量是一个候选者w，在这种情况下会给出正确的预测 1。实际上，相对于的线，位于同一侧的任何向量w1 + 2 * w2 = 0作为绿色向量都会给出正确的解。但是，如果它像红色向量那样位于另一侧，那么它会给出错误的答案。但是，假设标签为 0。那么情况正好相反。

上面的案例让直觉理解，只是说明了讲座幻灯片中的 3 点。测试用例 x 确定平面，并且根据标签，权重向量必须位于平面的特定一侧才能给出正确答案。

machine-learning - 感知器的几何表示（人工神经网络）

7 回答 7

Related

Reference