deep-learning - 具有非线性激活函数（比如 ReLU）的神经网络可以用于线性分类任务吗？

Question

我认为答案是肯定的，但我无法对此做出很好的解释。

score 1 · Accepted Answer

数学论证在于表示线性的能力，我们可以使用以下三个引理来证明：

引理 1

通过仿射变换（线性层），我们可以将输入超立方体 [0,1]^d 映射到任意小框 [a,b]^k。证明很简单，我们可以让所有的偏差都等于a，然后让权重乘以(ba)。

引理 2

对于足够小的尺度，许多非线性是近似线性的。这实际上是一个导数或泰勒展开式的定义。特别是让我们取 relu(x)，对于 x>0 它实际上是线性的！乙状结肠呢？好吧，如果我们看一个很小的区域 [-eps, eps]，您可以看到它接近线性函数，因为 eps->0！

引理 3

仿射函数的组合是仿射的。换句话说，如果我要创建一个具有多个线性层的神经网络，它就相当于只有一个。这来自矩阵组合规则：

W2(W1x + b1) + b2 = W2W1x + W2b1 + b2 = (W2W1)x + (W2b1 + b2)
                                        ------    -----------
                                    New weights   New bias

结合以上

组合上面的三个引理，我们看到在非线性层中，总是存在线性函数的任意良好近似！我们简单地使用第一层将整个输入空间映射到预激活空间的微小部分，您的线性度近似线性，然后我们在下一层“映射回”。

一般情况

这是一个非常简单的证明，现在通常您可以使用通用逼近定理来证明足够大的非线性神经网络（Sigmoid、Relu 等）可以逼近任何平滑目标函数，包括线性目标函数。然而，这个证明（最初由 Cybenko 给出）要复杂得多，并且依赖于证明特定类的函数在连续函数空间中是密集的。

score 0 · Accepted Answer

从技术上讲，是的。

您可以为此任务使用非线性激活函数的原因是您可以手动更改结果。假设激活函数输出的范围在 0.0-1.0 之间，那么您可以向上或向下舍入以获得二进制 0/1。需要明确的是，向上或向下舍入不是线性激活，但对于这个特定问题，网络的目的是用于分类，必须应用某种舍入。

您不应该这样做的原因与您不应该将工业加热器连接到风扇并称其为吹风机的原因相同，它不必要地强大并且可能会浪费资源和时间。

我希望这个答案对您有所帮助，祝您有美好的一天！

deep-learning - 具有非线性激活函数（比如 ReLU）的神经网络可以用于线性分类任务吗？

2 回答 2

引理 1

引理 2

引理 3

结合以上

一般情况

Related

Reference