5

我正在使用 sknn 包来构建神经网络。为了优化我正在使用的数据集的神经网络参数,我正在使用进化算法。由于该软件包允许我构建一个神经网络,其中每一层都有不同的激活函数,我想知道这是否是一个实际的选择,或者我是否应该只为每个网络使用一个激活函数?在神经网络中具有多个激活函数是否会损害、不损害或有益于神经网络?

另外,我应该拥有的每层神经元的最大数量是多少,每个网络应该拥有的最大层数是多少?

4

2 回答 2

5

神经网络只是一个(大)数学函数。您甚至可以对同一层中的不同神经元使用不同的激活函数。不同的激活函数允许不同的非线性,这可能更好地解决特定函数。使用 sigmoid 而不是 tanh 只会产生微小的差异。更重要的是激活有一个很好的导数。通常使用 tanh 和 sigmoid 的原因是,对于接近 0 的值,它们的作用类似于线性函数,而对于较大的绝对值,它们的作用更像是符号函数((-1 或 0)或 1 ),并且它们具有很好的导数。一个相对较新的介绍是 ReLU (max(x,0)),它有一个非常简单的导数(x=0 除外),是非线性的,但重要的是计算速度很快,对于高训练的深度网络非常好次。

归根结底,对于全局性能,这方面的选择不是很重要,非线性和上限范围很重要。然而,为了挤出最后一个百分点,这个选择很重要,但主要取决于您的具体数据。这种选择就像隐藏层的数量和这些层内的神经元数量一样,必须通过交叉验证来找到,尽管您可以调整您的遗传算子以包括这些。

于 2016-06-21T14:53:53.203 回答
3

我想知道 [在每一层上具有不同的激活函数] 是否是一个实际的选择,或者我是否应该每个网络只使用一个激活函数?

简短的回答:这取决于

更长的答案:我正在尝试思考为什么您想要拥有多个激活功能。你没有在你的问题中说,所以我会在更理论的层面上回答。

一般建议/指导

神经网络只是数学函数的近似值,正确的设计将基于回答以下问题/答案

  • 逼近需要多近,以及你可以训练你的网络多近来逼近函数?
  • 网络对未经训练的数据集的泛化能力如何?它需要泛化到什么程度?

这是我认为与您的问题相关的一个额外的问题

  • 网络需要执行多快?您选择的激活函数如何影响性能?

如果您回答这些问题,您将对您的具体案例有更好的了解。

我的意见

构建具有多个激活函数的神经网络确实是在搅浑水,并使系统变得比它需要的更复杂。当我想到构建好的软件时,我首先想到的就是内聚设计。换句话说,系统作为一个整体是有意义的还是它做得太多了?

专业提示:不要构建软件Rube Goldburg Machines

如果你想在同一个网络中使用多个激活函数,我认为这并不具有凝聚力。如果您的问题出于某种原因确实需要这样做,那么请重新考虑该问题,并可能设计一个具有多个独立神经网络的系统,这些网络将各自以其各自的架构(包括激活函数的选择)服务于各自的目的。

于 2016-06-21T15:06:18.897 回答