4

分类器网络的隐藏层使用 sigmoid 或其他激活函数来引入非线性和规范化数据,但最后一层是否使用 sigmoid 和 softmax 结合?

我觉得这并不重要,网络会以任何一种方式进行训练——但是否应该单独使用 softmax 层?还是应该先应用 sigmoid 函数?

4

1 回答 1

3

一般来说,在 softmax 输出层之前进行额外的 sigmoid 激活是没有意义的。由于 sigmoid 函数是softmax 的部分情况,它只会将值[0, 1]连续两次压缩到区间中,这将给出几乎均匀的输出分布。当然,您可以通过它进行传播,但效率会低得多。

顺便说一句,如果你选择不使用 ReLu,那么 tanh 绝对是比 sigmoid更好的激活函数。

于 2017-10-07T20:59:10.767 回答