13

我目前正在用普通的 numpy 实现一个 CNN,并有一个关于最大池层反向传播的特殊情况的简短问题:

虽然很明显,关于非最大值的梯度消失了,但我不确定切片的多个条目等于最大值的情况。严格来说,函数在这个“点”上不应该是可微的。但是,我假设可以从相应的次微分中选择一个次梯度(类似于在 x=0 处为 Relu 函数选择次梯度“0”)。

因此,我想知道是否就足以简单地形成相对于最大值之一的梯度并将剩余的最大值视为非最大值。

如果是这种情况,是否建议随机选择最大值以避免偏差,或者总是选​​择第一个最大值?

4

0 回答 0