python - 什么是 b、y、x 和 c，它们与 tf.nn.max_pool_with_argmax 中的最大池化特征一起被展平并返回？

Question

我浏览了tf.nn.max_pool_with_argmax的文档

对输入执行最大池化并输出最大值和索引。

argmax 中的索引被展平，因此位置 [b, y, x, c] 处的最大值变为展平索引 ((b * height + y) * width + x) * channels + c。

返回的索引在展平之前总是在 [0, height) x [0, width) 中，即使涉及填充并且数学上正确的答案在外面（负数或太大）。这是一个错误，但很难以安全的向后兼容方式修复它，尤其是由于扁平化。

变量 b、y、x 和 c 尚未明确定义，因此我在实现此方法时遇到问题。有人可以提供相同的吗。

score 0 · Accepted Answer

由于声誉问题，我无法发表评论。

但我认为这些变量是指 Max Pooling 窗口的位置和大小。x 和 y 是内核沿输入矩阵移动时的 x 和 y 位置，b 和 c 是内核的宽度和高度。您可以在内核大小中设置 b 和 c。

如果您在使用 argmax 实现最大池时遇到问题，则与这些变量无关。您可能想要指定 Max Pooling 遇到的问题。

python - 什么是 b、y、x 和 c，它们与 tf.nn.max_pool_with_argmax 中的最大池化特征一起被展平并返回？

1 回答 1

Related

Reference