tensorflow - Keras如何在还没有维度的情况下计算早期的参数个数？

Question

很抱歉这个非常基本的问题（我是 Keras 的新手）。我想知道 Keras 如何在早期（拟合之前）计算每一层的参数数量，尽管 model.summary 显示在这个阶段仍有一些维度具有 None 值。这些值是否已经以某种方式确定，如果是，为什么不在摘要中显示它们？

我问这个问题是因为我很难弄清楚我的“张量形状错误”（我试图确定我的 resnet50 模型的 C5 块的输出尺寸，但我在 model.summary 中看不到它们，即使我看到参数的数量）。

我在下面给出了一个基于 RetinaNet 中的 C5_reduced 层的示例，该层由 Resnet50 的 C5 层提供。C5_reduced 是

Conv2D(256,kernel_size=1,strides=1,pad=1)

基于此特定层的 model.summary：

C5_reduced (Conv2D)    (None, None, None, 256)          524544

我猜测 C5 是 (None,1,1,2048)，因为 2048*256+256 = 524544（我不知道如何证实或证实该假设）。因此，如果它已经知道，为什么不在摘要中显示呢？如果维度 2 和维度 3 不同，那么参数的数量也会不同，对吧？

score 1 · Accepted Answer

您需要为模型定义一个输入层。在您 a) 编译模型并为其提供数据之前，可训练参数的总数是未知的，此时模型会根据输入的维度制作图表，然后您将能够确定参数的数量，或者b）您为模型定义了一个输入层，并声明了输入维度，然后您可以使用 model.summary() 找到参数的数量。

关键是模型无法知道输入和第一个隐藏层之间的参数数量，直到它被定义，或者你运行推理并给它输入的形状。

score 1 · Accepted Answer

如果您将精确的输入形状传递给网络上的第一层或输入层，您将获得所需的输出。例如，我在这里使用了输入层：

input_1 (InputLayer)         [(None, 224, 224, 3)]     0         
_________________________________________________________________
block1_conv1 (Conv2D)        (None, 224, 224, 64)      1792      
_________________________________________________________________
block1_conv2 (Conv2D)        (None, 224, 224, 64)      36928

将输入作为 (224,224,3) 传递。3 代表这里的深度。请注意，卷积参数的计算不同于密集层的计算。

如果您执行以下操作：

tf.keras.layers.Conv2D(16, (3,3), activation='relu', input_shape=(150, 150, 3))

你会看见：

conv2d (Conv2D) ---> (None, 148, 148, 16)

默认情况下，尺寸减小到 148x148，在 Keras 中填充valid。也是strides1。那么输出的形状将是148 x 148。（您可以搜索公式。）

那么什么是None值？

第一个None值是批量大小。在 Keras 中，第一个维度是批量大小。您可以传递它们并进行修复，或者您可以在拟合模型或预测时确定它们。
在 2D 卷积中，预期的输入是(batch_size, height, width, channels)，您还可以具有(None, None, None, 3)等形状，这意味着允许不同的图像大小。

编辑：

tf.keras.layers.Input(shape = (None, None, 3)),
tf.keras.layers.Conv2D(16, (3,3), activation='relu')

产生：

conv2d_21 (Conv2D)           (None, None, None, 16)    448

关于您的问题，即使我们将图像高度和宽度传递为None，如何计算参数？

卷积参数计算依据：

(filter_height * filter_width * input_image_channels + 1) * number_of_filters

当我们将它们放入公式中时，

filter_height = 3
filter_width = 3
input_image_channel = 3
number_of_filters = 16

参数 = (3 x 3 x 3 + 1) * 16 = 28 * 16 = 448

注意，我们只需要 input_image 的通道号为 3，表示它是 RGB 图像。

如果要计算后面卷积的参数，则需要考虑上一层的过滤器数量变成当前层通道的通道数。

这就是你最终可以拥有None参数而不是 batch_size 的方式。在这种情况下，Keras 需要知道您的图像是否为 RGB。或者您在创建模型时不会指定维度，并且可以在将模型与数据集拟合时传递它们。

tensorflow - Keras如何在还没有维度的情况下计算早期的参数个数？

2 回答 2

Related

Reference