keras - tf.keras 嵌入 mask_zero=True 后跟 GlobalAveragePooling1D 生成 TypeError

Question

我正在使用 tf.keras 在谷歌 colab 上使用 tensorflow v2。我正在尝试使用带有掩蔽的嵌入，然后是全局平均值。这是我的代码：

vocab_size = 1500

inputs = Input(shape=(None,), dtype=tf.int32, name='word_sequence')

x = Embedding(input_dim=vocab_size, output_dim=16, mask_zero=True)(inputs)

outputs = tf.keras.layers.GlobalAveragePooling1D()(x)

model = Model(inputs, outputs)

但我得到了这个错误：

TypeError：无法将类型对象转换为张量。内容：[-1，无，1]。考虑将元素转换为支持的类型。

如果我提供了序列 Input(shape=(10,), .....) 的显式长度，那么它似乎没有错误（尽管我没有用样本数据对其进行测试）。我想知道为什么你需要指定一个显式的序列长度，我认为这可以在运行时当层第一次遇到数据时懒惰地完成。

此外，以下作品（取自“masking and padding” tf教程）：

inputs = tf.keras.Input(shape=(None,), dtype='int32')
x = layers.Embedding(input_dim=5000, output_dim=16, mask_zero=True)(inputs)
outputs = layers.LSTM(32)(x)

model = tf.keras.Model(inputs, outputs)

对于 LSTM，在模型的功能 api 构建过程中，它似乎对 None 的输入形状很满意。

有人可以解释一下 GlobalAveragePooling1D 有什么问题吗，或者这应该可以工作，但我做错了什么？

谢谢。

score 0 · Accepted Answer

我没有添加评论的声誉，所以这就是我想说的：我似乎有同样的问题，无论是 GRU 还是 LSTM。当我改用 GlobalMaxPooling1D 时，问题似乎消失了。我觉得这是Masking的底层实现引起的问题，但我对低级Keras API一无所知，无法对此发表评论。

score 0 · Accepted Answer

这是因为当 input_mask 不为 None 时 GlobalAveragePooling1D 的实现需要指定时间步长维度。所以如果你尝试去掉 Embedding 层的 mask_zero = True ，就可以成功构建模型。

查看 GlobalAveragePooling1D 的源代码，我们可以看到：

  def call(self, inputs, mask=None):
    steps_axis = 1 if self.data_format == 'channels_last' else 2
    if mask is not None:
      mask = math_ops.cast(mask, backend.floatx())
      input_shape = inputs.shape.as_list()
      broadcast_shape = [-1, input_shape[steps_axis], 1]
      mask = array_ops.reshape(mask, broadcast_shape)
      inputs *= mask
      return backend.sum(inputs, axis=steps_axis) / math_ops.reduce_sum(
          mask, axis=steps_axis)
    else:
      return backend.mean(inputs, axis=steps_axis)

因此，如果掩码不是无（在您的示例中，掩码是嵌入层生成的掩码，因为您设置了 mask_zero=True），则广播形状将为 [-1，无，1]，并且无会导致重塑错误（掩码，广播形状）。所以我认为唯一的解决方案是将时间步长（序列长度）指定为输入形状。

keras - tf.keras 嵌入 mask_zero=True 后跟 GlobalAveragePooling1D 生成 TypeError

2 回答 2

Related

Reference