0

我有一串遵循“语法”的字母。我的训练集上也有关于字符串是否遵循“语法”的布尔标签。基本上,我的模型试图学习确定一串字母是否符合规则。这是一个相当简单的问题(我是从教科书中得到的)。

我正在生成这样的数据集:

def generate_dataset(size):
    good_strings = [string_to_ids(generate_string(embedded_reber_grammar))
                    for _ in range(size // 2)]
    bad_strings = [string_to_ids(generate_corrupted_string(embedded_reber_grammar))
                   for _ in range(size - size // 2)]
    all_strings = good_strings + bad_strings
    X = tf.ragged.constant(all_strings, ragged_rank=1)

    # X = X.to_tensor(default_value=0)

    y = np.array([[1.] for _ in range(len(good_strings))] +
                 [[0.] for _ in range(len(bad_strings))])
    return X, y

注意线X = X.to_tensor(default_value=0)。如果这条线被注释掉,我的模型就学得很好。但是,如果它没有被注释掉,它就无法学习,并且验证集的表现与机会(50-50)相同。

这是我的实际模型:

np.random.seed(42)
tf.random.set_seed(42)

embedding_size = 5

model = keras.models.Sequential([
    keras.layers.InputLayer(input_shape=[None], dtype=tf.int32, ragged=True),
    keras.layers.Embedding(input_dim=len(POSSIBLE_CHARS) + 1, output_dim=embedding_size),
    keras.layers.GRU(30),
    keras.layers.Dense(1, activation="sigmoid")
])
optimizer = keras.optimizers.SGD(lr=0.02, momentum = 0.95, nesterov=True)
model.compile(loss="binary_crossentropy", optimizer=optimizer, metrics=["accuracy"])
history = model.fit(X_train, y_train, epochs=5, validation_data=(X_valid, y_valid))

我将0其用作密集张量的默认值。strings_to_ids不使用 0 作为任何值,而是从 1 开始。此外,当我切换到使用密集张量时,我更改为ragged=TrueFalse.不知道为什么使用密集张量会导致模型失败,因为我已经使用过之前在类似练习中的密集张量。

有关更多详细信息,请参阅书中的解决方案(练习 8)或我自己的 colab笔记本

4

1 回答 1

0

结果证明,密集张量的形状在训练集和验证集上是不同的。这是因为两组之间最长的序列长度不同(与测试集相同)。

于 2021-01-29T20:09:17.310 回答