python - 尝试预测音频时出错：无法计算输出张量（“ctc/ExpandDims_22:0”

Question

所以我尝试使用 librispeech 数据集 dev-clean 创建一个语音识别神经网络。我试图将https://github.com/soheil-mpg/Speech-Recognition中的代码转换为 jupyter notebook。

一切似乎都在工作。该模型可以训练并且不会给出任何错误。但是当使用 model.predict() 我得到以下错误：

AssertionError: Could not compute output Tensor("ctc/ExpandDims_22:0", shape=(None, 1), dtype=float32)

代码几乎相同，我唯一改变的是，我不使用 json，而是使用 pandas DataFrame。

score 1 · Accepted Answer

我找到了答案！：模型的输出维度错误。
当然，ctc 损失应该只在训练期间添加到模型中。

添加 ctc 损失时，它应该只发生在函数的范围内：

model = add_ctc_loss(model)

并且创建一个只在函数范围内增加损失的训练函数不会改变模型。

1 回答 1