我正在使用使用 KenLM 生成的语言模型从头开始(没有检查点)训练 DeepSpeech,如其文档中所述。该数据集是波斯语的通用语音数据集。
我的配置如下:
- 批量大小 = 2(由于 cuda OOM)
- 学习率 = 0.0001
- 编号。神经元 = 2048
- 编号。纪元 = 50
- 训练集大小 = 7500
- 测试和开发集大小 = 5000
- 第 1 层到第 5 层的 dropout = 0.2(也试验了 0.4,结果相同)
训练和验证损失在训练过程中减少,但经过几个时期,验证损失不再减少。train loss 约为 18,val loss 约为 40。
在过程结束时,预测都是空字符串。任何想法如何改进模型?