2

我正在尝试对经过自动语音识别任务训练的CTC损失训练的声学模型进行波束搜索解码。我使用的版本是基于这篇论文的。然而,尽管许多资料将相似词级语言模型的集成描述为有利于词错误率性能,但在我的情况下,LM 的集成使结果恶化。

这其实并没有让我太惊讶,因为语言模型只给词尾加完词的前缀打分,而打分的意思是把前缀的概率乘以LM概率,这样就降低了整个前缀的概率。这样,语言模型系统地降低了以词汇表中的单词结尾的前缀的概率,而未以完整单词结尾的前缀则根本不被 LM 评分。在每个时间步,以完整单词结尾的前缀似乎由于分数降低而被丢弃,而不完整的前缀则保留在光束中。

我的问题是,如果单词级 LM 集成降低了有效前缀的概率,为什么它应该起作用?我会理解一些在每一步都对所有内容进行评分的字符级 LM 或一些前瞻单词级 LM 可能会有所帮助。例如, Graves通过使用给定前缀的所有可能单词的概率总和以及在每个时间步应用 LM 更新来描述词级语言模型的集成,这似乎是合理的,即使计算成本可能要大得多。

4

0 回答 0