speech-recognition - 语音识别算法如何识别同音字？

Question

我之前也在思考这个问题。现代算法（特别是那些将语音转换为文本的算法）使用什么线索来确定说哪个同音字（例如，to，to，to，too，还是两个？）

他们是否使用上下文线索？句子的结构？也许每个单词通常的发音方式略有不同（例如，我通常将 o 音在两个中的保持时间比在to中的时间长）。前两者的组合似乎最合理。

score 7 · Accepted Answer

他们是否使用上下文线索？

是的，ASR 系统使用填字游戏上下文。例如，如果前一个单词是“going”，那么下一个单词可能是“to”而不是“two”。ASR 系统考虑概率并选择最佳可能的解码变体。

句子的结构？

是的，ASR 系统还使用更高级的语言模型来预测给定上下文的可能单词。

也许每个单词通常的发音方式略有不同（例如，我通常将 o 音在两个中的保持时间比在 to 中的时间长）。

那个也是。实际上，“too”和“to”的发音完全不同。“to”通常简化为 shwa。

如果您对语音识别算法感兴趣，阅读 ASR 书籍或查看在线课程可能会很有意义。详情见

1 回答 1