1

我之前也在思考这个问题。现代算法(特别是那些将语音转换为文本的算法)使用什么线索来确定说哪个同音字(例如,to,to,to,too,还是两个?)

他们是否使用上下文线索?句子的结构?也许每个单词通常的发音方式略有不同(例如,我通常将 o 音在两个中的保持时间比在to中的时间长)。前两者的组合似乎最合理。

4

1 回答 1

7

他们是否使用上下文线索?

是的,ASR 系统使用填字游戏上下文。例如,如果前一个单词是“going”,那么下一个单词可能是“to”而不是“two”。ASR 系统考虑概率并选择最佳可能的解码变体。

句子的结构?

是的,ASR 系统还使用更高级的语言模型来预测给定上下文的可能单词。

也许每个单词通常的发音方式略有不同(例如,我通常将 o 音在两个中的保持时间比在 to 中的时间长)。

那个也是。实际上,“too”和“to”的发音完全不同。“to”通常简化为 shwa。

如果您对语音识别算法感兴趣,阅读 ASR 书籍或查看在线课程可能会很有意义。详情见

https://sourceforge.net/p/cmusphinx/discussion/speech-recognition/thread/3ea89abf/

于 2013-02-05T03:37:42.483 回答