我正在考虑为我的母语开发语音识别软件,我正在考虑为此使用 CMUSphinx-4。有一个 CMU 字典文件,其中包含将原始单词拆分映射到其音素边界的英语单词。例如, ABANDONED => [ 'AH', 'B', 'AE', 'N', 'D', 'AH', 'N', 'D' ] 我无法理解这背后的逻辑,我想为这种单词对话开发一种算法。如果有人知道这种转换的算法或这种分裂是如何发生的,请与我分享。
我正在考虑为我的母语开发语音识别软件,我正在考虑为此使用 CMUSphinx-4。有一个 CMU 字典文件,其中包含将原始单词拆分映射到其音素边界的英语单词。例如, ABANDONED => [ 'AH', 'B', 'AE', 'N', 'D', 'AH', 'N', 'D' ] 我无法理解这背后的逻辑,我想为这种单词对话开发一种算法。如果有人知道这种转换的算法或这种分裂是如何发生的,请与我分享。