我有 100,000 多个单词到他们的音素(CMUdict)的映射,例如:
ABANDONED => [ 'AH', 'B', 'AE', 'N', 'D', 'AH', 'N', 'D' ]
我想将原始单词的字母分成等于音素数量的组,例如
ABANDONED => [ 'A', 'B', 'A', 'N', 'D', 'O', 'N', 'ED' ]
我没有音素到字素的映射,但似乎我应该能够计算音素到字素的统计模型,然后用它来决定在哪里分割每个单词。(如果该模型也可以用于将新单词转换为其可能的音素,那就太好了)
我怎样才能做到这一点?我在想一个隐藏的马尔可夫模型听起来可能是适用的,但除了那种预感我不知道。