speech-recognition - 我如何提取hmm的后验概率？

翻译自：https://stackoverflow.com/questions/43129829 2017-03-30T23:09:57.703

157 次

我刚刚从我的模型中提取了帧级别的对齐。

fash-b-an251 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 134 134 134 134 134 134 134 134 134 44 44 44 44 44 44 44 44 44 111 111 111 111 111 111 111 111 111 111 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1

每个电话类都在 data/lang/phones.txt 文件中定义，根据这个电话可以分为 X ， X_B ，X_I，X_E，X_S

其中_B音素开始_E音素结尾，_S音素单例，_I音素中间，X只是一个音素。

我的印象是每个音素都是使用三态 hmm 解码的，因此认为可以在给定三帧 => 三组特征 => 三组序列发射概率 => 的帧级别解码音素确定音素。

但情况似乎并非如此，因此该特征必须包含来自静态、增量、增量增量的信息。

如果是这种情况，是否可以提取每个音素的三种状态的预期后验概率？

是否有可能给定一组功能（足以解码音素），将其解码为给定预制脚本的音素？

speech-recognition - 我如何提取hmm的后验概率？

0 回答 0

Related

Reference