我刚刚从我的模型中提取了帧级别的对齐。
fash-b-an251 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 134 134 134 134 134 134 134 134 134 44 44 44 44 44 44 44 44 44 111 111 111 111 111 111 111 111 111 111 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
每个电话类都在 data/lang/phones.txt 文件中定义,根据这个电话可以分为 X , X_B ,X_I,X_E,X_S
其中_B音素开始_E音素结尾,_S音素单例,_I音素中间,X只是一个音素。
我的印象是每个音素都是使用三态 hmm 解码的,因此认为可以在给定三帧 => 三组特征 => 三组序列发射概率 => 的帧级别解码音素确定音素。
但情况似乎并非如此,因此该特征必须包含来自静态、增量、增量增量的信息。
如果是这种情况,是否可以提取每个音素的三种状态的预期后验概率?
是否有可能给定一组功能(足以解码音素),将其解码为给定预制脚本的音素?