问候小伙伴们,
我正在拼命地尝试在 htk 3.4 中找到我必须修改的文件,以便我可以直接读取语音的音素/单音素的后验概率序列,并将它们直接转发给解码器,同时考虑到声学和语言模型。
更详细地说,我正在遵循 HTK 教程,包括第 9 步,我只想在单声道上工作。我的(自己的,特定的)特征向量是具有每个音素 3 种状态概率的向量序列,类似于
(p(aa_begin), p(aa_mid), p(aa_end), ..., p(z_begin), p(z_mid), p(z_end))
对于话语中的每一帧,其中的条目,如上所述,已经是后验概率。
知道我需要修改哪些文件才能从我的(特定)文件(自己的二进制格式)中读取这些文件,以及如何将它们直接转发到解码器吗?最好让我可以使用 HVite 和 HEResult 来获得结果?
非常感谢您的帮助,G。