我是使用 HTK 的新手。我想将 HMM 用于非语音数据,但我没有找到任何好的示例,大多数示例都是针对语音的。
我知道我必须将我的数据特征转换为 HTK 格式。
我不知道如何配置 HTK,因为它使用字典和语法,而且我的数据不需要这些东西,因为它不是语音。
有人对此有很好的例子或任何建议吗?
我是使用 HTK 的新手。我想将 HMM 用于非语音数据,但我没有找到任何好的示例,大多数示例都是针对语音的。
我知道我必须将我的数据特征转换为 HTK 格式。
我不知道如何配置 HTK,因为它使用字典和语法,而且我的数据不需要这些东西,因为它不是语音。
有人对此有很好的例子或任何建议吗?
我最近从事基于 HTK 的 OCR 工作,发现这个 ICFHR 教程非常有用 ( http://transcriptorium.eu/~tutorialICFHR/ )。
唯一的本质区别是您的功能,因此所有配置参考 HTK 书就足够了。当然,你需要对一些配置和 HMM 定义进行一些修改,但是 GMM-HMM 的思想永远不会改变。例如,这里是 ASR 和 OCR 之间的映射表。
ASR: phone | tri-phone | lexicon [ word : decomposed_phone_sequence ]
OCR: char | tri_char | lexicon [ word : decomposed_char_sequence ]
我的建议是通读 HTK 书籍并使用一些演示代码。当您第一次使用 HTK 时,您可能会感到困惑,尤其是对于它的命令行参数,但一个月后您会感觉很舒服。