我想为听写之类的应用程序构建语音识别系统。我阅读了 htk book 和其他教程,但所有教程都是针对命令和控制之类的应用程序。对于这些应用程序,命令集、字数有限,并且是使用任务语法(gram
文件)手动指定的。
在我的应用程序中,无法指定这样的语法,因为我将处理包含两个人之间对话的巨大音频文件。
所以我想知道是否可以使用 htk 构建这样的应用程序。
谢谢...
睡了很多晚后更新
我使用 Sphinx 获得了 86% 的准确率。语言模型存在一些问题(我不知道它到底出了什么问题,我正在努力找出它)所以我使用 Sphinx 创建了新的语言模型lmtool
,这是一个基于 Web 的语言模型生成服务。您可以使用此链接获取它
此外,我已将声学模型从 HUB 更改为 WSJ。