我有一个系统,要求用户在提示后重复一个句子。它使用用户口语HTK
到force-align
预定义的词级标签文件(句子的)来获得时间对齐的电话级文件。HMM 已经在大量数据上进行了训练,并提供了非常准确的时间对齐文件HVite
。当用户没有说出需要说出的确切句子时,就会出现我的问题。让我用一个例子来说明:
需要说出的目标句子的字级标签文件(用户知道):
这是一个非常好的一天。用户说(案例 1):这是一个非常好的一天。
在这种情况下,用户重复了完全相同的句子。时间对齐的文件非常准确,一切都很好。用户说(案例 2):这是美好的一天。
在这种情况下,使用上面给出的字级标签文件执行强制对齐。生成的时间对齐文件显示了用户从未说过的单词的时间瞬间(例如 VERY 存在于原始句子中但不存在于此处)。
有没有办法HTK
检测并可能避免这种情况?
一种解决方案是某种前端预处理器,它可以进行语音识别(这本身就是一个非常困难的问题,因为它必须有无限的词汇量)并让用户知道他们所说的内容是不正确的。
是否有任何工具/命令行选项HTK
允许我这样做?
PS:如果需要更多详细信息,请告诉我。
谢谢,
斯里拉姆