speech-recognition - 语音识别中强制对齐的问题 - HTK

Question

我有一个系统，要求用户在提示后重复一个句子。它使用用户口语HTK到force-align预定义的词级标签文件（句子的）来获得时间对齐的电话级文件。HMM 已经在大量数据上进行了训练，并提供了非常准确的时间对齐文件HVite。当用户没有说出需要说出的确切句子时，就会出现我的问题。让我用一个例子来说明：

需要说出的目标句子的字级标签文件（用户知道）：
这是一个非常好的一天。
用户说（案例 1）：这是一个非常好的一天。
在这种情况下，用户重复了完全相同的句子。时间对齐的文件非常准确，一切都很好。
用户说（案例 2）：这是美好的一天。
在这种情况下，使用上面给出的字级标签文件执行强制对齐。生成的时间对齐文件显示了用户从未说过的单词的时间瞬间（例如 VERY 存在于原始句子中但不存在于此处）。

有没有办法HTK检测并可能避免这种情况？

一种解决方案是某种前端预处理器，它可以进行语音识别（这本身就是一个非常困难的问题，因为它必须有无限的词汇量）并让用户知道他们所说的内容是不正确的。

是否有任何工具/命令行选项HTK允许我这样做？

PS：如果需要更多详细信息，请告诉我。

谢谢，
斯里拉姆

score 2 · Accepted Answer

将文本与可能不正确的转录对齐的任务相当复杂，需要专门的工具。HTK 强制对齐太简单了。您需要构建一个适当的 wdnet，而不是使用带有 -a 的 HVite，该 wdnet 将解释由于转录不匹配导致的可能插入、删除和替换。

在 CMUSphinx，我们目前正在运行一个项目来实现此功能。您已经可以使用它来将文本与不精确的转录对齐。您可以在这里查看进度：

http://cmusphinx.sourceforge.net/?s=long+audio+alignment

speech-recognition - 语音识别中强制对齐的问题 - HTK

1 回答 1

Related

Reference