1

我有一个系统,要求用户在提示后重复一个句子。它使用用户口语HTKforce-align预定义的词级标签文件(句子的)来获得时间对齐的电话级文件。HMM 已经在大量数据上进行了训练,并提供了非常准确的时间对齐文件HVite当用户没有说出需要说出的确切句子时,就会出现我的问题。让我用一个例子来说明:

  1. 需要说出的目标句子的字级标签文件(用户知道):
    这是一个非常好的一天。

  2. 用户说(案例 1):这是一个非常好的一天。
    在这种情况下,用户重复了完全相同的句子。时间对齐的文件非常准确,一切都很好。

  3. 用户说(案例 2):这是美好的一天。
    在这种情况下,使用上面给出的字级标签文件执行强制对齐。生成的时间对齐文件显示了用户从未说过的单词的时间瞬间(例如 VERY 存在于原始句子中但不存在于此处)。

有没有办法HTK检测并可能避免这种情况?

一种解决方案是某种前端预处理器,它可以进行语音识别(这本身就是一个非常困难的问题,因为它必须有无限的词汇量)并让用户知道他们所说的内容是不正确的。

是否有任何工具/命令行选项HTK允许我这样做?

PS:如果需要更多详细信息,请告诉我。

谢谢,
斯里拉姆

4

1 回答 1

2

将文本与可能不正确的转录对齐的任务相当复杂,需要专门的工具。HTK 强制对齐太简单了。您需要构建一个适当的 wdnet,而不是使用带有 -a 的 HVite,该 wdnet 将解释由于转录不匹配导致的可能插入、删除和替换。

在 CMUSphinx,我们目前正在运行一个项目来实现此功能。您已经可以使用它来将文本与不精确的转录对齐。您可以在这里查看进度:

http://cmusphinx.sourceforge.net/?s=long+audio+alignment

于 2011-07-24T10:01:36.627 回答