cmusphinx - 使用 Sphinx 识别短语中口语单词的开始/停止时间

Question

我正在尝试识别短语中单个单词的开始/结束时间。我有一个短语和话语文本的 WAV 文件。

有没有一种智能的方法可以结合这两种数据（音频、文本）来提高 Sphinx 的识别能力？我想要输出的是短语中每个单词的准确开始/停止时间。

（我知道你可以传递-time yes给 pocketsphinx 来获取我正在寻找的时间数据——但是，语音识别本身并不是很准确。）

解决方案不能针对特定的演讲者，因为我正在使用的语料库包含许多不同的演讲者，尽管他们都使用美国英语。

score 0 · Accepted Answer

为此，我们有一个特定的工具 - sphinx4 中的音频校准器。你可以检查

1 回答 1