我正在尝试识别短语中单个单词的开始/结束时间。我有一个短语和话语文本的 WAV 文件。
有没有一种智能的方法可以结合这两种数据(音频、文本)来提高 Sphinx 的识别能力?我想要输出的是短语中每个单词的准确开始/停止时间。
(我知道你可以传递-time yes
给 pocketsphinx 来获取我正在寻找的时间数据——但是,语音识别本身并不是很准确。)
解决方案不能针对特定的演讲者,因为我正在使用的语料库包含许多不同的演讲者,尽管他们都使用美国英语。
我正在尝试识别短语中单个单词的开始/结束时间。我有一个短语和话语文本的 WAV 文件。
有没有一种智能的方法可以结合这两种数据(音频、文本)来提高 Sphinx 的识别能力?我想要输出的是短语中每个单词的准确开始/停止时间。
(我知道你可以传递-time yes
给 pocketsphinx 来获取我正在寻找的时间数据——但是,语音识别本身并不是很准确。)
解决方案不能针对特定的演讲者,因为我正在使用的语料库包含许多不同的演讲者,尽管他们都使用美国英语。
为此,我们有一个特定的工具 - sphinx4 中的音频校准器。你可以检查
http://cmusphinx.sourceforge.net/2014/07/long-audio-aligner-landed-in-trunk/