我在获取有关如何执行看似简单的任务的指针时遇到了一些麻烦:
给定一个音频流,你如何实时计算已经说出的单词数?
我不需要识别单词是什么,而只需对已说出的单词进行准确的计数。计数器不必太准确,甚至可以考虑话语和其他“咕噜声”,如咳嗽。
似乎所有语音识别系统都依赖于要提供的预定义语法,然后才能分析说出的音素以某种程度的准确度转换为已知单词。但我根本不关心准确性,而是说单词的速度。
重要的是它实时运行,并允许系统在说出一定数量的单词后提供警报。系统将鼓励视觉提示暂停,然后扬声器可以继续。
我查看了 CMU Sphinx 常见问题解答,发现尚不支持“单词识别”的想法。我真的不需要实时搜索特定的单词,但它更接近我正在寻找的内容。在波形中寻找非常小的静音似乎是一种非常粗略的方法,可能根本不是很准确,但这就是我现在所拥有的。
任何关于算法、研究论文或任何其他见解的指针将不胜感激!