nlp - 如何计算使用任何方法（SR 或其他）说出的单词数

翻译自：https://stackoverflow.com/questions/9619354 2012-03-08T14:39:35.017

4167 次

我在获取有关如何执行看似简单的任务的指针时遇到了一些麻烦：

给定一个音频流，你如何实时计算已经说出的单词数？

我不需要识别单词是什么，而只需对已说出的单词进行准确的计数。计数器不必太准确，甚至可以考虑话语和其他“咕噜声”，如咳嗽。

似乎所有语音识别系统都依赖于要提供的预定义语法，然后才能分析说出的音素以某种程度的准确度转换为已知单词。但我根本不关心准确性，而是说单词的速度。

重要的是它实时运行，并允许系统在说出一定数量的单词后提供警报。系统将鼓励视觉提示暂停，然后扬声器可以继续。

我查看了 CMU Sphinx 常见问题解答，发现尚不支持“单词识别”的想法。我真的不需要实时搜索特定的单词，但它更接近我正在寻找的内容。在波形中寻找非常小的静音似乎是一种非常粗略的方法，可能根本不是很准确，但这就是我现在所拥有的。

任何关于算法、研究论文或任何其他见解的指针将不胜感激！

0 回答 0