speech-recognition - “语音触发”检测

Question

我有一个语音应用程序，如果能够使用“触发词”开始录制音频，它将会大大改进。我不需要完整的语音文本引擎，只需要可靠/有效地检测触发词的能力。

我想知道是否有任何专门的语音引擎支持这个特定的用例，或者有任何库/方法来开发这种单一用途的检测引擎。理想情况下，我希望它可以在嘈杂的环境中工作，但可以针对单个用户的声音进行训练。

指向研究论文/主题的指针也将不胜感激，所以我知道要问什么。

score 2 · Accepted Answer

我在 Red5 项目中的一位同事创建了一个类似的演示，使用触发词来对图像存储库运行搜索。说“猫”会使猫的图像在大约一秒钟内出现。客户端应用程序是用 Flash 编写的，后端使用免费的 Sphinx 库在 Red5 上运行。你当然可以毫不费力地用 Sphinx 做你想做的事。
狮身人面像项目：http ://cmusphinx.sourceforge.net/sphinx4/

score 1 · Accepted Answer

好的，我可能会完全关闭，但是使用功能齐全的语音识别库可能对您的用例来说太过分了..

如果您可以使用更简单但仍受音频驱动的东西，请考虑以下内容：

检测拍手非常简单。拍手将在整个音频频带上产生高能量。检测它比完整的语音识别简单且计算成本低得多。

简而言之，您录制音频，对数据进行（短时间）FFT，并检测您在 80% 的可用频率区间中具有高能量的情况。由于简单的录音室/麦克风设置，80% 可以解决任何相位问题。然后根据口味调整阈值，就完成了。

对语音识别做同样的事情也是可能的，但是你会消耗大量的 CPU 周期。

score 0 · Accepted Answer

什么操作系统？例如，我想知道Windows Vista 中的语音功能是否会对您有所帮助。对于任何语音分析器来说，识别一个单词似乎是最简单的问题。

score 0 · Accepted Answer

我有一个录音win32应用程序。我使用 OCX 来管理录制/播放。

我知道这不完全是您要求的解决方案，但您可能需要考虑使用脚踏板。它的编程很简单，并且非常像一个口语来开始/停止录音。检查这些： www.pedalpower.com

希望能帮助到你，

雷纳尔多。

score 0 · Accepted Answer

就在几天前，有人问了一个关于 linux 上语音识别可能性的问题。您要求的是其中的一个子集，我认为其中一些答案可能包含有用的信息。joeforker 的答案中链接的文章非常有趣。

speech-recognition - “语音触发”检测

5 回答 5

Related

Reference