我有一个语音应用程序,如果能够使用“触发词”开始录制音频,它将会大大改进。我不需要完整的语音文本引擎,只需要可靠/有效地检测触发词的能力。
我想知道是否有任何专门的语音引擎支持这个特定的用例,或者有任何库/方法来开发这种单一用途的检测引擎。理想情况下,我希望它可以在嘈杂的环境中工作,但可以针对单个用户的声音进行训练。
指向研究论文/主题的指针也将不胜感激,所以我知道要问什么。
我有一个语音应用程序,如果能够使用“触发词”开始录制音频,它将会大大改进。我不需要完整的语音文本引擎,只需要可靠/有效地检测触发词的能力。
我想知道是否有任何专门的语音引擎支持这个特定的用例,或者有任何库/方法来开发这种单一用途的检测引擎。理想情况下,我希望它可以在嘈杂的环境中工作,但可以针对单个用户的声音进行训练。
指向研究论文/主题的指针也将不胜感激,所以我知道要问什么。
我在 Red5 项目中的一位同事创建了一个类似的演示,使用触发词来对图像存储库运行搜索。说“猫”会使猫的图像在大约一秒钟内出现。客户端应用程序是用 Flash 编写的,后端使用免费的 Sphinx 库在 Red5 上运行。你当然可以毫不费力地用 Sphinx 做你想做的事。
狮身人面像项目:http ://cmusphinx.sourceforge.net/sphinx4/
好的,我可能会完全关闭,但是使用功能齐全的语音识别库可能对您的用例来说太过分了..
如果您可以使用更简单但仍受音频驱动的东西,请考虑以下内容:
检测拍手非常简单。拍手将在整个音频频带上产生高能量。检测它比完整的语音识别简单且计算成本低得多。
简而言之,您录制音频,对数据进行(短时间)FFT,并检测您在 80% 的可用频率区间中具有高能量的情况。由于简单的录音室/麦克风设置,80% 可以解决任何相位问题。然后根据口味调整阈值,就完成了。
对语音识别做同样的事情也是可能的,但是你会消耗大量的 CPU 周期。
什么操作系统?例如,我想知道Windows Vista 中的语音功能是否会对您有所帮助。对于任何语音分析器来说,识别一个单词似乎是最简单的问题。
我有一个录音win32应用程序。我使用 OCX 来管理录制/播放。
我知道这不完全是您要求的解决方案,但您可能需要考虑使用脚踏板。它的编程很简单,并且非常像一个口语来开始/停止录音。检查这些: www.pedalpower.com
希望能帮助到你,
雷纳尔多。
就在几天前,有人问了一个关于 linux 上语音识别可能性的问题。您要求的是其中的一个子集,我认为其中一些答案可能包含有用的信息。joeforker 的答案中链接的文章非常有趣。