我有一个音频缓冲区,我想对其执行语音识别/转录。我在本地的 CPU 和 RAM 有限,所以我想在服务器上执行识别。
是否有任何(网络)服务允许我这样做?
到目前为止,我的搜索毫无结果...
我有一个音频缓冲区,我想对其执行语音识别/转录。我在本地的 CPU 和 RAM 有限,所以我想在服务器上执行识别。
是否有任何(网络)服务允许我这样做?
到目前为止,我的搜索毫无结果...
Google 刚刚通过 HTML5 引入了基于浏览器的对其语音引擎的访问。
http://slides.html5rocks.com/#speech-input
为了让这个页面正常工作,我在 Ubuntu 中启动了 Chromium 浏览器,如下所示:
$ chromium-browser --enable-speech-input
我相信这个想法是能够构建使用谷歌语音识别器的应用程序,但我还没有机会深入研究它。
另一个有趣的项目是麻省理工学院的 WAMI: http ://wami.csail.mit.edu
Lumenvox提供这样的服务,但对于您的需求来说似乎很昂贵。