我们正在寻找一个 api 来获得语音到文本。在我们的例子中,我们想要将音频挖掘添加到视频文件中,这意味着我们想要自动为视频生成标签词,并让用户有机会直接跳转到说出标签词的时间码。
我发现 Google Speech API 似乎工作得很好,但http://lists.w3.org/Archives/Public/public-xg-htmlspeech/2011Feb/att-0020/api-draft.html下的文档不是最好的,我们还没有找到一种方法来自动触发开始和停止记录事件(它在系统认为输入结束后结束)。即使听起来系统还没有为这种情况做好准备......
我还在这里找到了这篇文章https://stackoverflow.com/questions/2080401/is-there-a-speech-to-text-api-by-google,但似乎只能在 android 系统上使用。
所以基本上我的问题是:是否可以将 Google Speech API 与 flash 或 PHP/JS 之类的东西一起使用(如果是的话,是否有任何好的示例),如果没有,是否有人知道其他一些 API 以及一些好的文档或示例代码将视频中的语音转换为文本?
谢谢,克里斯