3

谷歌最近在他们的语音识别软件方面取得了长足的进步,该软件用于几个开源产品,例如 Chromium Web Speech和 Android Handsfree texting。我想将他们的语音识别用作我的服务器堆栈的一部分,但是我找不到太多关于它的信息。

文本识别软件是否以库或包的形式提供?或者,我可以从另一个程序调用 chromium 将一些音频文件转录为文本吗?

4

2 回答 2

1

Web Speech API 仅设计用于 Chrome 或 Android 的上下文中。客户端有很多工作要做,所以没有公共服务器到服务器 API 只会获取音频文件并处理它。

如果您搜索 github,您会找到诸如https://gist.github.com/alotaiba/1730160之类的工具,但我很确定这种访问方法 100% 不被支持、认可或确认继续工作。

于 2013-05-29T15:17:03.893 回答
1

之前在https://gist.github.com/alotaiba/1730160中所述的方法对我有用。我每天在我的家庭自动化程序中使用它。我使用 python 脚本来捕获音频并确定什么是有用的音频或只是噪音,然后它将小音频片段发送到谷歌并在一秒钟内返回所有文本!我已经成功地将它集成到我的程序中,如果你在周围搜索一下,你会发现更多的人也拥有它!

于 2013-06-23T04:11:37.233 回答