0

要直接使用 Google 的语音 API,现在需要您获取 API 密钥。要获得该密钥,您必须订阅 chromium-dev@chromium.org 新闻组,然后按照几个步骤操作,Google 将为您提供一个“不用于分发”的开发人员密钥。关键是每天 50 个请求的速率限制。

例如,node-google-speech-api 概述了节点应用程序需要此密钥才能直接访问 Google 的语音 API(不使用浏览器): https ://github.com/psirenny/node-google-语音API

还有用于访问 Google 语音 API 的 PHP 库和 Java 库,也需要此密钥。

我想编写一个利用谷歌语音识别技术的桌面应用程序,但是对于广泛分发甚至我设想的软件的单一桌面部署来说,每天 50 个请求的限制是不可接受的。如果语音识别以某种方式中断,我会看到个人桌面用户每天最多 500 个请求,其中大多数可能是长时间轮询/连续的,所以可能每天只有 2 或 3 个请求,但几个小时一次。将其乘以几百个用户,我每天很容易超过 50 个请求。

我试图想办法在我自己的应用程序中在桌面上访问谷歌卓越的语音识别技术(语言无关紧要,但 node.js 可能是其中的一部分,因此首选 node.js 解决方案)这个限制让我开始考虑 Google Chrome 恰好实现的 Web Speech API 标准。

据我所知,Google Chrome 对 Web Speech API 的实现没有硬性请求/天限制,与 Google Speech API 相比,我可以愉快地编写整天使用 Web Speech API 的网站,而不受限制或限制最少直接的。这让我想到,如果我分发一个 Chrome(不是 Chromium)浏览器,那么真正的 Google Chrome 浏览器,但添加了一个“扩展”,允许自定义 html5 网页中的 javascript 与客户端上的其他应用程序交互系统(即与这个特殊的 Chrome 安装一起运行的 Node.js 应用程序)并以 Javascript、Web Speech API 样式编写我的语音识别部分,并将输出通过管道传输到我设计并安装在客户系统上的另一个应用程序中。

那会/可以吗?

这种方法的缺陷是什么?

您是否有其他方法的建议,或者您可能会推荐一种商业许可的解决方案,该解决方案可与 Google 语音技术的易用性和极高的自然语言准确性相媲美?

4

1 回答 1

1

一种可能的尝试方法是Chrome 应用程序
,它将在 Chrome 的沙盒实例中运行,并将使用 HTML + Javascript 实现。

对用户来说,它看起来就像一个桌面应用程序。

于 2014-08-21T17:37:41.350 回答