1

我知道谷歌语音搜索的工作原理是将原始音频(当然是数字化的)发送到谷歌的服务器,然后谷歌以文本形式返回结果。

结果本身相对较小(除非它是一个很长的句子......),所以我相信通过 Internet 发送它所花费的时间可以忽略不计(扣除 HTTP 开销、服务器负载等)。

我有兴趣知道发送到 Google 语音服务器的实际“模拟”原始音频的大小 (KB),以便大致了解该组件对 Internet 连接速度(上行链路)的依赖性。

当然,原始音频包的大小很大程度上取决于所说的短语(一个词?整个句子?一个很长的句子?),所以我正在寻找一些关于这个的统计信息(平均,典型等)。

我也知道那些原始音频数据包被压缩了。有关压缩方法的任何信息?(它不是 MP3,不是吗?)

Android 设备和 PC(即基于 Chrome)之间的压缩是否不同?

虽然这似乎不是一个直接的编程问题,但就我而言,它与编程非常直接相关,因为答案可能会影响在构建基于 Google 语音搜索的应用程序时要使用的算法。

4

1 回答 1

2

我没有测量实际发送到 Google 服务器的数据量,但让我们合理假设语音搜索

  • 记录单声道
  • 以 16kHz 采样率记录
  • 16 位分辨率的记录
  • 应用无损压缩,尺寸缩小 2 倍

在这种情况下,1 秒的录制消耗(1 * 16,000 * 2) / 2 = 16,000 bytes.

于 2012-07-11T19:46:14.093 回答