我正在构建一个包含语音识别的应用程序 - 我打算使用 Android 语音识别服务或语音输入功能。
根据我的阅读,语音大部分是在云端处理的。我的问题是是否有人知道音频以什么格式发送到云端?例如,是 WAV、MP3 或 PCM 之类的东西,还是可能完全是其他东西?
我承认这主要是出于好奇,想更多地了解幕后发生的事情。(但在一定程度上,它也与对预处理和后处理对识别的影响的兴趣有关。)
我正在构建一个包含语音识别的应用程序 - 我打算使用 Android 语音识别服务或语音输入功能。
根据我的阅读,语音大部分是在云端处理的。我的问题是是否有人知道音频以什么格式发送到云端?例如,是 WAV、MP3 或 PCM 之类的东西,还是可能完全是其他东西?
我承认这主要是出于好奇,想更多地了解幕后发生的事情。(但在一定程度上,它也与对预处理和后处理对识别的影响的兴趣有关。)
好吧,我也一直在寻找那个信息,我能得到的最接近的是谷歌的chrome 语音识别 API,它使用了FLAC音频编解码器。我不确定android是否也使用它,但它是我得到的最接近的东西。