ffmpeg - 比特率在 Google Speech To Text 转录的准确性中起什么作用？

Question

我正在帮助客户转换视频文件ffmpeg，他们最初使用-b:a 64k的是将视频以 44100 的采样率（-ar 44100参数 in ffmpeg）转码为音频时使用的。他们的目标是他们希望使用 Google Cloud Speech To Text 生成最准确的转录API。

在梳理他们的文档时，我没有发现任何关于比特率如何影响转录准确性的信息。所以我的问题是——使用更高的比特率，比如128k帮助我获得更好的转录，还是没关系？

score 1 · Accepted Answer

比特率用于描述传输到音频中的数据量。更高的比特率通常意味着更好的音频质量。较高的比特率包含更多一般意义上的细节，意味着它具有更好的音质。与照片相比，高分辨率图片质量更好，因为其中包含更多细节。

Google 参考建议16,000Hz使用Google Speech-to-Text. 因此，为了获得最佳结果，较高的采样率或比特率是优选的，因为它是高质量的。

如果您正在处理mono理论上低质量的音频文件，并且您将其转换为更高的比特率，则转换后不一定会提高音频质量。如果源音频文件用于将其转换为更高的比特率，理想情况下这将产生相同的质量，只是增加其比特率。因此，首先使用更高的比特率录制音频文件非常重要。

1 回答 1