0

我正在帮助客户转换视频文件ffmpeg,他们最初使用-b:a 64k的是将视频以 44100 的采样率(-ar 44100参数 in ffmpeg)转码为音频时使用的。他们的目标是他们希望使用 Google Cloud Speech To Text 生成最准确的转录API。

在梳理他们的文档时,我没有发现任何关于比特率如何影响转录准确性的信息。所以我的问题是——使用更高的比特率,比如128k帮助我获得更好的转录,还是没关系?

4

1 回答 1

1

比特率用于描述传输到音频中的数据量。更高的比特率通常意味着更好的音频质量。较高的比特率包含更多一般意义上的细节,意味着它具有更好的音质。与照片相比,高分辨率图片质量更好,因为其中包含更多细节。

Google 参考建议16,000Hz使用Google Speech-to-Text. 因此,为了获得最佳结果,较高的采样率或比特率是优选的,因为它是高质量的。

如果您正在处理mono理论上低质量的音频文件,并且您将其转换为更高的比特率,则转换后不一定会提高音频质量。如果源音频文件用于将其转换为更高的比特率,理想情况下这将产生相同的质量,只是增加其比特率。因此,首先使用更高的比特率录制音频文件非常重要。

于 2020-11-11T06:05:33.643 回答