有什么方法可以通过算法确定 .wav 或 .mp3 文件的音频质量吗?
基本上,我的用户具有不同的录音设置(即他们来自世界各地,我无法控制他们)将音频录制到 mp3/wav 文件。此时软件应该确定他们的设置是否正确(可悲的是,由于某种原因,他们无法仅通过听自己的录音来做出决定,因此有时我们会得到基本上无法理解的录音,因为低音量或高噪音)。
我正在检查音量以确保麦克风电平正常;不幸的是,这错过了音量高但清晰度低的情况。我想知道是否可以进行某种标准扫描(最好是在 Python 中)来检测何时存在大量背景噪音。
我意识到一种可能的解决方案是让他们录制完全静音,然后与口语录音进行比较,如果“静音”录音的音量与口语录音的音量太接近,则认为音频“不好”。但这取决于两次都从演讲者那里得到一个好的样本,这可能是我可以依赖的东西,也可能不是。
所以我想知道是否有一种方法可以扫描音频文件(大约 10 秒长)并识别声音文件是“嘈杂”还是清晰。