audio - 文件和麦克风录音之间的音频信号差异

Question

我正在开发用于现场录音的语音情感识别系统。我正在使用OpenSMILE库进行特征提取。我收集了一组包含不同类别语音类型的音频文件，并从中提取特征并训练基于支持向量机的分类器进行情感识别。然而，当在现场演讲中进行测试时，这完全失败了。原因是现场语音中的信号以及因此的特征分布（MFCC、LSP、音高、强度、F0）与文件中的完全不同。OpenSMILE 库使用portaudio来访问来自麦克风的音频信号。

我尝试通过无线方式播放文件（f_original）并通过麦克风录制，然后让 OpenSMILE 保存它（f_distorted）。我发现 f_original 和 f_distorted 在播放时听起来与人耳没有太大区别。然而，在大胆可视化时的音频信号差异很大，从 f_original 和 f_distorted 中提取的特征差异很大。文件 f_original 为 16000Hz，我在特征提取之前将其上采样到 44100Hz。麦克风以 44100Hz 的频率录制。

虽然我确实预计通过麦克风录制时会出现一些失真，但我看到的失真量是极端的。

有没有其他人遇到过类似的问题？有关如何解决此问题的任何指示。

谢谢！

score 1 · Accepted Answer

这在很大程度上取决于录音的环境因素，包括房间、扬声器/麦克风组合的频率响应以及它们在录音室内的类型/位置。该软件可能可以帮助您清理它，但获得干净的录音将是影响您的软件分析能力的最重要的因素。

假设您的录音电平设置正确，并且您的麦克风和扬声器具有相对平坦的频率响应，您仍将根据环境转换声音的频率分布。

这种效果在播放时可能不会立即明显，但会有一些声音元素受到不利影响。这已被作曲家使用，效果很好。

请参阅 Alvin Lucier在http://www.ubu.com/sound/lucier.html上的《我坐在房间里》，以获取此类作品的精美示例。

您在该录音中听到的许多瞬态拖尾效应会极大地影响语音分析，因此需要非常详细地考虑录音的设置。最好与音响工程师交谈以获取有关录音设置的提示，因为这似乎是您似乎正在努力解决的部分。例如，您没有提及您正在使用的房间的声学特性或音频设置。

您还可以对您打算使用的房间/麦克风/扬声器设置进行脉冲响应，然后用脉冲对录制的语音进行反卷积，理论上这应该将录音减少到原始信号的完美表示。这很棘手，但可以提供一些令人瞠目结舌的结果。

audio - 文件和麦克风录音之间的音频信号差异

1 回答 1

Related

Reference