1

我正在开发用于现场录音的语音情感识别系统。我正在使用OpenSMILE库进行特征提取。我收集了一组包含不同类别语音类型的音频文件,并从中提取特征并训练基于支持向量机的分类器进行情感识别。然而,当在现场演讲中进行测试时,这完全失败了。原因是现场语音中的信号以及因此的特征分布(MFCC、LSP、音高、强度、F0)与文件中的完全不同。OpenSMILE 库使用portaudio来访问来自麦克风的音频信号。

我尝试通过无线方式播放文件(f_original)并通过麦克风录制,然后让 OpenSMILE 保存它(f_distorted)。我发现 f_original 和 f_distorted 在播放时听起来与人耳没有太大区别。然而,在大胆可视化时的音频信号差异很大,从 f_original 和 f_distorted 中提取的特征差异很大。文件 f_original 为 16000Hz,我在特征提取之前将其上采样到 44100Hz。麦克风以 44100Hz 的频率录制。

虽然我确实预计通过麦克风录制时会出现一些失真,但我看到的失真量是极端的。

有没有其他人遇到过类似的问题?有关如何解决此问题的任何指示。

谢谢!

4

1 回答 1

1

这在很大程度上取决于录音的环境因素,包括房间、扬声器/麦克风组合的频率响应以及它们在录音室内的类型/位置。该软件可能可以帮助您清理它,但获得干净的录音将是影响您的软件分析能力的最重要的因素。

假设您的录音电平设置正确,并且您的麦克风和扬声器具有相对平坦的频率响应,您仍将根据环境转换声音的频率分布。

这种效果在播放时可能不会立即明显,但会有一些声音元素受到不利影响。这已被作曲家使用,效果很好。

请参阅 Alvin Lucier在http://www.ubu.com/sound/lucier.html上的《我坐在房间里》,以获取此类作品的精美示例。

您在该录音中听到的许多瞬态拖尾效应会极大地影响语音分析,因此需要非常详细地考虑录音的设置。最好与音响工程师交谈以获取有关录音设置的提示,因为这似乎是您似乎正在努力解决的部分。例如,您没有提及您正在使用的房间的声学特性或音频设置。

您还可以对您打算使用的房间/麦克风/扬声器设置进行脉冲响应,然后用脉冲对录制的语音进行反卷积,理论上这应该将录音减少到原始信号的完美表示。这很棘手,但可以提供一些令人瞠目结舌的结果。

于 2013-06-03T22:56:34.490 回答