我正在开发用于现场录音的语音情感识别系统。我正在使用OpenSMILE库进行特征提取。我收集了一组包含不同类别语音类型的音频文件,并从中提取特征并训练基于支持向量机的分类器进行情感识别。然而,当在现场演讲中进行测试时,这完全失败了。原因是现场语音中的信号以及因此的特征分布(MFCC、LSP、音高、强度、F0)与文件中的完全不同。OpenSMILE 库使用portaudio来访问来自麦克风的音频信号。
我尝试通过无线方式播放文件(f_original)并通过麦克风录制,然后让 OpenSMILE 保存它(f_distorted)。我发现 f_original 和 f_distorted 在播放时听起来与人耳没有太大区别。然而,在大胆可视化时的音频信号差异很大,从 f_original 和 f_distorted 中提取的特征差异很大。文件 f_original 为 16000Hz,我在特征提取之前将其上采样到 44100Hz。麦克风以 44100Hz 的频率录制。
虽然我确实预计通过麦克风录制时会出现一些失真,但我看到的失真量是极端的。
有没有其他人遇到过类似的问题?有关如何解决此问题的任何指示。
谢谢!