1

我正在训练一个支持向量机来识别语音信号中的打击,训练后的模型在 wav 输入文件上的工作准确率几乎达到 95%。我正在计算具有 5ms 重叠的 10ms 帧的 MFCC 特征。

但是,如果我尝试对实时流进行预测,我正在使用 openAL 读取声卡缓冲区,并且我获取的每个缓冲区内容都是 30 毫秒长,并且不知何故,对这种输入的预测甚至不接近 50%,而是在另一方面,如果我在将音频输入馈送到 SVM 进行预测时记录它,然后如果我检查这个记录数据的准确性,它又是 95%。

我无法弄清楚在流式音频的情况下是什么导致了这种差异。任何帮助都会很棒。

4

0 回答 0