我正在做一个需要从音频流中提取 MFCC 特征的项目。该项目主要包括分类,尽管为了扩展我们的数据集,我正在研究一种检测算法来隔离我们有兴趣分类的声音部分。
我正在测试不同的表示,并且由于数据的性质(我希望我可以提供更多细节,但我正在与之合作的教授更愿意将其保密,我相当确定),我会想象 delta 系数在顶部MFCC 系数会有所帮助。
我正在提取 40 个 MFCC 系数和 40 个 Delta 系数,并将其用于检测。我有一组训练数据,其中包含一个 40 毫秒的窗口,该窗口以我感兴趣的音频流部分为中心。然后我正在使用该数据训练 GMM。
为了测试(及其实际用例),我将较长的音频流(2 秒左右)拆分为一系列 MFCC 帧。我提取每一帧的对数似然,并根据对数似然分数内的百分位数对检测进行阈值化,当使用 delta 系数时,我得到了奇怪的结果。
您可以忽略底部的 4 个数字,它们只是用于可视化我的阈值方案。
我想知道的是,为什么与不使用 delta 时相比,使用 delta 系数时对数似然的行为如此奇怪?
提前谢谢您,如果您需要澄清,请询问。