0

我正在做一个需要从音频流中提取 MFCC 特征的项目。该项目主要包括分类,尽管为了扩展我们的数据集,我正在研究一种检测算法来隔离我们有兴趣分类的声音部分。

我正在测试不同的表示,并且由于数据的性质(我希望我可以提供更多细节,但我正在与之合作的教授更愿意将其保密,我相当确定),我会想象 delta 系数在顶部MFCC 系数会有所帮助。

我正在提取 40 个 MFCC 系数和 40 个 Delta 系数,并将其用于检测。我有一组训练数据,其中包含一个 40 毫秒的窗口,该窗口以我感兴趣的音频流部分为中心。然后我正在使用该数据训练 GMM。

为了测试(及其实际用例),我将较长的音频流(2 秒左右)拆分为一系列 MFCC 帧。我提取每一帧的对数似然,并根据对数似然分数内的百分位数对检测进行阈值化,当使用 delta 系数时,我得到了奇怪的结果。

特征表示中不使用 Delta 系数

特征表示中使用的 Delta 系数

您可以忽略底部的 4 个数字,它们只是用于可视化我的阈值方案。

我想知道的是,为什么与不使用 delta 时相比,使用 delta 系数时对数似然的行为如此奇怪?

提前谢谢您,如果您需要澄清,请询问。

4

1 回答 1

0

查看信号的幅度。与非 delta 相比,Delta Coeffs 示例低得令人怀疑。也许这只是一个噪音?

尝试在完全相同的记录上运行有和没有 delta 的系统。调试起来会更容易。

您还可以使用 delta 附加 MFCC 的类似频谱图的可视化。

于 2017-10-26T07:18:40.367 回答