0

我正在做一个项目,通过使用广告的剪辑片段(口号)检测传输中的广告,基于如下查看音轨:
音频信号->帧->窗口-> FFT(快速傅立叶变换)- -> DCT(离散余弦变换)-> MFCC(梅尔频率倒谱系数)-> DTW(动态时间规整)。为此,我使用 MFCC作为音频功能,DTW(动态时间扭曲)用于比较音频帧和帧之间的欧几里德距离的平均值,以计算扭曲距离。然后翘曲距离除以要计算的总帧数MSE(均方误差),根据阈值 1 检查。

我的算法无法检测来自嘈杂传输的广告和相同标语的不同广告。我是否对这种类型的音频检测使用了正确的方法?还有其他更合适的方法吗?如果需要,你能建议我任何好的信号预过滤吗?

4

0 回答 0