我想确定音频文件的哪一部分包含语音或音乐。
我希望有人制作了这样的东西,或者可以告诉我从哪里开始。您能否建议一些方法/教程来做同样的事情。
谢谢你。
我想确定音频文件的哪一部分包含语音或音乐。
我希望有人制作了这样的东西,或者可以告诉我从哪里开始。您能否建议一些方法/教程来做同样的事情。
谢谢你。
查看pyAudioAnalysis python 库。其中,它有一个预训练的语音音乐分类器和两种分割分类方法(一种基于固定大小的窗口,另一种基于 HMM)。
您可以很容易地提取录音的语音和音乐部分,例如:
from pyAudioAnalysis import audioSegmentation as aS
[flagsInd, classesAll, acc] = aS.mtFileClassification("data/scottish.wav", "data/svmSM", "svm", True, 'data/scottish.segments')
结果就是这张图片中的那个
这方面有很多现有技术,但我建议浏览Dan Ellis 的一些论文。这次演讲的幻灯片有一些很好的背景。简而言之,这一切都取决于选择正确的特征向量。