c++ - 检测录音中的不同声音/来源

Question

我需要一些关于我对 UNI 项目的想法的建议。

我想知道是否可以将音频文件拆分为来自不同音频源的不同“流”。例如，将音频文件拆分为：引擎噪音、火车噪音、人声、始终不存在的不同声音等。

我不一定需要从编程语言中执行此操作（尽管它会很理想），但也可以通过使用 Sound Forge 之类的声音处理软件手动执行。不过，我需要先知道这是否可行。我对声音处理一无所知。

第一阶段完成后（分离声音），我想确定一个处理过的声音是否存在于另一个录音中。目的是声音检测。对于（一个理想的）示例，获取汽车引擎声音并将其与另一个文件进行匹配，并确定该音频是否是汽车引擎的录音。它不需要那么精确，我想检测一个不恒定的声音，比如喇叭！也会好的。

我会做编程部分，我只需要一些关于寻找什么的指针（软件、数学等）。由于我不是声音专家，如果可能的话，这将是一个非常有趣的项目。

谢谢。

score 1 · Accepted Answer

这种基于源分割声音的问题在研究中被称为（音频）源分离或音频信号分离。如果没有关于声源或它们如何混合的更多信息，则为盲源分离问题。有数百篇关于这些主题的论文。

然而，出于声音检测的目的，通常不需要在音频级别上分离声音。很多时候，人们可以（并且将会）对基于混合信号计算的特征进行检测。搜索有关声学事件检测和声学事件分类的文献。

score 0 · Accepted Answer

从单个音频流中进行自动源分离非常困难。你的大脑非常擅长这项任务，它也受益于立体声信号。

例如。语音中充满了并非一直存在的信号。汽车噪音的成分非常固定，但换档是异常值。

不幸的是，没有简单的答案。

score 0 · Accepted Answer

将参考信号与音频流相关联。使用 FFT 可以有效地完成相关性。可以对相关计算的输出进行阈值处理并及时“去抖动”以进行信号识别。

3 回答 3