5

我每天录制来自互联网的 2 分钟广播。总是有相同的开始和结束的叮当声。由于无线电广播的确切时间可能会或多或少 6 分钟,因此我必须录制大约 15 分钟的广播。

我希望确定这些叮当声在 15 分钟记录中的确切时间,这样我就可以提取我想要的音频部分。

我已经启动了一个 C# 应用程序,在其中我将 MP3 解码为 PCM 数据并将 PCM 数据转换为基于http://www.codeproject.com/KB/audio-video/SoundCatcher.aspx的频谱图

我尝试对 PCM 数据使用互相关算法,但该算法在 6 分钟左右非常慢,步长为 10 毫秒,有时它无法找到叮当声的开始时间。

有什么算法可以比较两个频谱图进行匹配吗?还是找到叮当声开始时间的更好方法?

谢谢,

更新,抱歉耽搁了

首先,感谢所有的回答者,他们中的大多数都是相关的或有趣的想法。

我尝试实现 fonzo 提出的 Shazam 算法。但未能检测到频谱图中的峰值。这是来自三个不同记录的起始铃声的三个频谱图。我尝试了 AForge.NET 与 blob 过滤器(但它无法识别峰值),模糊图像并检查高度差异,拉普拉斯卷积,斜率分析,检测一系列垂直条(但有太多错误积极的)...

同时,我尝试了 Dave Aaron Smith 提出的 Hough 算法。我在哪里计算每列的 RMS。是的,是每一列,它是 O(N*M) 但 M << N (注意一列大约有 8k 个样本)。所以总体来说还不错,算法仍然需要大约 3 分钟,但从未失败过。

我可以采用那个解决方案,但如果可能的话,我更喜欢 Shazam,因为它是 O(N) 并且可能更快(也更酷)。多亏了添加评论,你们中的任何人是否都知道一种算法可以始终检测这些频谱图中的相同点(不一定是峰值)。

FFT 启动叮当 1

FFT开始叮当声2

FFT开始叮当声3

新更新

最后,我使用了上面解释的算法,我尝试实现 Shazam 算法,但未能在频谱图中找到合适的峰值,即从一个声音文件到另一个声音文件的识别点不是恒定的。理论上,Shazam 算法是这类问题的解决方案。Dave Aaron Smith 提出的 Hough 算法更加稳定有效。我拆分了大约 400 个文件,其中只有 20 个无法正确拆分。磁盘空间从 8GB 到 1GB。

谢谢你的帮助。

4

4 回答 4

4

这里有一个关于 shazam 服务所使用算法的描述(它识别一个给定可能有噪音的简短样本的音乐):http
://www.ee.columbia.edu/~dpwe/papers/Wang03-shazam.pdf 从我理解,首先要做的是隔离频谱图中的峰值(进行一些调整以确保均匀覆盖),这将从初始频谱图中给出一对值(时间;频率)的“星座”。完成后,通过将样本长度的窗口从开始到结束平移并计算相关点的数量,将样本星座与完整轨道的星座进行比较。
然后,该论文描述了他们发现的技术解决方案,即使有大量曲目也能够快速进行比较。

于 2011-04-14T11:29:03.570 回答
2

我想知道你是否可以使用霍夫变换。您将从对开场序列的每个步骤进行编目开始。假设您使用 10 毫秒的步长,而打开序列的长度为 50 毫秒。你计算每一步的一些指标并得到

1 10 1 17 5

现在检查您的音频并分析每个 10 毫秒的步骤以获取相同的指标。调用这个数组have_audio

8 10 8 7 5 1 10 1 17 6 2 10...

现在创建一个新的空数组,其长度与have_audio. 调用它start_votes。它将包含开场序列开始的“投票”。如果您看到 1,则您可能处于开局序列的第 1 步或第 3 步,因此您对 1 步前开始的开局序列有 1 票,对 3 步前开始的开局序列有 1 票。如果您看到 10,则您对 2 步前开始的开场序列有 1 票,4 步前有 17 票,依此类推。

所以对于那个例子have_audio,你votes会看起来像

2 0 0 1 0 4 0 0 0 0 0 1 ...

你在第 6 位有很多选票,所以开场顺序很有可能从第 6 位开始。

您可以通过不费心分析整个开场序列来提高性能。如果开场序列是 10 秒长,您可以只搜索前 5 秒。

于 2011-04-13T16:40:53.787 回答
2

这是一个很好的python包,它可以做到这一点:

https://code.google.com/p/py-astm/

如果您正在寻找一种特定的算法,可以使用“声学指纹”或“感知散列”这样的搜索词。

这是另一个也可以使用的python包:

http://rudd-o.com/new-projects/python-audioprocessing/documentation/manuals/algorithms/butterscotch-signatures

于 2011-04-13T18:55:26.453 回答
1

如果您已经知道叮当声序列,则可以分析与序列的相关性,而不是完整 15 分钟曲目之间的互相关性。

为了快速计算与(短)序列的相关性,我建议使用Wiener filter

编辑:维纳滤波器是一种在有噪声的序列中定位信号的方法。在这个应用程序中,我们将任何“不叮当”的东西都视为噪声(读者的问题:我们仍然可以假设噪声是白色的并且不相关吗?)。

我找到了我正在寻找的参考!我记得的公式有点不对劲,我现在将它们删除

相关页面是Wiener deconvolution。这个想法是我们可以定义一个系统,其脉冲响应h(t)具有与叮当声相同的波形,并且我们必须在嘈杂的序列中定位系统接收到脉冲的点(即:发出叮当声)。

由于叮当声是已知的,我们可以计算它的功率谱H(f),并且由于我们可以假设一个单一的叮当声出现在记录的序列中,我们可以说未知输入x(t)具有脉冲的形状,其功率密度S(f)在每个频率上都是恒定的.

鉴于以上知识,您可以使用公式获得“叮当声”滤波器(例如,只有形状像叮当声的信号才能通过),当播放叮当声时输出最高。

于 2011-04-13T16:00:37.143 回答