audio - Verizon SongID - 它是如何编程的？

Question

对于不熟悉 Verizon 的 SongID 程序的任何人，它是一个免费的应用程序，可通过 Verizon 的 VCast 网络下载。它会在歌曲的任何时候听一首歌 10 秒钟，然后将此数据发送给一些无所不知的算法野兽，它会咀嚼它并将所有 ID3 标签（艺术家、专辑、歌曲等）发回给你。

前两部分和最后一部分很简单，但是在发送录制的声音之后的处理过程中发生了什么？

我认为它必须获取声音文件（什么格式？），解析它（如何？用什么？）一些关键标识符（这些是什么？波函数的常规属性？相位/位移/幅度/等），并检查它针对数据库。

我在网上找到的所有关于它是如何工作的都是通用的，就像我在上面输入的一样。

该服务基于复杂的音频识别算法，结合了先进的音频指纹技术和大型歌曲数据库。当您上传音频文件时，音频引擎正在对其进行分析。在分析过程中，通过将其与音乐数据库进行比较来提取和识别其音频“指纹”。在此识别过程完成时，屏幕上会显示有关歌曲及其匹配概率的信息。

score 5 · Accepted Answer

所有这些服务的工作原理是从客户端的采样音频数据中获取“指纹”，将其发送到服务器并将其与指纹数据库进行比较。

Shazam的一位开发人员就该技术的工作原理撰写了一份内容丰富的白皮书。这应该为您提供所需的所有信息。

1 回答 1