我的大型 (120gb) 音乐收藏包含许多重复的歌曲,我一直在尝试对曲目进行指纹识别以检测重复。由于我是 CS 专业的,所以我很好奇那里做了什么?我所做的任何事情都几乎没有像 Shazam 或 Lala.com 这样的准确性。他们如何“散列”曲目?我已经对我的所有文件(26,000 个文件)运行了标准 MD5 哈希,并且在不同的轨道上发现了数百个相等的哈希,所以这不起作用。
我对 Lala.com 更感兴趣,因为它们处理完整文件,不像 Shazam,但我假设两者都使用类似的技术。谁能解释如何为音乐生成唯一标识符?